thắc mắc Lấy dữ liệu trên web

tivisony

Đã tốn tiền
Chào các bác, tôi không phải dân IT nhưng đang có nhu cầu muốn thu thập dữ liệu trên một web trong một khoảng time, từ đó dùng dữ liệu đó để phân tích và kết luận. Tôi seach trên mạng thấy một số hướng dẫn lấy dữ liệu dạng crawl, tuy nhiên vấn đề tôi gặp phải là dữ liệu hiển thị ở web không cố định mà nó thay đổi liên tục (vd như tôi muốn lấy giá trị của 1 mã chứng khoán trong thời gian giao dịch chẳng hạn, hoặc dữ liệu của kênh chat lúc đang live stream) mong các bác tư vấn và cho tôi hướng tìm hiểu. Cảm ơn các bác nhiều.
 
Vẫn là crawl thôi, bạn muốn nhanh thì thuê người làm, mô tả đầy đủ chức năng là có người support tận răng, trả tiền là xong chuyện.
Còn chi tiết hơn thì tuỳ bạn muốn lấy dữ liệu gì, mấy cái cơ bản thì ví dụ như wordpress cũng crawl đc, sâu xa hơn thì lại đụng vào code, bạn phải biết lập trình thì mới làm đc.
Tuỳ bạn, muốn mất tiền hay mất thời gian thôi.

Đấy là lấy data về thôi, còn phân tích như nào, kết luận như nào lại là vấn đề khác.
 
Vẫn là crawl thôi, bạn muốn nhanh thì thuê người làm, mô tả đầy đủ chức năng là có người support tận răng, trả tiền là xong chuyện.
Còn chi tiết hơn thì tuỳ bạn muốn lấy dữ liệu gì, mấy cái cơ bản thì ví dụ như wordpress cũng crawl đc, sâu xa hơn thì lại đụng vào code, bạn phải biết lập trình thì mới làm đc.
Tuỳ bạn, muốn mất tiền hay mất thời gian thôi.

Đấy là lấy data về thôi, còn phân tích như nào, kết luận như nào lại là vấn đề khác.
Đợt này tôi đang có thời gian rảnh nên muốn tìm hiểu trước bác ạ
 
muốn lấy dữ liệu realtime thì cho interval giữa các request càng nhỏ càng tốt thôi bác.
 
Nếu là một website có URL rồi thì bác có thể giả lập browser sau đó sử dụng một số WEB APIs để trích xuất nội dung hoặc theo dõi network các thứ.
 
Crawl gì thì cơ bản cũng có mấy bước thôi bác:
1. Tìm hiểu source, check xem nó là tĩnh (static), hay động (javascript), hoặc thơm là api endpoint
2. Dựa vào 1 để tìm library/framework phù hợp. Nếu là api endpoint/static thì requests/aiohttp, javascript thì selenium, còn thích dùng framework thì scrapy (hỗ trợ hết 1, nhưng học cũng vất vả hơn)
3. Optional (tối ưu): async, threading, rate-limit, proxy (tránh bị ban)
4. Clean data (có thể dùng pandas, beautiful soup), xử lý data
Về case của bạn có 2 cách: data thay đổi liên tục nhưng nếu là chứng khoán, coin thì kiểu gì cũng có dữ liệu history được public, tìm endpoint nào cung cấp thôi. 2 là gửi request theo interval chạy ngày đêm (lưu kết quả vào db hoặc file thì tuỳ).
 
Back
Top