Tôm đất
Senior Member
tool của em là crawl dữ liệu xong lưu lại. Sau này lấy ra để phân tích, xuất báo cáo.Chắc bác ấy hiểu hơi khác. Theo ý của tôi thì thế này:
Thím không nói rõ là cần hiệu quả (efficient) ở khía cạnh nào, data crawl về lưu một lần hay lưu theo thời gian (time-series). Tui ví dụ thím cần efficient writing (lưu càng nhanh càng tốt) cho time-series data thì csv là nhanh nhất (vì nó chỉ cần append vào cuối file), postgres thứ hai (vì nó cần update index, check constraint, etc) và cuối cùng là parquet (vì nó lưu theo column, nên thêm 1 data point là phải update toàn bộ column, chưa kể có compression nữa). Efficient reading thì postgres hoặc parquet, rồi cuối cùng là csv.
Tiết kiệm cũng cần làm rõ là tiết kiệm cái gì. Ví dụ lưu trữ thì parquet đứng đầu (có compression), rồi postgres (lưu theo byte) rồi csv (lưu theo text). Còn tiết kiệm RAM/CPU thì csv là tiết kiệm nhất, hai thằng còn lại thì tui ko chắc vì chưa dùng parquet nhiều.
Em tính là crawl xong lưu thành file csv. Xong sẽ xuất qua
1. Em crawl theo time serial. Tầm 1 phút/ line data. Vậy chẮc phương pháp lưu về csv trc. Sau đó chia ra để chuyển thành parquet để lưu thì ổn hơn đúng ko bácChắc bác ấy hiểu hơi khác. Theo ý của tôi thì thế này:
Thím không nói rõ là cần hiệu quả (efficient) ở khía cạnh nào, data crawl về lưu một lần hay lưu theo thời gian (time-series). Tui ví dụ thím cần efficient writing (lưu càng nhanh càng tốt) cho time-series data thì csv là nhanh nhất (vì nó chỉ cần append vào cuối file), postgres thứ hai (vì nó cần update index, check constraint, etc) và cuối cùng là parquet (vì nó lưu theo column, nên thêm 1 data point là phải update toàn bộ column, chưa kể có compression nữa). Efficient reading thì postgres hoặc parquet, rồi cuối cùng là csv.
Tiết kiệm cũng cần làm rõ là tiết kiệm cái gì. Ví dụ lưu trữ thì parquet đứng đầu (có compression), rồi postgres (lưu theo byte) rồi csv (lưu theo text). Còn tiết kiệm RAM/CPU thì csv là tiết kiệm nhất, hai thằng còn lại thì tui ko chắc vì chưa dùng parquet nhiều.
Còn vụ tiết kiệm ram/cpu thì sao bác nhỉ.
Ý em lúc đầu là tiết kiệm dung lượng lưu trữ. Bác nói rõ vụ ram/cpu giúp em với. Em cảm ơn