thảo luận Các thắc mắc cơ bản - Newbie đặt các câu hỏi cơ bản thì vào đây, không lập thread ngoài!!!

Status
Not open for further replies.
Chắc bác ấy hiểu hơi khác. Theo ý của tôi thì thế này:
Thím không nói rõ là cần hiệu quả (efficient) ở khía cạnh nào, data crawl về lưu một lần hay lưu theo thời gian (time-series). Tui ví dụ thím cần efficient writing (lưu càng nhanh càng tốt) cho time-series data thì csv là nhanh nhất (vì nó chỉ cần append vào cuối file), postgres thứ hai (vì nó cần update index, check constraint, etc) và cuối cùng là parquet (vì nó lưu theo column, nên thêm 1 data point là phải update toàn bộ column, chưa kể có compression nữa). Efficient reading thì postgres hoặc parquet, rồi cuối cùng là csv.
Tiết kiệm cũng cần làm rõ là tiết kiệm cái gì. Ví dụ lưu trữ thì parquet đứng đầu (có compression), rồi postgres (lưu theo byte) rồi csv (lưu theo text). Còn tiết kiệm RAM/CPU thì csv là tiết kiệm nhất, hai thằng còn lại thì tui ko chắc vì chưa dùng parquet nhiều.
tool của em là crawl dữ liệu xong lưu lại. Sau này lấy ra để phân tích, xuất báo cáo.
Em tính là crawl xong lưu thành file csv. Xong sẽ xuất qua
Chắc bác ấy hiểu hơi khác. Theo ý của tôi thì thế này:
Thím không nói rõ là cần hiệu quả (efficient) ở khía cạnh nào, data crawl về lưu một lần hay lưu theo thời gian (time-series). Tui ví dụ thím cần efficient writing (lưu càng nhanh càng tốt) cho time-series data thì csv là nhanh nhất (vì nó chỉ cần append vào cuối file), postgres thứ hai (vì nó cần update index, check constraint, etc) và cuối cùng là parquet (vì nó lưu theo column, nên thêm 1 data point là phải update toàn bộ column, chưa kể có compression nữa). Efficient reading thì postgres hoặc parquet, rồi cuối cùng là csv.
Tiết kiệm cũng cần làm rõ là tiết kiệm cái gì. Ví dụ lưu trữ thì parquet đứng đầu (có compression), rồi postgres (lưu theo byte) rồi csv (lưu theo text). Còn tiết kiệm RAM/CPU thì csv là tiết kiệm nhất, hai thằng còn lại thì tui ko chắc vì chưa dùng parquet nhiều.
1. Em crawl theo time serial. Tầm 1 phút/ line data. Vậy chẮc phương pháp lưu về csv trc. Sau đó chia ra để chuyển thành parquet để lưu thì ổn hơn đúng ko bác
Còn vụ tiết kiệm ram/cpu thì sao bác nhỉ.
Ý em lúc đầu là tiết kiệm dung lượng lưu trữ. Bác nói rõ vụ ram/cpu giúp em với. Em cảm ơn
 
tool của em là crawl dữ liệu xong lưu lại. Sau này lấy ra để phân tích, xuất báo cáo.
Em tính là crawl xong lưu thành file csv. Xong sẽ xuất qua

1. Em crawl theo time serial. Tầm 1 phút/ line data. Vậy chẮc phương pháp lưu về csv trc. Sau đó chia ra để chuyển thành parquet để lưu thì ổn hơn đúng ko bác
Còn vụ tiết kiệm ram/cpu thì sao bác nhỉ.
Ý em lúc đầu là tiết kiệm dung lượng lưu trữ. Bác nói rõ vụ ram/cpu giúp em với. Em cảm ơn
Mình cực kỳ kỵ việc dùng csv trong lưu trữ dữ liệu, vì nó không chứa thông tin schema và dễ lỗi nếu không có kinh nghiệm khi thêm/sửa/xóa column. Nếu lưu xuống file mình thấy json dễ sử dụng nhất, tốt hơn thì có thể tìm hiểu avro. Parquet chỉ cần thiết với dữ liệu lớn.

Dữ liệu 1 phút / record thực ra khá nhỏ nên lưu kiểu gì cũng được, crawl 1 năm mà chỉ khoảng 500k records thì thậm chí lôi hết lên memory xử lý cũng được, không cần quá đắn đo. Nếu muốn đơn giản nhanh gọn thì lưu vào postgres là đủ rồi.
 
Mình cực kỳ kỵ việc dùng csv trong lưu trữ dữ liệu, vì nó không chứa thông tin schema và dễ lỗi nếu không có kinh nghiệm khi thêm/sửa/xóa column. Nếu lưu xuống file mình thấy json dễ sử dụng nhất, tốt hơn thì có thể tìm hiểu avro.

Dữ liệu 1 phút / record thực ra khá nhỏ nên lưu kiểu gì cũng được, không cần quá đắn đo. Nếu muốn đơn giản nhanh gọn thì lưu vào postgres là đủ rồi.
Em còn back up, lưu trữ trên cloud nữa bác. Chi phí Storage cũng khá tốn kém, nên cũng đang lăn tăng
 
Em còn back up, lưu trữ trên cloud nữa bác. Chi phí Storage cũng khá tốn kém, nên cũng đang lăn tăng
Bác ước lượng xem dữ liệu khoảng bao nhiêu GB/ tháng. không biết mình có hiểu sai gì không chứ nếu 1 phút 1 record, mỗi record 1 KB thì dữ liệu cả năm cũng chỉ là 500 MB chưa compress.
 
Bác ước lượng xem dữ liệu khoảng bao nhiêu GB/ tháng. không biết mình có hiểu sai gì không chứ nếu 1 phút 1 record, mỗi record 1 KB thì dữ liệu cả năm cũng chỉ là 500 MB chưa compress.
1 phút 1 record cho 1 trang thôi bác ơi. Em crawl cả ngàn trang.
Bữa giờ crawl 1 ngày mà đã lên 20GB
 
Mn ơi cho em xin chút ý kiến ạ
Em có thực tập ở 1 công ty nhật partime 3 tháng, đến 1/7 này kí hợp đồng.
Em nghe nói từ bạn của bạn em bảo kí hợp đồng fresher 6-1năm, mà lương 6tr/tháng fulltime
Em thắc mắc tầm khoảng bao lâu thì từ fresher lên junior, và với mức lương ấy có ổn không ạ?
 
Mn ơi cho em xin chút ý kiến ạ
Em có thực tập ở 1 công ty nhật partime 3 tháng, đến 1/7 này kí hợp đồng.
Em nghe nói từ bạn của bạn em bảo kí hợp đồng fresher 6-1năm, mà lương 6tr/tháng fulltime
Em thắc mắc tầm khoảng bao lâu thì từ fresher lên junior, và với mức lương ấy có ổn không ạ?

Chạy gấp em ơi, lương thua công nhân khu cn nữa :censored::censored:

Sent from Xiaomi M2102J20SI using vozFApp
 
vậy a cho cái chuẩn lương 2022 fresher cho đỡ hố đi a
Fresher hay junior chỉ là title do cty đặt ra thôi không cần quá bận tâm đâu. Lương mới ra trường thì ở SG min phải từ 8tr gross, còn max thì vô chừng không rõ.
 
10 củ. Thấp hơn thì là hố.

Sent from Xiaomi M2102J20SI using vozFApp
Lúc pv thì pv về java, xong vào họ dạy outsystem á. Giờ lỡ theo rồi, bỏ đi thì tiếc time học quá ạ. Lúc kí hợp đồng được deal lương không nhỉ? Em thấy mn bảo lương 7m trừ đi bảo hiểm các thứ còn 6m
 
Các bác cho mình hỏi trong lập trình web có mấy loại session nhỉ ? Mình trước giờ dùng mỗi JWT nên cái cookie vs session hơi ngu có gì anh em cho mình link đọc cũng được
 
Các bác cho em xin động lực và ý tưởng làm pet project với ạ, trước lúc đi học còn có động lực làm pet project, giờ đi làm loay hoay công việc bạn bè gđ ny chả có thời gian lẫn động lực làm thêm cái gì. Sẵn tiện nếu theo hướng quản lý thì mình nên học những kĩ năng nào ngoài tech ạ? Hiện tại em đang fullstack nodejs + vue (BE focus) ạ.

via theNEXTvoz for iPhone
 
Lúc pv thì pv về java, xong vào họ dạy outsystem á. Giờ lỡ theo rồi, bỏ đi thì tiếc time học quá ạ. Lúc kí hợp đồng được deal lương không nhỉ? Em thấy mn bảo lương 7m trừ đi bảo hiểm các thứ còn 6m
con gái học đc code java đó, bạn c2 nó code java 6-7 năm rùi, vẫn có người yêu, lấy chồng bình thường, chồng cũng code mà code kém nó
 
Status
Not open for further replies.
Back
Top