thắc mắc Phân tích dữ liệu- lộ trình học cho người mới

Clean data là xử lý missing, bỏ outliers, correct errors,... mấy cái này tốt nhất là plot nó lên xem distribution hoặc tính frequency chứ lúc data chưa clean mà tính mean, median, std... thì nó bị bias rồi.

Còn vụ so sánh mean với median có lệch nhiều ko là do phân phối của biến đó nó ko phải là phân phối chuẩn, nó bị skew. Ko ai nói clean data xong là mean với median gần nhau hết. Còn muốn nó gần nhau thì là phải transform sang log, luỹ thừa để biến nó thành phân phối chuẩn.

Mà thím có làm về data ko vậy?

via theNEXTvoz for iPhone
Hồi trước mình giải 10 days challenge statistical của HackerRank. Trong video nó có giải thích sơ sơ ý nghĩa của từng chỉ số thống kê chưa mình ko phải dân chuyên.
 
Cái mình muốn nói là có một số người so sánh mean vs median, nếu 2 số này chênh lệch nhiều thì dữ liệu vẫn còn bị nhiễu. Lúc đó cần phải loại bỏ các record ngoại lệ (Remove outlier)
Thực sự mấy cái chỉ số thống kê rất quan trọng, chả qua mấy bố không hiểu rõ, hiểu sâu thôi.
Ông có nhầm giữa chuẩn hóa data với làm sạch data không vậy? Nó skewed hay không, nó phân phối chuẩn hay không thì data nó vẫn clean là được.
 
Last edited:
Ông có nhầm giữa chuẩn hóa data với làm sạch data không vậy? Nó skewed hay không, nó phân phối chuẩn hay không thì data nó vẫn clean là được.
Liên quan gì tới chuẩn hóa.
Hiện tại theo mình hiểu là data cleaning là gồm nhiều hoạt động như: tìm và xử lý missing, loại bỏ outlier,...
Và trước mình đọc thì thấy có phương pháp để xác định sơ trước dataset đó có outlier hay ko thì so sánh giữa mean vs median. Còn cao siêu hơn thì mấy bác dựng đồ thì này nọ rồi nhìn chart thì sẽ thấy.
 
Và trước mình đọc thì thấy có phương pháp để xác định sơ trước dataset đó có outlier hay ko thì so sánh giữa mean vs median. Còn cao siêu hơn thì mấy bác dựng đồ thì này nọ rồi nhìn chart thì sẽ thấy.
Người ta đọc trong dataset rồi tính IQR là ra outlier (< Q1-1.5*IQR or > Q3+1.5*IQR) thôi bạn, vẽ chart/plot ra cũng có thấy được đâu :go:
Bạn định remove outlier bằng tọa độ trên plot à :go:
Q1 = np.quantile(data,0.25)​
Q3 = np.quantile(data,0.75)​
IQR = Q3 - Q1​
 
Clean data là xử lý missing, bỏ outliers, correct errors,... mấy cái này tốt nhất là plot nó lên xem distribution hoặc tính frequency chứ lúc data chưa clean mà tính mean, median, std... thì nó bị bias rồi.

Còn vụ so sánh mean với median có lệch nhiều ko là do phân phối của biến đó nó ko phải là phân phối chuẩn, nó bị skew. Ko ai nói clean data xong là mean với median gần nhau hết. Còn muốn nó gần nhau thì là phải transform sang log, luỹ thừa để biến nó thành phân phối chuẩn.

Mà thím có làm về data ko vậy?

via theNEXTvoz for iPhone
Mới ra trường hả fen? :embarrassed:
 
1. Domain knowledge này em nói thẳng đéo dành cho junior cóc nhái mới ra trường 1 2 năm. Tức là ném cái đống số liệu sổ sách rồi tự phân tích bằng excel ra insight thôi là ngáo mẹ rồi.
2. Và skill này cũng nói thằng là đéo dành cho những cô những cậu học mấy khóa mì ăn liền 6 tháng. Vì sao chắc bác cũng hiểu.

Mình nói thẳng, hơi mếch lòng nhưng còn hơn để bạn sa lầy.
Bạn muốn làm data analyst thì bạn phải có domain knowledge của chính cái ngành business mà bạn làm từ 2 năm trở lên. Thậm chí là 3 năm để có được cái nhìn vừa tổng thể và vừa chi tiết.
Có những domain knowledge này thì bạn mới có được các insight đặc trưng của ngành.
Chứ đm kiểu lái máy bay tiêm kích với 500 giờ thực hành là đéo bay nổi đâu.

Tiếp nữa là bạn tiệp xúc với đống sổ sách giấy tờ ok ra insight rồi. Nhưng đụng vào đống data thật là 1 đống rác. Tức là để có được đống data sạch bạn cần tới 80% thời gian để clean nó.
Và thằng Engineer đéo rảnh đi extract, transform, clean, load cho bạn đâu. Bạn phải tự làm thôi. :go:

Đừng mơ mộng nhiều quá.
Take note
 
Bên VN thì thấy SQL , Excel là chủ yếu
Chia sẻ thêm cho các fen: bên mình dùng SpotFire, làm với các brands lớn, thấy về tư duy thì cũng như mấy cái kia thôi
Nhưng đọc thêm để bỏ vào CV, tăng cơ hội hơn
 
Back
Top