thắc mắc Phân tích dữ liệu- lộ trình học cho người mới

nguyenluc900 · Aug 21, 2020

Thích Màu Hường said:
Clean data là xử lý missing, bỏ outliers, correct errors,... mấy cái này tốt nhất là plot nó lên xem distribution hoặc tính frequency chứ lúc data chưa clean mà tính mean, median, std... thì nó bị bias rồi.

Còn vụ so sánh mean với median có lệch nhiều ko là do phân phối của biến đó nó ko phải là phân phối chuẩn, nó bị skew. Ko ai nói clean data xong là mean với median gần nhau hết. Còn muốn nó gần nhau thì là phải transform sang log, luỹ thừa để biến nó thành phân phối chuẩn.

Mà thím có làm về data ko vậy?

via theNEXTvoz for iPhone

Hồi trước mình giải 10 days challenge statistical của HackerRank. Trong video nó có giải thích sơ sơ ý nghĩa của từng chỉ số thống kê chưa mình ko phải dân chuyên.

luvziro · Aug 21, 2020

nguyenluc900 said:
Cái mình muốn nói là có một số người so sánh mean vs median, nếu 2 số này chênh lệch nhiều thì dữ liệu vẫn còn bị nhiễu. Lúc đó cần phải loại bỏ các record ngoại lệ (Remove outlier)
Thực sự mấy cái chỉ số thống kê rất quan trọng, chả qua mấy bố không hiểu rõ, hiểu sâu thôi.

Ông có nhầm giữa chuẩn hóa data với làm sạch data không vậy? Nó skewed hay không, nó phân phối chuẩn hay không thì data nó vẫn clean là được.

nguyenluc900 · Aug 21, 2020

luvziro said:
Ông có nhầm giữa chuẩn hóa data với làm sạch data không vậy? Nó skewed hay không, nó phân phối chuẩn hay không thì data nó vẫn clean là được.

Liên quan gì tới chuẩn hóa.
Hiện tại theo mình hiểu là data cleaning là gồm nhiều hoạt động như: tìm và xử lý missing, loại bỏ outlier,...
Và trước mình đọc thì thấy có phương pháp để xác định sơ trước dataset đó có outlier hay ko thì so sánh giữa mean vs median. Còn cao siêu hơn thì mấy bác dựng đồ thì này nọ rồi nhìn chart thì sẽ thấy.

luvziro · Aug 21, 2020

nguyenluc900 said:
Và trước mình đọc thì thấy có phương pháp để xác định sơ trước dataset đó có outlier hay ko thì so sánh giữa mean vs median. Còn cao siêu hơn thì mấy bác dựng đồ thì này nọ rồi nhìn chart thì sẽ thấy.

Người ta đọc trong dataset rồi tính IQR là ra outlier (< Q1-1.5*IQR or > Q3+1.5*IQR) thôi bạn, vẽ chart/plot ra cũng có thấy được đâu :go:

Bạn định remove outlier bằng tọa độ trên plot à :go:

Q1 = np.quantile(data,0.25)
Q3 = np.quantile(data,0.75)
IQR = Q3 - Q1

Thích Màu Hường · Aug 21, 2020

luvziro said:
Người ta đọc trong dataset rồi tính IQR là ra outlier (< Q1-1.5*IQR or > Q3+1.5*IQR) thôi bạn, vẽ chart/plot ra cũng có thấy được đâu
Bạn định remove outlier bằng tọa độ trên plot à

Cái thím nói là Box plot đấy thôi :shame:

luvziro · Aug 21, 2020

Thích Màu Hường said:
Cái thím nói là Box plot đấy thôi

Box plot là dạng visualize còn remove outlier thì cần gì visualize

Thích Màu Hường · Aug 21, 2020

luvziro said:
Box plot là dạng visualize còn remove outlier thì cần gì visualize

Làm data bao giờ cũng phải plot lên xem mặt mũi nó ra thế nào. Cái công thức của bác phía trên ko phải áp dụng răm rắp là được. Thậm chí nhiều trường hợp plot xong thấy là không nên remove outliers

via theNEXTvoz for iPhone

hohohahaclone · Aug 21, 2020

Thích Màu Hường said:
Clean data là xử lý missing, bỏ outliers, correct errors,... mấy cái này tốt nhất là plot nó lên xem distribution hoặc tính frequency chứ lúc data chưa clean mà tính mean, median, std... thì nó bị bias rồi.

Còn vụ so sánh mean với median có lệch nhiều ko là do phân phối của biến đó nó ko phải là phân phối chuẩn, nó bị skew. Ko ai nói clean data xong là mean với median gần nhau hết. Còn muốn nó gần nhau thì là phải transform sang log, luỹ thừa để biến nó thành phân phối chuẩn.

Mà thím có làm về data ko vậy?

via theNEXTvoz for iPhone

Mới ra trường hả fen? :embarrassed:

Thích Màu Hường · Aug 21, 2020

hohohahaclone said:
Mới ra trường hả fen?

Từ bên kia sao chạy qua đây rồi thím? Ý thím là sao :shame:

via theNEXTvoz for iPhone

hohohahaclone · Aug 21, 2020

Thích Màu Hường said:
Từ bên kia sao chạy qua đây rồi thím? Ý thím là sao

via theNEXTvoz for iPhone

haduydung · Nov 7, 2023

luvziro said:
1. Domain knowledge này em nói thẳng đéo dành cho junior cóc nhái mới ra trường 1 2 năm. Tức là ném cái đống số liệu sổ sách rồi tự phân tích bằng excel ra insight thôi là ngáo mẹ rồi.
2. Và skill này cũng nói thằng là đéo dành cho những cô những cậu học mấy khóa mì ăn liền 6 tháng. Vì sao chắc bác cũng hiểu.

Mình nói thẳng, hơi mếch lòng nhưng còn hơn để bạn sa lầy.
Bạn muốn làm data analyst thì bạn phải có domain knowledge của chính cái ngành business mà bạn làm từ 2 năm trở lên. Thậm chí là 3 năm để có được cái nhìn vừa tổng thể và vừa chi tiết.
Có những domain knowledge này thì bạn mới có được các insight đặc trưng của ngành.
Chứ đm kiểu lái máy bay tiêm kích với 500 giờ thực hành là đéo bay nổi đâu.

Tiếp nữa là bạn tiệp xúc với đống sổ sách giấy tờ ok ra insight rồi. Nhưng đụng vào đống data thật là 1 đống rác. Tức là để có được đống data sạch bạn cần tới 80% thời gian để clean nó.
Và thằng Engineer đéo rảnh đi extract, transform, clean, load cho bạn đâu. Bạn phải tự làm thôi.

Đừng mơ mộng nhiều quá.

Take note

DeutschlandGreatAgain · Nov 7, 2023

Bên VN thì thấy SQL , Excel là chủ yếu
Chia sẻ thêm cho các fen: bên mình dùng SpotFire, làm với các brands lớn, thấy về tư duy thì cũng như mấy cái kia thôi
Nhưng đọc thêm để bỏ vào CV, tăng cơ hội hơn

thắc mắc Phân tích dữ liệu- lộ trình học cho người mới

nguyenluc900

Member

luvziro

Senior Member

nguyenluc900

Member

luvziro

Senior Member

Thích Màu Hường

Senior Member

luvziro

Senior Member

Thích Màu Hường

Senior Member

hohohahaclone

Junior Member

Thích Màu Hường

Senior Member

hohohahaclone

Junior Member

haduydung

Senior Member

DeutschlandGreatAgain

Senior Member

Similar threads

Share this page