thắc mắc Phân tích dữ liệu- lộ trình học cho người mới

1. Domain knowledge này em nói thẳng đéo dành cho junior cóc nhái mới ra trường 1 2 năm. Tức là ném cái đống số liệu sổ sách rồi tự phân tích bằng excel ra insight thôi là ngáo mẹ rồi.
2. Và skill này cũng nói thằng là đéo dành cho những cô những cậu học mấy khóa mì ăn liền 6 tháng. Vì sao chắc bác cũng hiểu.

Mình nói thẳng, hơi mếch lòng nhưng còn hơn để bạn sa lầy.
Bạn muốn làm data analyst thì bạn phải có domain knowledge của chính cái ngành business mà bạn làm từ 2 năm trở lên. Thậm chí là 3 năm để có được cái nhìn vừa tổng thể và vừa chi tiết.
Có những domain knowledge này thì bạn mới có được các insight đặc trưng của ngành.
Chứ đm kiểu lái máy bay tiêm kích với 500 giờ thực hành là đéo bay nổi đâu.

Tiếp nữa là bạn tiệp xúc với đống sổ sách giấy tờ ok ra insight rồi. Nhưng đụng vào đống data thật là 1 đống rác. Tức là để có được đống data sạch bạn cần tới 80% thời gian để clean nó.
Và thằng Engineer đéo rảnh đi extract, transform, clean, load cho bạn đâu. Bạn phải tự làm thôi. :go:

Đừng mơ mộng nhiều quá.

Đức.
Vậy cao kiến của thím là gì, học cái nào trước, cái nào sau để trở thành Data Anlysist thực thụ? Chú trọng vào domain knowledge trước hay tools trước, cụ thể thứ tự hoc thế nào :shame:
 
Đức.
Vậy cao kiến của thím là gì, học cái nào trước, cái nào sau để trở thành Data Anlysist thực thụ? Chú trọng vào domain knowledge trước hay tools trước, cụ thể thứ tự hoc thế nào :shame:
Làm business 3 năm. Tối đi học Tech.
Tầm 1 năm là có thể dùng tech phục vụ công việc.
 
Làm business 3 năm. Tối đi học Tech.
Tầm 1 năm là có thể dùng tech phục vụ công việc.

OK, domain knowledge thì tùy ai theo ngành nào tự nghiên cứu ngành đó rồi.

Còn về tech thì cụ thể nên biết cái gì? Ko bàn mấy cái như python, libs, tools vì nếu ai background IT thì học dễ thôi, nhưng còn những cái lý thuyết về toán, thống kê.. v...v.. thì thím cho biết cái gì là "must know" khi muốn bước chân vào cái nghề này được ko?
 
OK, domain knowledge thì tùy ai theo ngành nào tự nghiên cứu ngành đó rồi.

Còn về tech thì cụ thể nên biết cái gì? Ko bàn mấy cái như python, libs, tools vì nếu ai background IT thì học dễ thôi, nhưng còn những cái lý thuyết về toán, thống kê.. v...v.. thì thím cho biết cái gì là "must know" khi muốn bước chân vào cái nghề này được ko?

Có học nhé.
Mình tưởng bộ 3 môn toán hồi đại học là sinh viên kinh tế nào cũng phải học rồi?
Toán cao cấp
Xác suất thống kê
Kinh tế lượng

Nếu chưa học thì phải học thêm nhé.
 
Có học nhé.
Mình tưởng bộ 3 môn toán hồi đại học là sinh viên kinh tế nào cũng phải học rồi?
Toán cao cấp
Xác suất thống kê
Kinh tế lượng

Nếu chưa học thì phải học thêm nhé.

Thanks thím! Nhưng ý mình là cụ thể trong đó là cái gì cần phải biết và nó áp dụng thế nào trong phân tích dữ liệu chứ nói chung chung vậy thì khi học ko biết chú trọng cái gì.

Ví dụ như toán cao cấp theo mình nhớ có tích phân 2 lớp, 3 lớp..., đạo hàm, vi phân các kiểu. Trong môi trường làm việc bên ngoài. Một nhân viên phân tích dữ liệu có thật sự cần phải biết tính tích phân 2,3 lớp? Nếu có thì cho ví dụ cụ thể nhé.

Còn thống kê thì mình biết đếm, biết tính phần trăm, trung bình cộng vậy đủ chưa?

Tại sao mình hỏi cái này vì mổi lần hỏi về con đường học Data Analysis ai cũng đem mấy cái này ra hù dọa nhưng kinh nghiệm đi làm thực tế ko biết có ai từng phải làm tới nó và áp dụng nó vào trong công việc chưa.
 
Còn thống kê thì mình biết đếm, biết tính phần trăm, trung bình cộng vậy đủ chưa?

Tại sao mình hỏi cái này vì mổi lần hỏi về con đường học Data Analysis ai cũng đem mấy cái này ra hù dọa nhưng kinh nghiệm đi làm thực tế ko biết có ai từng phải làm tới nó và áp dụng nó vào trong công việc chưa.

Toán cao cấp thì môn đó sinh viên nào cũng học, ít áp dụng.
Nhưng thống kê thì áp dụng cực kỳ nhiều.
 
Toán cao cấp thì môn đó sinh viên nào cũng học, ít áp dụng.
Nhưng thống kê thì áp dụng cực kỳ nhiều.

Thanks! Bác cho ví dụ về áp dụng thống kê khi làm DA được ko? Nếu chỉ là tính bao nhiêu % trai, gái, nhóm tuổi, tính trung bình này nọ thì ai cũng làm được rồi. :shame:
 
Mình ko phải là data analyst chuyên nhưng mình là người lớn lên cùng với team data từ những ngày đầu hệ thống, những ngày đầu khi team chỉ có 1, 2 người, khi chưa có data analyst chuyên thì mình là người tự tay đi đào bới insight. Sau này analyst chuyên vào thì mình không làm những việc của tầng phía bên trên nữa, nhưng mình vẫn theo dõi/quan sát những việc mà tầng bên trên làm.

Bạn analyst bên mình là dân kinh tế, ngày mới vào chỉ biết Excel, SQL không biết, càng không biết đến business của hệ thống. Team data bên mình những ngày đầu là một chuỗi hỗn loạn ở tất mọi khâu, mà thật ra đến giờ nó cũng chẳng khác gì, chỉ là có 1 số khâu, quy trình trong hệ thống nó có vẻ rõ ràng hơn so với những ngày đầu.

Những ngày đầu thì những report metric nó chỉ quanh quẩn ở những metric đơn giản, như số lượng xử lý được ở mảng này mảng kia, sau phát triển hơn, các metric phức tạp, tinh vi hơnn hơn bắt đầu lật qua lật lại các con số đó dưới rất nhiều các góc nhìn khác nhau, tìm ra các con số và các góc nhìn mà nó thực sự có ý nghĩa.... Rồi thể hiện tỉ lệ, rồi so sánh, trend tăng giảm trong các quãng thời gian ABC.....

Với các "report" dạng phân tích chứng minh, thực ra mình nghĩ nó có thể đến từ 2 cách làm. Từ 1 chuyên đề, có thể cá nhân 1 analyst tự làm với cách làm là thứ mà mình nói như trên, những cũng có 1 hướng khác là không phải 1 cá nhân làm, mà là cả 1 đám bay vào phòng họp, từ C-level, trưởng 1 nhóm liên quan cho đến analyst của team data, cả data engineer cũng bị lôi vào, rồi đâm chém nhau gì đó trong phòng họp với metric report của mục trên được filter dưới quan điểm của người đưa và bảo vệ quan điểm và người phản bác quan điểm. Chuyện mọi người nghĩ khác nhau quan điểm là bình thường, người có kinh nghiệm về hệ thống nhưng bị bias vì thói quen, người ko có kinh nghiệm về hệ thống nhưng lại phát hiện được pattern data bất thường, là thứ quá là bình thường. Đâm chém nhau xong rồi thì rút ra quyết định, hoặc là quyết định theo dõi thêm, đều là chuyện bình thường.

Ở chỗ khác thì mình ko rõ, nhưng bên mình thì những vấn đề cần giải quyết hầu hết nó cũng kiểu như như cái vấn đề trong cái hình này thôi. Phương pháp làm cũng na ná vậy. Mình ko nghĩ những phương pháp kiểu thế này là một thứ gì đó quá cao siêu cả. Trong nội bộ team cũng có nhiều người với các hiểu biết về hệ thống/kĩ thuật khác nhau và góc nhìn nhận vấn đề khác nhau. Mọi người bổ sung cho nhau để hướng đến mục tiêu chung: tạo ra impact.

1597739762243.png


Dĩ nhiên cũng có những vấn đề khác rất phức tạm với những cách giải rất phức tạp (như vụ build model ML dự đoán số lượng đơn hàng trong tương lai chẳng hạn), tuy nhiên những thứ này thường bị ưu tiên thấp do chi phí/thu hoạch thấp, trong khi có rất nhiều thứ rõ ràng có tiềm năng hơn rất nhiều mà cách thực hiện lại đơn giản.....
 
Last edited:
Với các "report" dạng phân tích chứng minh, thực ra mình nghĩ nó có thể đến từ 2 cách làm. Từ 1 chuyên đề, có thể cá nhân 1 analyst tự làm với cách làm là thứ mà mình nói như trên, những cũng có 1 hướng khác là không phải 1 cá nhân làm, mà là cả 1 đám bay vào phòng họp, từ C-level, trưởng 1 nhóm liên quan cho đến analyst của team data, cả data engineer cũng bị lôi vào, rồi đâm chém nhau gì đó trong phòng họp với metric report của mục trên được filter dưới quan điểm của người đưa và bảo vệ quan điểm và người phản bác quan điểm. Chuyện mọi người nghĩ khác nhau quan điểm là bình thường, người có kinh nghiệm về hệ thống nhưng bị bias vì thói quen, người ko có kinh nghiệm về hệ thống nhưng lại phát hiện được pattern data bất thường, là thứ quá là bình thường. Đâm chém nhau xong rồi thì rút ra quyết định, hoặc là quyết định theo dõi thêm, đều là chuyện bình thường.

Nghe thím kể thì có vẻ team thím thiếu 1 expert thật sự hiểu các bước làm Data Analysis. Cái này là tình trạng chung của các cty làm về data hiện giờ. Chắc mổi lần họp sẽ cãi nhau về chuyện nên làm report thế nào, show cái gì, filter theo cái gì, hay kết luận nguyên nhân/kết quả dựa trên cảm tính. Ko biết là bên thím mổi lần rút ra kết luận 1 điều gì đó ngoài việc show report thì có chứng minh, kiểm định cái giả thuyết đó bằng thống kê hay chỉ phán vì mình "nhìn" report thấy vậy và "nghĩ" là kết luận vậy là hợp lý?

Tôi cũng từng làm trong môi trường giống vậy nên cảm thấy ko học hỏi đc nhiều. Hóng các cao nhân khác vào chia sẽ thêm.
 
Nghe thím kể thì có vẻ team thím thiếu 1 expert thật sự hiểu các bước làm Data Analysis. Cái này là tình trạng chung của các cty làm về data hiện giờ. Chắc mổi lần họp sẽ cãi nhau về chuyện nên làm report thế nào, show cái gì, filter theo cái gì, hay kết luận nguyên nhân/kết quả dựa trên cảm tính. Ko biết là bên thím mổi lần rút ra kết luận 1 điều gì đó ngoài việc show report thì có chứng minh, kiểm định cái giả thuyết đó bằng thống kê hay chỉ phán vì mình "nhìn" report thấy vậy và "nghĩ" là kết luận vậy là hợp lý?

Tôi cũng từng làm trong môi trường giống vậy nên cảm thấy ko học hỏi đc nhiều. Hóng các cao nhân khác vào chia sẽ thêm.

Mình chưa hiểu lắm ý bạn, nhưng mà bên mình thì giả sử 1 phát biểu: "Vấn đề không nằm ở A" thì cách chứng minh sẽ là "với data có A hay không thì kết quả không có sự thay đổi lớn"/"nó chỉ có thay đổi lớn trong trường hợp nào đó mà trường hợp đó lại là bias blah blah....", mà "B mới là vấn đề" thì "data với B tạo ra sự khác biệt về kết quả rõ ràng so với data ko có B"/"xét về số tổng, data với B có thể ko có khác biệt, nhưng nếu nhìn dưới góc độ này, thì khác biệt là cực lớn.....". Rồi là dẫn ra các lí do về thực tế để có thể giải thích rằng tại sao nhận định là B từ data là hợp lí.... Bọn mình làm là theo kiểu kiểu như thế.

Ở trong phòng họp thì mọi người đều có thể nêu quan điểm riêng của mình và tìm cách để chứng minh luận điểm. Và mình cho rằng nhiệm vụ của data analyst thì tìm ra vấn đề/giải pháp là một phần, chứng minh và thuyết phục người có quyền ra quyết định tin/nghe theo cách của mình cũng là một công việc quan trọng không kém.
 
Mình chưa hiểu lắm ý bạn, nhưng mà bên mình thì giả sử 1 phát biểu: "Vấn đề không nằm ở A" thì cách chứng minh sẽ là "với data có A hay không thì kết quả không có sự thay đổi lớn"/"nó chỉ có thay đổi lớn trong trường hợp nào đó mà trường hợp đó lại là bias blah blah....", mà "B mới là vấn đề" thì "data với B tạo ra sự khác biệt về kết quả rõ ràng so với data ko có B"/"xét về số tổng, data với B có thể ko có khác biệt, nhưng nếu nhìn dưới góc độ này, thì khác biệt là cực lớn.....". Rồi là dẫn ra các lí do về thực tế để có thể giải thích rằng tại sao nhận định là B từ data là hợp lí.... Bọn mình làm là theo kiểu kiểu như thế.

Ở trong phòng họp thì mọi người đều có thể nêu quan điểm riêng của mình và tìm cách để chứng minh luận điểm. Và mình cho rằng nhiệm vụ của data analyst thì tìm ra vấn đề/giải pháp là một phần, chứng minh và thuyết phục người có quyền ra quyết định tin/nghe theo cách của mình cũng là một công việc quan trọng không kém.

Đó chính xác là cái mình muốn nói. Mổi người đều có quan điểm của mình là đang cảm tính. Vì để kết luận 1 điều gì đó, phải có phương pháp khoa học chứ ko thể theo ý người này theo ý người kia được.

Như cái ví dụ trên kia A hay B mới là nhân tố tác động, nếu "nhìn thấy" khi bỏ B vào thì có sự khác biết "rõ ràng". Cái "rõ ràng" ở đây phải đo được bằng con số cụ thể, với định nghĩa lớn hơn hay nhỏ hơn bao nhiêu là khác biệt. Mà mấy cái này phải làm z-test, t-test, Chi-square test hay ANOVA mức cơ bản là phải vậy nhưng ít cty làm.
 
Đó chính xác là cái mình muốn nói. Mổi người đều có quan điểm của mình là đang cảm tính. Vì để kết luận 1 điều gì đó, phải có phương pháp khoa học chứ ko thể theo ý người này theo ý người kia được.

Như cái ví dụ trên kia A hay B mới là nhân tố tác động, nếu "nhìn thấy" khi bỏ B vào thì có sự khác biết "rõ ràng". Cái "rõ ràng" ở đây phải đo được bằng con số cụ thể, với định nghĩa lớn hơn hay nhỏ hơn bao nhiêu là khác biệt. Mà mấy cái này phải làm z-test, t-test, Chi-square test hay ANOVA mức cơ bản là phải vậy nhưng ít cty làm.

Mấy cái test kia gần đây mình cũng có nghiên cứu.

Với team bọn mình hay với các công ty khác thì mình nghĩ 1 phần là non trẻ, ít kinh nghiệm, ko biết đến nó, làm theo kinh nghiệm, cảm tính. Nhưng có thể đơn giản mọi người cho rằng cho rằng ko quá cần thiết, nhất là khi nhận định từ data khớp với lí lẽ kiểm tra, khảo sát lại trên thực tế, trong khi khi họ còn bận phải lo làm những việc khác.

Ở chỗ bọn mình thì phương pháp kiểm tra ngược insight lấy được từ data thường là như trên. Hơn nữa c-level mình thấy họ cũng thích với các cách giải thích và chứng minh "mà họ hiểu được" hơn.
 
Thanks! Bác cho ví dụ về áp dụng thống kê khi làm DA được ko? Nếu chỉ là tính bao nhiêu % trai, gái, nhóm tuổi, tính trung bình này nọ thì ai cũng làm được rồi. :shame:
Trước khi phân tích thứ gì thì đầu tiên data nó phải clean đã.
Để kiểm tra clean data thì dùng thống kê, xác xuất như: mod, med, độ lệch chuẩn, ...
 
1. Domain knowledge này em nói thẳng đéo dành cho junior cóc nhái mới ra trường 1 2 năm. Tức là ném cái đống số liệu sổ sách rồi tự phân tích bằng excel ra insight thôi là ngáo mẹ rồi.
2. Và skill này cũng nói thằng là đéo dành cho những cô những cậu học mấy khóa mì ăn liền 6 tháng. Vì sao chắc bác cũng hiểu.

Mình nói thẳng, hơi mếch lòng nhưng còn hơn để bạn sa lầy.
Bạn muốn làm data analyst thì bạn phải có domain knowledge của chính cái ngành business mà bạn làm từ 2 năm trở lên. Thậm chí là 3 năm để có được cái nhìn vừa tổng thể và vừa chi tiết.
Có những domain knowledge này thì bạn mới có được các insight đặc trưng của ngành.
Chứ đm kiểu lái máy bay tiêm kích với 500 giờ thực hành là đéo bay nổi đâu.

Tiếp nữa là bạn tiệp xúc với đống sổ sách giấy tờ ok ra insight rồi. Nhưng đụng vào đống data thật là 1 đống rác. Tức là để có được đống data sạch bạn cần tới 80% thời gian để clean nó.
Và thằng Engineer đéo rảnh đi extract, transform, clean, load cho bạn đâu. Bạn phải tự làm thôi. :go:

Đừng mơ mộng nhiều quá.

Data đang trend có khác, thi nhau nhảy vào data dù chả biết chữ mẹ nào, chỉ là "đam mê " :LOL:
DA, DE chắc các cô cậu ấy tưởng chỉ là thu gom data rồi visualize là xong. Cứ nhao vào đòi học Python cho nó trend.

DA DE gì đều phải đụng đến toán nhiều. Để khiến cái con số biết nói ko dễ dàng, thử đi thử lại nhiều lần mới ra cái model gần nhất với nhu cầu phân tích dự đoán...
Học lập trình thì dễ, giờ cầm quyển sách toán ra thì í ẹ
 
Data đang trend có khác, thi nhau nhảy vào data dù chả biết chữ mẹ nào, chỉ là "đam mê " :LOL:
DA, DE chắc các cô cậu ấy tưởng chỉ là thu gom data rồi visualize là xong. Cứ nhao vào đòi học Python cho nó trend.

DA DE gì đều phải đụng đến toán nhiều. Để khiến cái con số biết nói ko dễ dàng, thử đi thử lại nhiều lần mới ra cái model gần nhất với nhu cầu phân tích dự đoán...
Học lập trình thì dễ, giờ cầm quyển sách toán ra thì í ẹ

Rồi nó đẻ ra thể loại analyzing data trong 2 buổi như này đấy :go:
Dcm dạy làm giàu với bán khóa học :go:

1597991362224.png
 
Rồi nó đẻ ra thể loại analyzing data trong 2 buổi như này đấy :go:
Dcm dạy làm giàu với bán khóa học :go:

Mỗi cái power bi còn phải bỏ tiền đi học thì xin phép ị vào cái đam mê. Video đầy trên mạng, kiếm bừa cũng được sample data để làm source mà cũng ko chịu tự ngâm cứu :go:
Giờ giáo dục khéo thành nghề kinh doanh lợi nhuận khủng. Hồi sv xưa đã có hiện tượng sv thấy bạn đi học, cảm giác mình ko học thì thua bạn thế là cũng đi 🤣 Mặc dù là học ngành CNTT, học ở lớp đéo học, rủ nhau bỏ tiền đi học ngoài.
 
:beat_brick: Clean data mà tính mod, median, standard deviation hả thím? Ko biết đừng chém.
Cái mình muốn nói là có một số người so sánh mean vs median, nếu 2 số này chênh lệch nhiều thì dữ liệu vẫn còn bị nhiễu. Lúc đó cần phải loại bỏ các record ngoại lệ (Remove outlier)
Thực sự mấy cái chỉ số thống kê rất quan trọng, chả qua mấy bố không hiểu rõ, hiểu sâu thôi.
 
Cái mình muốn nói là có một số người so sánh mean vs median, nếu 2 số này chênh lệch nhiều thì dữ liệu vẫn còn bị nhiễu. Lúc đó cần phải loại bỏ các record ngoại lệ (Remove outlier)
Thực sự mấy cái chỉ số thống kê rất quan trọng, chả qua mấy bố không hiểu rõ, hiểu sâu thôi.

Clean data là xử lý missing, bỏ outliers, correct errors,... mấy cái này tốt nhất là plot nó lên xem distribution hoặc tính frequency chứ lúc data chưa clean mà tính mean, median, std... thì nó bị bias rồi.

Còn vụ so sánh mean với median có lệch nhiều ko là do phân phối của biến đó nó ko phải là phân phối chuẩn, nó bị skew. Ko ai nói clean data xong là mean với median gần nhau hết. Còn muốn nó gần nhau thì là phải transform sang log, luỹ thừa để biến nó thành phân phối chuẩn.

Mà thím có làm về data ko vậy?

via theNEXTvoz for iPhone
 
Back
Top