thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Vậy thì học, làm việc với file data lớn cỡ vài triệu dòng thì nên biết SQL. Vấn đề của thím tôi chỉ cần viết 1 câu SQL update 1 phát rồi export ra Excel lại là xong. Mình chỉ lợi dụng Database để xử lý thôi, xong rồi vẫn xuất ra Excel làm data source mà. Còn xử lý data trên Excel hay Python thì thời gian mở, load file, vlookup, filter, update các kiểu mất cả tiếng.
Nửa đêm mất ngủ lượn thấy topic. Hỏi hơi off topic xíu mong thím rảnh chỉ giúp.
- Học Python thì nên bắt đầu từ đâu? Mình học chủ yếu mục đích xử lý excel. Tại mình cũng k biết gì nhiều excel, toàn nv làm :shame:
Rảnh quá nên muốn học, mục tiêu cuối cùng là xử lý data bên mình tốt hơn.
Ngày xưa mình code vi điều khiển(C++), mà 6-7 năm rồi, giờ thuần kinh doanh k đụng. Tiếng Anh ổn, tư duy ổn :)
 
Nửa đêm mất ngủ lượn thấy topic. Hỏi hơi off topic xíu mong thím rảnh chỉ giúp.
- Học Python thì nên bắt đầu từ đâu? Mình học chủ yếu mục đích xử lý excel. Tại mình cũng k biết gì nhiều excel, toàn nv làm :shame:
Rảnh quá nên muốn học, mục tiêu cuối cùng là xử lý data bên mình tốt hơn.
Ngày xưa mình code vi điều khiển(C++), mà 6-7 năm rồi, giờ thuần kinh doanh k đụng. Tiếng Anh ổn, tư duy ổn :)
1. Nếu excel vân dùng được thì cứ dùng excel. Py hay SQL nên dùng khi dữ liệu lớn hơn. Mình vẫn thường khuyên các bạn nên thuần thục excel trước khi học cái khác.
2. Học py thì có thể theo cái learning path này để học. Có tiền thì học thẳng bọn này luôn. https://www.datacamp.com/tracks/data-analyst-with-python

via theNEXTvoz for iPhone
 
Huyền Chip vừa chia sẻ bài giảng về data engineering thuộc môn học CS 329S: Machine Learning Systems Design mà em này đang dạy.


Link khóa học trên web của Stanford
https://stanford-cs329s.github.io

Các bạn Ấn vào khen nhiều lắm, cũng có góp ý này nọ nữa. Mình đọc sơ thấy cũng dễ hiểu. Đang định sẽ nghiên cứu sâu hơn vào cái DE này sau khi xong chương trình về Data Analytics.
 
Sẵn đây làm review nhỏ về DataQuest mà mình đang học cho ai đang muốn tò mò chuyển sang học Data Science.

Mình học trên Data Quest, gói thành viên có giá cao hơn Data Camp (49/tháng vs 29). Hai trang web này thường xuyên có sale gói 1 năm khoảng $300. Có thể chọn học free Chapter đầu tiên của mỗi module để thử xem có phù hợp hay không trước khi mua gói thành viên.

Cả Data Quest và DataCamp đều có rất nhiều bài học, trải dài từ R, Python, SQL...
Data Camp:
- Điểm mạnh:
++Các môn học rất nhiều và đa dạng, nhất là R, SQL. Có video hướng dẫn.​
++Được các công ty bên Mỹ sử dụng để training nhân viên.​
++Có hệ thống bài tập Practice đa dạng.​
- Điểm yếu:
++Code thực hành được điền sẵn, mình chỉ điền vào chỗ trống hoặc rê chuột kéo. Cách học này tạo cảm giác dễ dàng, nhưng rất mau quên. Vì học code phải gõ đi gõ lại nhiều mới nhớ lâu.​

Data Quest:
- Điểm mạnh:
++Phần thực hành mình phải tự gõ lại code theo hướng dẫn. Cách học này giúp nhớ rất lâu và tư duy tốt hơn.​
- Điểm yếu:
++Không có video, phải tự đọc lý thuyết và thực hành.​
++Bài tập Practice chưa nhiều.​
++Chỉ mạnh duy nhất về Python. Các môn học về R và SQL rất thiếu thốn so với DataCamp.​
++Server chậm. Mỗi khi nhập kết quả vào phải chờ mấy chục giây, thậm chí cả phút để server check kết quả.​
++Bị phát hiện dạy Python cũ, trong khi bản mới là 3.8, và họ có hứa sẽ cập nhật.​

Tuy nhiên, sau khi dùng thử và cân nhắc, mình quyết định chọn học trên Data Quest cho path Data Science with Python vì các lý do sau:
  • Các môn học theo path này được xây dựng rõ ràng từng bước, giúp mình biết cách xử lý, phân tích dữ liệu thế nào.
  • Có kết hợp ôn lại Calculus, Linear Algebra, Statistic cơ bản, đủ dùng cho Machine Learning. Data Camp cũng có dạy về các kiến thức này nhưng trong series chuyên sâu về R, còn học beginner thì không có.
  • Phần lý thuyết mặc dù phải tự đọc nhưng có gif minh họa thao tác, nội dung được chia nhỏ ra từng mục nên dễ đọc.
  • Hướng dẫn cài Jupyter, thực hành trên Jupyter online và có thể làm tại máy để quen cách làm việc thực tế.
  • Dạy cách làm project từ data thô trên Kaggle để sau này tham gia các challenge trên Kaggle.
Nói chung là mình từ một người mù hoàn toàn về data nhưng học thử trên Data Quest thì thấy tự tin hơn hẳn, và biết cần làm gì nếu được giao một project về data.

Tuy nhiên, các trang web này đều chỉ dạy cái cơ bản, không có chuyên sâu.

Nếu ai muốn học free thì có thể lên Coursera, có rất nhiều Certification về Data Analyst, Data Science, Data Engineer của các công ty lớn như IBM, Google...
Các Professional Certificate này liệt kê môn học theo thứ tự giúp mình không phải đau đầu chọn môn nào trước, môn nào sau.
Để học free, thì chỉ cần chọn Audit môn đó là có thể học free, nhưng không thể nộp bài, chấm điểm để tự đánh giá trình độ. Ngoài ra, do xem video rồi tự thực hành lại nên khó khăn hơn là học trên các web có công cụ chấm điểm thực hành tự động như DataCamp, Data Quest hay Code Academy.
 
Last edited:
Nửa đêm mất ngủ lượn thấy topic. Hỏi hơi off topic xíu mong thím rảnh chỉ giúp.
- Học Python thì nên bắt đầu từ đâu? Mình học chủ yếu mục đích xử lý excel. Tại mình cũng k biết gì nhiều excel, toàn nv làm :shame:
Rảnh quá nên muốn học, mục tiêu cuối cùng là xử lý data bên mình tốt hơn.
Ngày xưa mình code vi điều khiển(C++), mà 6-7 năm rồi, giờ thuần kinh doanh k đụng. Tiếng Anh ổn, tư duy ổn :)
Trong cái certificate về Data Analyst của IBM trên Coursera ở link dưới, bạn sẽ thấy hai môn:
  • Excel Basics for Data Analysis
  • Data Visualization and Dashboards with Excel and Cognos
giúp học những kiến thức cơ bản về Excel nhưng chuyên dùng cho Data thôi, nên tiết kiệm thời gian vì học đúng trọng tâm mình cần. Nhớ chọn chữ Audit bé xíu khi đăng ký hai môn này để học free.
Bài giảng có thể có phụ đề tiếng Việt.

https://www.coursera.org/professional-certificates/ibm-data-analyst?
 
Trong cái certificate về Data Analyst của IBM trên Coursera ở link dưới, bạn sẽ thấy hai môn:
  • Excel Basics for Data Analysis
  • Data Visualization and Dashboards with Excel and Cognos
giúp học những kiến thức cơ bản về Excel nhưng chuyên dùng cho Data thôi, nên tiết kiệm thời gian vì học đúng trọng tâm mình cần. Nhớ chọn chữ Audit bé xíu khi đăng ký hai môn này để học free.
Bài giảng có thể có phụ đề tiếng Việt.

https://www.coursera.org/professional-certificates/ibm-data-analyst?
Cảm ơn bác.
 
Lên :)
Mình làm phân tích, mà đang tìm hiểu lộ trình học để lấn sang Data science - với business requirement là bài toán recommendation (expect near/realtime :ROFLMAO:)
 
Sẵn đây làm review nhỏ về DataQuest mà mình đang học cho ai đang muốn tò mò chuyển sang học Data Science.

Mình học trên Data Quest, gói thành viên có giá cao hơn Data Camp (49/tháng vs 29). Hai trang web này thường xuyên có sale gói 1 năm khoảng $300. Có thể chọn học free Chapter đầu tiên của mỗi module để thử xem có phù hợp hay không trước khi mua gói thành viên.

Cả Data Quest và DataCamp đều có rất nhiều bài học, trải dài từ R, Python, SQL...
Data Camp:
- Điểm mạnh:
++Các môn học rất nhiều và đa dạng, nhất là R, SQL. Có video hướng dẫn.​
++Được các công ty bên Mỹ sử dụng để training nhân viên.​
++Có hệ thống bài tập Practice đa dạng.​
- Điểm yếu:
++Code thực hành được điền sẵn, mình chỉ điền vào chỗ trống hoặc rê chuột kéo. Cách học này tạo cảm giác dễ dàng, nhưng rất mau quên. Vì học code phải gõ đi gõ lại nhiều mới nhớ lâu.​

Data Quest:
- Điểm mạnh:
++Phần thực hành mình phải tự gõ lại code theo hướng dẫn. Cách học này giúp nhớ rất lâu và tư duy tốt hơn.​
- Điểm yếu:
++Không có video, phải tự đọc lý thuyết và thực hành.​
++Bài tập Practice chưa nhiều.​
++Chỉ mạnh duy nhất về Python. Các môn học về R và SQL rất thiếu thốn so với DataCamp.​
++Server chậm. Mỗi khi nhập kết quả vào phải chờ mấy chục giây, thậm chí cả phút để server check kết quả.​
++Bị phát hiện dạy Python cũ, trong khi bản mới là 3.8, và họ có hứa sẽ cập nhật.​

Tuy nhiên, sau khi dùng thử và cân nhắc, mình quyết định chọn học trên Data Quest cho path Data Science with Python vì các lý do sau:
  • Các môn học theo path này được xây dựng rõ ràng từng bước, giúp mình biết cách xử lý, phân tích dữ liệu thế nào.
  • Có kết hợp ôn lại Calculus, Linear Algebra, Statistic cơ bản, đủ dùng cho Machine Learning. Data Camp cũng có dạy về các kiến thức này nhưng trong series chuyên sâu về R, còn học beginner thì không có.
  • Phần lý thuyết mặc dù phải tự đọc nhưng có gif minh họa thao tác, nội dung được chia nhỏ ra từng mục nên dễ đọc.
  • Hướng dẫn cài Jupyter, thực hành trên Jupyter online và có thể làm tại máy để quen cách làm việc thực tế.
  • Dạy cách làm project từ data thô trên Kaggle để sau này tham gia các challenge trên Kaggle.
Nói chung là mình từ một người mù hoàn toàn về data nhưng học thử trên Data Quest thì thấy tự tin hơn hẳn, và biết cần làm gì nếu được giao một project về data.

Tuy nhiên, các trang web này đều chỉ dạy cái cơ bản, không có chuyên sâu.

Nếu ai muốn học free thì có thể lên Coursera, có rất nhiều Certification về Data Analyst, Data Science, Data Engineer của các công ty lớn như IBM, Google...
Các Professional Certificate này liệt kê môn học theo thứ tự giúp mình không phải đau đầu chọn môn nào trước, môn nào sau.
Để học free, thì chỉ cần chọn Audit môn đó là có thể học free, nhưng không thể nộp bài, chấm điểm để tự đánh giá trình độ. Ngoài ra, do xem video rồi tự thực hành lại nên khó khăn hơn là học trên các web có công cụ chấm điểm thực hành tự động như DataCamp, Data Quest hay Code Academy.
Mình thì chọn datacamp để học R.
SQL thì trước ôn tập lại bên learnsql.com

Nhìn chung thì theo mình nhận xét các course này học hết cũng chỉ dừng được ở mức fresher, tạm đủ để bắt đầu đi xin việc.

So với các khoá học ở VN (offline) thì có rẻ hơn và chất lượng hơn chút.


via theNEXTvoz for iPhone
 
Mình đã học xong mấy khóa ML, DL và math trên coursera do đợt này công việc đang khá rảnh. Đang tính học thêm khóa full stack deep learning, có vẻ định hướng khóa khá giống khóa của Huyền chip ở trên nhưng có public video dạy, có bác nào học cùng không ?

Định hướng thì mình đổi ngành từ business sang, cũng chỉ thích làm mấy bài mining model liên quan đến business. Đợt trước mình có làm NLP mà thấy chán quá k hợp, cũng k thực sự có hứng thú đi sâu. Mình thích đi sâu mấy bài kiểu forecast, recommendation, customer segmentation... Bản thân mình đi phỏng vấn và nói chuyện với một vài lead DS thì thấy hiện tại có 2 hướng tiếp cận, và người theo mỗi hướng có vẻ sẽ đánh giá ứng viên theo những tiêu chí khác nhau:
  • Kiểu phỏng vấn hỏi rất sâu đến thuật toán, luôn quan tâm xem ứng viên đã từng sử dụng thuật toán gì, có làm deep learning không, xác định DS sẽ tiếp cận yêu cầu qua DA, ngồi chỉ build model và tuning này nọ.
  • Kiểu quan tâm đến critical thinking, cách tiếp cận bài toán, define bài toán, hiểu rõ model dùng để làm gì, xây dựng solution hoàn chỉnh. Không quá hype về Deep learning, hỏi về basic math, rồi use case nhiều hơn.

Cá nhân mình thì ngày trước do dự án đầu tiên mình làm ở vị trí end-user thì khá là fail, không dùng được, dù model đc build bởi những ng khá giỏi về chuyên môn nhưng thiếu domain knowledge, nên cảm thấy hướng 1 nó sai sai. Nhưng người ở hướng 2 mình gặp thì hơi quá extreme, kiểu ứng viên nào nhắc tới deep learning này nọ thì rất bài trừ :)))) Mình thì dù thấy nhiều bài hiện tại deep learning còn chưa quá vượt trội nhưng tương lai thì mình nghĩ deep learning sẽ win hết statistical model và ML model. Mọi người nghĩ sao về vấn đề này? (tất nhiên mình đang nói các bài toán thiên về đến business, k nói về những mảng quá đặc thù như NLP hay computer vision)
 
Huyền Chip vừa chia sẻ bài giảng về data engineering thuộc môn học CS 329S: Machine Learning Systems Design mà em này đang dạy.


Link khóa học trên web của Stanford
https://stanford-cs329s.github.io

Các bạn Ấn vào khen nhiều lắm, cũng có góp ý này nọ nữa. Mình đọc sơ thấy cũng dễ hiểu. Đang định sẽ nghiên cứu sâu hơn vào cái DE này sau khi xong chương trình về Data Analytics.
không có video, tòan chữ thé học sao nổi bác
 
Mình đã học xong mấy khóa ML, DL và math trên coursera do đợt này công việc đang khá rảnh. Đang tính học thêm khóa full stack deep learning, có vẻ định hướng khóa khá giống khóa của Huyền chip ở trên nhưng có public video dạy, có bác nào học cùng không ?

Định hướng thì mình đổi ngành từ business sang, cũng chỉ thích làm mấy bài mining model liên quan đến business. Đợt trước mình có làm NLP mà thấy chán quá k hợp, cũng k thực sự có hứng thú đi sâu. Mình thích đi sâu mấy bài kiểu forecast, recommendation, customer segmentation... Bản thân mình đi phỏng vấn và nói chuyện với một vài lead DS thì thấy hiện tại có 2 hướng tiếp cận, và người theo mỗi hướng có vẻ sẽ đánh giá ứng viên theo những tiêu chí khác nhau:
  • Kiểu phỏng vấn hỏi rất sâu đến thuật toán, luôn quan tâm xem ứng viên đã từng sử dụng thuật toán gì, có làm deep learning không, xác định DS sẽ tiếp cận yêu cầu qua DA, ngồi chỉ build model và tuning này nọ.
  • Kiểu quan tâm đến critical thinking, cách tiếp cận bài toán, define bài toán, hiểu rõ model dùng để làm gì, xây dựng solution hoàn chỉnh. Không quá hype về Deep learning, hỏi về basic math, rồi use case nhiều hơn.

Cá nhân mình thì ngày trước do dự án đầu tiên mình làm ở vị trí end-user thì khá là fail, không dùng được, dù model đc build bởi những ng khá giỏi về chuyên môn nhưng thiếu domain knowledge, nên cảm thấy hướng 1 nó sai sai. Nhưng người ở hướng 2 mình gặp thì hơi quá extreme, kiểu ứng viên nào nhắc tới deep learning này nọ thì rất bài trừ :)))) Mình thì dù thấy nhiều bài hiện tại deep learning còn chưa quá vượt trội nhưng tương lai thì mình nghĩ deep learning sẽ win hết statistical model và ML model. Mọi người nghĩ sao về vấn đề này? (tất nhiên mình đang nói các bài toán thiên về đến business, k nói về những mảng quá đặc thù như NLP hay computer vision)
Kiểu 1 là pv cho researcher, kiểu 2 là engineer, bây giờ chuộng kiểu 2 hơn :D
 
Cả mấy trường hợp mình gặp đều là pv làm product business cả, đợt rồi pv còn bảo thẳng là cv sẽ ngồi tìm thuật toán và tuning thôi :sweat:

via theNEXTvoz for iPhone
Gần như là chỉ cần thế thôi mà, hiếm khi phải làm một cái gì đó hoàn toàn mới.
jmEBCky.gif
Vì nếu phải làm thì công ty ở VN cũng ko sẵn sàng chi tiền cho làm.

Nay vào lại github có cái code mạng plain CNN bằng numpy hồi mới học, thấy hồi đó code còn clean hơn giờ nữa :shame:
 
Mình k nói đến khía cạnh làm cái gì mới, ý mình là cái mindset DS ngồi làm một mình k cần tiếp xúc end-user hay ng có domain knowledge ấy. Kiểu như làm customer segmentation để chạy mkt nhưng k cần hiểu về mkt hay hiện tại người trong cty đang làm ntn :sweat:

via theNEXTvoz for iPhone
 
Mình k nói đến khía cạnh làm cái gì mới, ý mình là cái mindset DS ngồi làm một mình k cần tiếp xúc end-user hay ng có domain knowledge ấy. Kiểu như làm customer segmentation để chạy mkt nhưng k cần hiểu về mkt hay hiện tại người trong cty đang làm ntn :sweat:

via theNEXTvoz for iPhone
Cái đó thì ko nên, vì làm gì lq đến "dữ liệu" thì cũng cần phải biết rõ cái dữ liệu đó như nào, khách hàng muốn nó ra sao. Cái cố định chỉ là hiệu quả kinh tế, khi mình biết người phối hợp mình hoạt động như nào thì có thể điều chỉnh đầu ra của mình phối hợp với các bước của họ nhuần nhuyễn nhất
 
Topic này lập ra để thảo luận các vấn đề về Data Analysis, Machine Learning, Deep Learning, AI. Mặc dù biết mấy cái này lên Kaggle, Medium, Reddit… người ta bàn nát rồi nhưng cảm giác chém nhau, vật nhau ở Voz nó vui hơn, coi như là chổ để Vozer làm về mấy cái này hay ai có quan tâm, tò mò về nó "giao thông" (giao lưu), dood deed nhau nhé.:big_smile:

Cách hoạt động sẽ là thế này. Mọi người cứ việc đặt câu hỏi, nêu vấn đề, ai biết thì trả lời. Vấn đề nào thú vị, hấp dẫn sẽ lôi ra vật nhau, vật chán thì qua vấn đề khác. Đặc biệt, tất cả levels đều khuyến khích tham gia nên đừng ngại đặt câu hỏi từ đơn giản như "Machine Learning là cái quái gì? Nó có ăn được không? Sao dạo này hot thế?". Tới các câu hỏi chuyên về các giải thuật phức tạp hay competitions trên Kaggle. :sweet_kiss:

Tạm thời đặt gạch trước, để xem có ai quan tâm không.
:shame::shame::shame:
job cho các hướng này có yêu cầu tốt nghiệp CNTT mới làm đc ko b,mình định tìm hiểu lấn sân:D

Gửi từ Sony G8142 bằng vozFApp
 
Mới xem được video khá hay cập nhật về tình hình việc làm của Data Scientist ở Mỹ. Năm 2020, số việc làm của DS không tăng, trong khi số người apply nhiều, dẫn đến việc DS từ hạng 1 rớt xuống hạng 3 trong Top những công việc tốt nhất ở Mỹ. Clip này còn liệt kê ngôn ngữ lập trình được tuyển nhiều nhất, kỹ năng được yêu cầu nhiều nhất, bang có nhiều job nhất... Mình có đối chiếu các yêu cầu này với thông báo tuyển dụng của các công ty lớn thì thấy khá trùng khớp.

Cho nên video này theo mình là rất hữu ích cho ai muốn tìm hiểu về DS, không biết phải học cái gì để đáp ứng yêu cầu tuyển dụng.


Bổ sung thêm báo cáo những công việc được tuyển nhiều trong 2020 của LinkedIn ở Mỹ, đọc báo cáo này khá thú vị vì liệt kê đúng những ngành hot nhất bây giờ ở Mỹ, những kỹ năng được yêu cầu nhiều nhất, những bang tuyển nhiều nhất.

Ai chọn AI, Data, Full Stack thì vẫn yên tâm là công việc vẫn đang hot. Ai chọn Data Engineering thì phải cập nhật thêm AWS vì đây là kỹ năng mới mà các công ty đều yêu cầu trước tình hình Cloud đang phát triển.
https://business.linkedin.com/conte...bs-report/Emerging_Jobs_Report_U.S._FINAL.pdf
 
Last edited:
Back
Top