thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Thích Màu Hường

Senior Member
Topic này lập ra để thảo luận các vấn đề về Data Analysis, Machine Learning, Deep Learning, AI. Mặc dù biết mấy cái này lên Kaggle, Medium, Reddit… người ta bàn nát rồi nhưng cảm giác chém nhau, vật nhau ở Voz nó vui hơn, coi như là chổ để Vozer làm về mấy cái này hay ai có quan tâm, tò mò về nó "giao thông" (giao lưu), dood deed nhau nhé.:big_smile:

Cách hoạt động sẽ là thế này. Mọi người cứ việc đặt câu hỏi, nêu vấn đề, ai biết thì trả lời. Vấn đề nào thú vị, hấp dẫn sẽ lôi ra vật nhau, vật chán thì qua vấn đề khác. Đặc biệt, tất cả levels đều khuyến khích tham gia nên đừng ngại đặt câu hỏi từ đơn giản như "Machine Learning là cái quái gì? Nó có ăn được không? Sao dạo này hot thế?". Tới các câu hỏi chuyên về các giải thuật phức tạp hay competitions trên Kaggle. :sweet_kiss:

Tạm thời đặt gạch trước, để xem có ai quan tâm không.
:shame::shame::shame:
 
Uầy, em thì đang học khóa nhập môn ML của Andrew Ng, dường như ai cũng học khóa này. Học xong rồi bước tiếp theo là gì nhỉ? Em nghĩ học không không thế này cũng khó mà trở thành ML engineer được, mong các thím cho lời khuyên.
 
Uầy, em thì đang học khóa nhập môn ML của Andrew Ng, dường như ai cũng học khóa này. Học xong rồi bước tiếp theo là gì nhỉ? Em nghĩ học không không thế này cũng khó mà trở thành ML engineer được, mong các thím cho lời khuyên.

Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.

Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.

Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. => Chọn hướng muốn đi.

Cuối cùng, như bao thứ khác, chỉ có practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.
 
Mình chưa học khóa ML của Andrew Ng, mình toàn đọc sách thôi. Liếc sơ nội dung thì học khóa này xong có thể biết được overview hầu hết các mảng của ML.

Mấy khóa học ML hiện nay đa số nói về các giải thuật ML với cách build model nhưng cái theo mình là fundamental khi bước vào cái nghề này là Statistics. Biết Statistics để giúp làm Data Exploration, Features Selection, Model Validation and Tuning. Build model chỉ chiếm khoảng 20% thôi mấy cái kia mới cần skills và thời gian. Nếu bạn chưa biết Statistics thì bước tiếp theo nên quay lại học Statistics.

Biết Statistics với ML rồi thì bắt đầu chọn 1 hướng trong ML. Ví dụ làm Data, Computer Vision, NLP, Speech Recognition, Automotive... mổi cái này có thể là 1 ngành học, mấy khóa học kia nó giới thiệu overview thôi chứ đi sâu vào là cả 1 bầu trời. => Chọn hướng muốn đi.

Cuối cùng, như bao thứ khác, chỉ có practice thôi. Chưa làm dự án thật thì lên Kaggle join competitions.
Nhân tiện thím giới thiệu em một khoá học hoặc sách để học statistics với.
 
Bài này mình reply 1 bạn bên thớt "Học khóa LẬP TRÌNH PYTHON CƠ BẢN", post lại bên đây cho ai muốn theo nghề Data:

Làm data thì cũng có nhiều loại, tạm chia làm 3 loại thế này:
1. Data Developer/Data Engineer: cái này làm việc như lập trình viên, nhiệm vụ là xử lý dữ liệu như đọc, ghi, load, transform, patching, làm report, một chút thiết kế database, viết tool ETL. Skills cần có tất nhiên là SQL, một ngôn ngữ lập trình hiện đại để viết tool ETL như C#, các tool làm report, ETL như SSRS, SSIS nếu theo công nghệ của Microsoft, cao hơn thì mấy cái xử lý big data như hadoop.

Nói chung cái này nặng về lập trình, thường là 1 hướng cho các bạn chuyên CNTT nhưng ko muốn làm software mà làm data. Tài liệu học mấy cái kể trên thì có rất nhiều, cái nào cũng được. Cái này dễ kiếm job hơn hai cái sau.

2. Data Anlysist: cái này là người phân tích dữ liệu, background ko nhất thiết phải là dân CNTT. Cái này nặng về phân tích.

Skill cần có và quan trọng nhất là Thống Kê. Tài liệu thì tìm khóa Statistics Probability trên khanacademy course này cực dễ hiểu. Lúc học thì chú trọng các phần như distribution, samples, mean, median, variance, standard deviation, Z-Test, T-Test, Chi-square tests, Anova. Học khóa này xong có thể thi chứng chỉ AP Statistics để làm đẹp CV.
https://www.khanacademy.org/math/statistics-probability

Một khái niệm nữa là Data Weighting cái này cực kỳ quan trọng ai làm phân tích cũng nên biết.

Về tool: SPSS Statsitics, đây là phần mềm chuyên phân tích dữ liệu, ít nhất cũng nên làm quen với nó rồi chạy được các phân tích cơ bản như Descriptive Statistics, Frequencies, Cross-Tab, mấy cái test đã kể trên, Data Weighting. Cái thứ hai là Excel, Excel là tool phân tích dữ liệu cực mạnh mà ít người để ý, ngoài các hàm cơ bản thì phải biết được Pivot Table.

Ngôn ngữ lập trình và các tool visualize: SQL, Python, R, Tableau, Power BI. Về Tableau với Power BI thì mình prefer Tableau vì performance tốt hơn, tài liệu thì vào trang chủ của nó có Tutorial làm rất dễ.

Job nhóm này ít hơn nhóm 1 nhưng thiên về phân tích, ít lập trình hơn. Đa số các bạn học kinh tế, toán thống kê làm được.

3. ML Engineer/Data Scientist: cái này làm về Machine Learning, AI. Skill cần có thì bao gồm tất cả skill của nhóm 1 và 2, đặc biệt là nhóm 2 vì nếu ko biết thống kê thì làm như cái máy mà chẳng hiểu model mình build ra nó tốt xấu chổ nào. Có nhiều mảng khá đặc thù như Computer Vision, Natural language processing, speech recognition, nó là hướng khác mình ko nói ở đây, còn hướng gần gũi hơn mà anh em Data Analyst có thể đi lên là làm các model dự doán cho các ngành đặc thù như doanh số sales, giá bất động sản. v..v..

Học về cái này thì nên tiếp cận theo hướng top-down trước để hiểu overview xem ML, AI nó là cái gì, có các mảng nào, cần những kiến thúc gì rồi pick up 1 mảng mà học thì tiếp cận theo hướng bottom-up, học những cái cơ bản trước rồi nâng cao.

Tài liệu vê cái này thì đọc cuốn Introduction to Machine Learning with Python, cực dễ hiểu và không nặng về toán lắm, học xong có overview rồi thì học sâu về toán.
https://www.amazon.com/Introduction-Machine-Learning-Python-Scientists/dp/1449369413

Ngoài ra còn có course này Machine Learning A-Z™: Hands-On Python & R In Data Science trên Udemy và Machine Learning Andrew Ng trên Coursera

Về toán cho ML, AI: cái quan trọng nhất vẫn là thống kê như đã nói ở nhóm 2. Cái này lúc làm về nó vận dụng nhiều nhất. Cái quan trọng thứ 2 là đại số tuyến tính, bạn lên Khan Acedamy tìm khóa này https://www.khanacademy.org/math/linear-algebra cái này học để hiểu bên trong các thuật toán làm gì. Cái thứ 3 là giải tích, xem lại đạo hàm, tích phân, vi phân học để hiểu bên trong các thuật toán làm gì luôn.

Còn muốn đào sâu về toán để chém gió, hù dọa nhau thì kiếm cuốn này: The Elements of Statistical Learning :shame:
https://web.stanford.edu/~hastie/ElemStatLearn//

Job cho nhóm này đang có nhiều nhu cầu, chất, yêu cầu cao.
 
Last edited:
30 tủi, có kinh nghiệm kế toán, tư vấn, kinh doanh, quản lý đang có ý định chuyển ngành sang DA, kỹ năng tư duy mô hình hóa, phản biện, phân tích thì hồi vừa ra trường thuộc dạng dơ bét giờ đi làm không dùng não nhiều nên hơi chậm - theo thớt nên di sẹt qua ngành mới này không?
 
30 tủi, có kinh nghiệm kế toán, tư vấn, kinh doanh, quản lý đang có ý định chuyển ngành sang DA, kỹ năng tư duy mô hình hóa, phản biện, phân tích thì hồi vừa ra trường thuộc dạng dơ bét giờ đi làm không dùng não nhiều nên hơi chậm - theo thớt nên di sẹt qua ngành mới này không?
Cái này khó nói lắm vì DA là thiên về kỹ thuật, vì làm với data nếu không thích thì công việc sẽ rất tẻ nhạt, còn chán hơn lập trình phần mềm ấy. Mấy skill của thím thì support dc phần domain knowledge. Không biết thím biết gì về DA chưa?
 
Học cái này phải GIỎI toán, nhiều ông bạn tôi từ code cũng nhảy qua xong đều lắc đầu về hết đây
 
Cái này khó nói lắm vì DA là thiên về kỹ thuật, vì làm với data nếu không thích thì công việc sẽ rất tẻ nhạt, còn chán hơn lập trình phần mềm ấy. Mấy skill của thím thì support dc phần domain knowledge. Không biết thím biết gì về DA chưa?
mình đang học dở khóa ibm data science tren cousera có 9 môn mình còn 2 môn cuối ML vs capstone nữa là hoàn thành mà phần toán ML hơi ngộp đầu chắc do chục năm rồi không học mấy cái ký hiệu toán cũng không nhớ chứ hồi xưa toán thi ĐH các năm thì bài nào cũng làm được hết tính ra cũng không dốt toán, phần code của thư viện sklearn cũng không tưởng tượng rõ được hết những gì vừa diễn ra đối với dữ liệu làm mình cũng khó chịu. Mình chủ yếu ban đầu học muốn học thử NLP phần phân tích cảm tình mới mò mẫm học DS trên thôi mà NLP chưa học được mấy cả.
SQL học xem hoa, python mình học cũng được cơ bản (Dr. Chuck) + re, chưa học class&object
 
Học cái này phải GIỎI toán, nhiều ông bạn tôi từ code cũng nhảy qua xong đều lắc đầu về hết đây

Không cần phải giỏi toán, toán ở đây thì thống kê là vận dụng nhiều nhất. Cái thứ 2 là đại số tuyến tính với giải tích. Mấy cái này tại học lâu rồi nên quên hết chứ thời lớp 12 chuẩn bị thi đại học thì nó là chuyện nhỏ thôi. Mất thời gian học lại chút.

Nói về học toán thì lên Khan Academy học cực dễ hiểu, cách người ta trình bày vấn đề rất dễ hiểu, mạch lạc và ko hề hù dọa nên mình cực thích trang này.
 
Last edited:
mình đang học dở khóa ibm data science tren cousera có 9 môn mình còn 2 môn cuối ML vs capstone nữa là hoàn thành mà phần toán ML hơi ngộp đầu chắc do chục năm rồi không học mấy cái ký hiệu toán cũng không nhớ chứ hồi xưa toán thi ĐH các năm thì bài nào cũng làm được hết tính ra cũng không dốt toán, phần code của thư viện sklearn cũng không tưởng tượng rõ được hết những gì vừa diễn ra đối với dữ liệu làm mình cũng khó chịu. Mình chủ yếu ban đầu học muốn học thử NLP phần phân tích cảm tình mới mò mẫm học DS trên thôi mà NLP chưa học được mấy cả.
SQL học xem hoa, python mình học cũng được cơ bản (Dr. Chuck) + re, chưa học class&object

Vậy là thím có kiến thức rồi, bỏ công học vậy thì chắc muốn theo thật. Cái nào thím ko rõ cứ post lên đây.
 
Back
Top