Bài này mình reply 1 bạn bên thớt "Học khóa LẬP TRÌNH PYTHON CƠ BẢN", post lại bên đây cho ai muốn theo nghề Data:
Làm data thì cũng có nhiều loại, tạm chia làm 3 loại thế này:
1. Data Developer/Data Engineer: cái này làm việc như lập trình viên, nhiệm vụ là xử lý dữ liệu như đọc, ghi, load, transform, patching, làm report, một chút thiết kế database, viết tool ETL. Skills cần có tất nhiên là SQL, một ngôn ngữ lập trình hiện đại để viết tool ETL như C#, các tool làm report, ETL như SSRS, SSIS nếu theo công nghệ của Microsoft, cao hơn thì mấy cái xử lý big data như hadoop.
Nói chung cái này nặng về lập trình, thường là 1 hướng cho các bạn chuyên CNTT nhưng ko muốn làm software mà làm data. Tài liệu học mấy cái kể trên thì có rất nhiều, cái nào cũng được. Cái này dễ kiếm job hơn hai cái sau.
2. Data Anlysist: cái này là người phân tích dữ liệu, background ko nhất thiết phải là dân CNTT. Cái này nặng về phân tích.
Skill cần có và quan trọng nhất là Thống Kê. Tài liệu thì tìm khóa
Statistics Probability trên
khanacademy course này cực dễ hiểu. Lúc học thì chú trọng các phần như distribution, samples, mean, median, variance, standard deviation, Z-Test, T-Test, Chi-square tests, Anova. Học khóa này xong có thể thi chứng chỉ AP Statistics để làm đẹp CV.
https://www.khanacademy.org/math/statistics-probability
Một khái niệm nữa là Data Weighting cái này cực kỳ quan trọng ai làm phân tích cũng nên biết.
Về tool: SPSS Statsitics, đây là phần mềm chuyên phân tích dữ liệu, ít nhất cũng nên làm quen với nó rồi chạy được các phân tích cơ bản như Descriptive Statistics, Frequencies, Cross-Tab, mấy cái test đã kể trên, Data Weighting. Cái thứ hai là Excel, Excel là tool phân tích dữ liệu cực mạnh mà ít người để ý, ngoài các hàm cơ bản thì phải biết được Pivot Table.
Ngôn ngữ lập trình và các tool visualize: SQL, Python, R, Tableau, Power BI. Về Tableau với Power BI thì mình prefer Tableau vì performance tốt hơn, tài liệu thì vào trang chủ của nó có Tutorial làm rất dễ.
Job nhóm này ít hơn nhóm 1 nhưng thiên về phân tích, ít lập trình hơn. Đa số các bạn học kinh tế, toán thống kê làm được.
3. ML Engineer/Data Scientist: cái này làm về Machine Learning, AI. Skill cần có thì bao gồm tất cả skill của nhóm 1 và 2, đặc biệt là nhóm 2 vì nếu ko biết thống kê thì làm như cái máy mà chẳng hiểu model mình build ra nó tốt xấu chổ nào. Có nhiều mảng khá đặc thù như Computer Vision, Natural language processing, speech recognition, nó là hướng khác mình ko nói ở đây, còn hướng gần gũi hơn mà anh em Data Analyst có thể đi lên là làm các model dự doán cho các ngành đặc thù như doanh số sales, giá bất động sản. v..v..
Học về cái này thì nên tiếp cận theo hướng top-down trước để hiểu overview xem ML, AI nó là cái gì, có các mảng nào, cần những kiến thúc gì rồi pick up 1 mảng mà học thì tiếp cận theo hướng bottom-up, học những cái cơ bản trước rồi nâng cao.
Tài liệu vê cái này thì đọc cuốn
Introduction to Machine Learning with Python, cực dễ hiểu và không nặng về toán lắm, học xong có overview rồi thì học sâu về toán.
https://www.amazon.com/Introduction-Machine-Learning-Python-Scientists/dp/1449369413
Ngoài ra còn có course này
Machine Learning A-Z™: Hands-On Python & R In Data Science trên Udemy và
Machine Learning Andrew Ng trên Coursera
Về toán cho ML, AI: cái quan trọng nhất vẫn là thống kê như đã nói ở nhóm 2. Cái này lúc làm về nó vận dụng nhiều nhất. Cái quan trọng thứ 2 là đại số tuyến tính, bạn lên Khan Acedamy tìm khóa này
https://www.khanacademy.org/math/linear-algebra cái này học để hiểu bên trong các thuật toán làm gì. Cái thứ 3 là giải tích, xem lại đạo hàm, tích phân, vi phân học để hiểu bên trong các thuật toán làm gì luôn.
Còn muốn đào sâu về toán để chém gió, hù dọa nhau thì kiếm cuốn này:
The Elements of Statistical Learning
https://web.stanford.edu/~hastie/ElemStatLearn//
Job cho nhóm này đang có nhiều nhu cầu, chất, yêu cầu cao.