thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Thấy mọi người học thạc sỹ DS ở Việt Nam hay đi học ở Đại học KHTN, ít nhất thì xung quanh mình, các anh chị làm bank mà theo dữ liệu thì hay đi học ở đấy.
Cơ mà mình nghĩ ở VN chả có chỗ nào dạy DS ok đâu :LOL: đi học cho vui với ra cái bằng thôi, thà đi học thạc sĩ tài chính ngân hàng xong tự học tech có khi ngon hơn :LOL:
E tham khảo roadmap của ông CRO bên e thì ông ấy học Computer Science/Data Science ngay sau khi kết thúc 5 năm đại học. Em đang dự tính dựa vào đấy tham khảo mỗi tội là trường tại VN e sợ chưa đủ hạ tầng để học nên bằng ra ngoài không có giá trị ấy ạ.
Còn về học thạc sĩ tài chính ngân hàng thì không biết là bằng ở VN có giá trị không ấy ạ. Chứ em thấy là học thạc sĩ nên đi du học
 
Chào các bác. có bác nào share vài chỗ học cách dùng Ai không?. Mình lên hugging face tải vài model về chạy ok rồi mà không biết train nó với dữ liệu của mình như thế nào. Mình muốn train nó dịch light novel sang tiếng Anh. Test thử vài model 7b, 13b thấy nó dịch ngu hơn cả Bing trans :confused:.
Mấy model ăn sẵn đó tiếng Việt dở lắm, bác mà muốn train lại cũng không có tiền đâu thà trả tiền gọi api dịch cho rồi. Trừ khi thử xài mấy model VinAI các thứ làm nhưng mình chưa thử ko biết.
 
Mấy model ăn sẵn đó tiếng Việt dở lắm, bác mà muốn train lại cũng không có tiền đâu thà trả tiền gọi api dịch cho rồi. Trừ khi thử xài mấy model VinAI các thứ làm nhưng mình chưa thử ko biết.
VinAI mới ra PhoBert thì phải, nhưng chưa check thử xem độ chính xác đến đâu
 
Chào các bác. có bác nào share vài chỗ học cách dùng Ai không?. Mình lên hugging face tải vài model về chạy ok rồi mà không biết train nó với dữ liệu của mình như thế nào. Mình muốn train nó dịch light novel sang tiếng Anh. Test thử vài model 7b, 13b thấy nó dịch ngu hơn cả Bing trans :confused:.
Bác phải hiểu là trong NLP có sẽ có công đoạn chuyển câu thành token input, nó mã hóa mỗi từ sau dấu cách thành 1 số, mà tiếng việt thì sau dấu cách là tiếng chứ không phải từ, nên nó toang là đúng rồi :smile: Nên hoặc là bác phải tự code 1 đoạn rồi custom code của nó, 2 là dùng model cho tiếng Việt cho lẹ
 
VinAI mới ra PhoBert
Phở bò
FqPSFPf.gif
 
Có sếp nào ở đây đã kinh qua quyển Probabilistic Machine Learning của Kevin P. Murphy chưa nhỉ ? Đợt này em đọc quyển này mà bú được tầm đến chương 5-6 bắt đầu khó hiểu vcax :surrender:
 
đối với bạn thì không mạo hiểm mấy.
Nhưng đối với mình thực sự làm việc với các bạn không biết gì kể cả business vs programming thì rất là oải luôn :'(.
Nên bạn học DTVT thì theo AI luôn đừng theo DS nhé
AI vs DS khác nhau ntn ạ
 
Mấy model ăn sẵn đó tiếng Việt dở lắm, bác mà muốn train lại cũng không có tiền đâu thà trả tiền gọi api dịch cho rồi. Trừ khi thử xài mấy model VinAI các thứ làm nhưng mình chưa thử ko biết
Dùng API bị cái là nó toàn đặt server ở nước ngoài nên lúc cọng bún biển nó đứt nhiều khi không sài được. Phần thì mình muốn vọc với mấy cái nhẹ nhẹ để sang năm tận dụng phần cứng có sẵn làm con generated fill fake cho photoshop. adobe mua năm đầu thì giá chấp nhận được, sang các năm sau thì giá chát quá.:confused:
Bác phải hiểu là trong NLP có sẽ có công đoạn chuyển câu thành token input, nó mã hóa mỗi từ sau dấu cách thành 1 số, mà tiếng việt thì sau dấu cách là tiếng chứ không phải từ, nên nó toang là đúng rồi :smile: Nên hoặc là bác phải tự code 1 đoạn rồi custom code của nó, 2 là dùng model cho tiếng Việt cho lẹ
Mình cần con AI trans lightnovel từ tiếng Nhật sang Tiếng Anh thôi.
 
Chào các bác. có bác nào share vài chỗ học cách dùng Ai không?. Mình lên hugging face tải vài model về chạy ok rồi mà không biết train nó với dữ liệu của mình như thế nào. Mình muốn train nó dịch light novel sang tiếng Anh. Test thử vài model 7b, 13b thấy nó dịch ngu hơn cả Bing trans :confused:.
7b 13b thì ngu là hợp lý rồi fen ơi
 
Có Vozer nào pass phỏng vấn job khoa học dữ liệu hay kĩ thuật dữ liệu bên trung tâm dữ liệu Vietcombank đợt 9/2023 không nhỉ?

Cho mình hỏi thêm bên đó thường báo kết quả pv sau bao lâu vậy?
ủa, Vietcombank cũng có đội này ạ? Trước mình chỉ biết bên đấy có bên team Định Lượng (quant team) là chuyên DS thôi
 
Xem các phỏng vấn data nước ngoài tụi nó hay bàn về ab test thế nhỉ? vượt trội so vs các phương pháp khác luôn ấy, phải chăng làm doanh nghiệp vẫn ưu tiên thử nghiệm nhỏ nhanh liên tục hơn là xây dựng 1 mô hình lớn nhỉ
mô hình lớn thì bác vẫn phải A/B test chứ. Mô hình có phức tạp đến đâu thì cũng đâu dám đưa ra môi trường production cho tất cả user xài cùng 1 lúc được, phải A/B test nhóm nhỏ đánh giá rồi mới mở rộng dần dần ấy bác
 
các bác cho em hỏi em đang tính nhảy việc sang Junior AI thì có bác nào cho em biết range lương cơ bản của junior thì tầm bao nhiêu mình deal được hả các bác
 
Có sếp nào ở đây đã kinh qua quyển Probabilistic Machine Learning của Kevin P. Murphy chưa nhỉ ? Đợt này em đọc quyển này mà bú được tầm đến chương 5-6 bắt đầu khó hiểu vcax :surrender:
Tóm gọn nội bác Murphy muốn truyền tải trong các sách của bác trong một câu thì là như thế này:

ML algorithms (trained ML models) là kết quả của (A) data-generating model (hiểu đơn giản model chưa feed dữ liệu vô để train) và (B) inference method tương ứng.
Vd Classification mà tối ưu binary cross-entropy loss + L1/L2-regularisation là kết quả của áp dụng (B) - là MAP estimation method lên (A) - là model có biến y/target ~ phân bố Bernoulli và bộ tham số theta ~ phân bố Laplace/Gauss.

Có rất nhiều cách thiết kế mô hình - (A) và cũng nhiều phương pháp inference - (B). Kết hợp (A) với (B) bạn sẽ tạo ra được rất rất nhiều thuật toán ML, bao gồm những cái quen thuộc như k-means, kalman filter, ..., thuật toán tổng quát hơn của những cái quen thuộc này để khắc phục các yếu điểm của chúng, vân vân mây mây..

Sách dẫn dắt cho bạn biết các cách thiết kế (A) và các phương pháp (B), tùy sách có thể bao gồm:
  • (A): linear models, hierarchical models vd. Mixture models, time-series vd. state-space models, dynamical models
  • (B): exact inference methods vd. enumeration, propagation, MC sampling; approximate inference methods vd. MAP/maximum-likelihood estimation, Variational Inference (VI) <- nếu làm predictive model thì nên tập trung vào methods nào có thể biến bài toán inference thành bài toán optimization (MAP/ML estimation, VI), nếu làm diagnostic/prescriptive model thì nên ưu tiên exact methods hơn
Ngoài ra còn có các nội dung về so sánh mô hình (Model comparison) thế nào, áp dụng ADVI cho neural networks, ... Bạn cứ từ từ thẩm, nhớ đừng bỏ phần lời mở đầu của mỗi chương và subsection cuối mỗi chương :)

Nhân tiện, để tự tin hơn khi đọc mấy cuốn ntn thì nên nắm vững khi nào thì các biến conditional dependent/independent với nhau nhe. Phần nào khó hiểu quá thì note lại các key concept, keyword rồi map xem chúng thuộc về các concept nền tảng nào trong khung trên. Nếu không map được thì thử nhờ cả ChatGPT giải thích với cho vd minh họa thử coi, nó giải thích cũng ổn áp lắm đó :)
 
Last edited:
Tóm gọn nội bác Murphy muốn truyền tải trong các sách của bác trong một câu thì là như thế này:

ML algorithms (trained ML models) là kết quả của (A) data-generating model (hiểu đơn giản model chưa feed dữ liệu vô để train) và (B) inference method tương ứng.
Vd Classification mà tối ưu binary cross-entropy loss + L1/L2-regularisation là kết quả của áp dụng (B) - là MAP estimation method lên (A) - là model có biến y/target ~ phân bố Bernoulli và bộ tham số theta ~ phân bố Laplace/Gauss.

Có rất nhiều cách thiết kế mô hình - (A) và cũng nhiều phương pháp inference - (B). Kết hợp (A) với (B) bạn sẽ tạo ra được rất rất nhiều thuật toán ML, bao gồm những cái quen thuộc như k-means, kalman filter, ..., thuật toán tổng quát hơn của những cái quen thuộc này để khắc phục các yếu điểm của chúng, vân vân mây mây..

Sách dẫn dắt cho bạn biết các cách thiết kế (A) và các phương pháp (B), tùy sách có thể bao gồm:
  • (A): linear models, hierarchical models vd. Mixture models, time-series vd. state-space models, dynamical models
  • (B): exact inference methods vd. enumeration, propagation, MC sampling; approximate inference methods vd. MAP/maximum-likelihood estimation, Variational Inference (VI) <- nếu làm predictive model thì nên tập trung vào methods nào có thể biến bài toán inference thành bài toán optimization (MAP/ML estimation, VI), nếu làm diagnostic/prescriptive model thì nên ưu tiên exact methods hơn
Ngoài ra còn có các nội dung về so sánh mô hình (Model comparison) thế nào, áp dụng ADVI cho neural networks, ... Bạn cứ từ từ thẩm, nhớ đừng bỏ phần lời mở đầu của mỗi chương và subsection cuối mỗi chương :)

Nhân tiện, để tự tin hơn khi đọc mấy cuốn ntn thì nên nắm vững khi nào thì các biến conditional dependent/independent với nhau nhe. Phần nào khó hiểu quá thì note lại các key concept, keyword rồi map xem chúng thuộc về các concept nền tảng nào trong khung trên. Nếu không map được thì thử nhờ cả ChatGPT giải thích với cho vd minh họa thử coi, nó giải thích cũng ổn áp lắm đó :)
rất cảm ơn reply chi tiết của bác, có gì mạn phép hộp bác với connect bác được không ạ, em cảm ơn :love: :love:
 
Back
Top