thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Nguồn học thì nhiều, thím muốn miễn phí hay có phí?
Đại khái thì PBI nó gồm
Power Query làm ETL
Data Model để mô hình hóa + phân tích (sử dụng DAX)
Visualization để trực quan hóa
1 số nguồn:
Miễn phí: Youtube search + Docs của Microsoft (tiếng Anh)
Có phí: Mấy khóa học. Review sơ sơ thì:
-Gitiho: Rẻ nhất trong cả đám. Học kiểu cưỡi ngựa xem hoa, dành cho người đi từ chưa biết gì đến biết được tính năng cơ bản.
-BACS, hocdataonline: Dạy theo kiểu nghiệp vụ. Không làm cùng ngành thì bỏ qua.
-Datapot: na ná cái trên.
-KPIM: dạy ổn. Group cộng đồng cũng to.
Em cảm ơn thím ạ :sweet_kiss:
 
Bác nào rảnh muốn tìm hiểu cái gì mới cho vui thì có thể tham khảo ngôn ngữ Julia nhé, có nhiều thứ thú vị. Thằng này được quảng cáo là nhanh hơn python nên biết đâu sẽ giúp các bác xử lý các data thuận tiện hơn
 
Sau khi đọc hết 21 pages của topic này có 1 điều tôi muốn chia sẽ 1 chút về DA.
Có rất nhiều comment xếp hạng và phân loại công việc DA có phần chiếu dưới thậm chí là easy.
Nhưng thực tế thì ngược lại, trừ khi công việc nó quá thuần túy là reporting only. Còn 1 khi đã dính đến insight - brainstorm, thì đòi hỏi rất nhiều bao gồm cả domain knowledge có khi không chỉ của công ty mà còn bao gồm của thị trường. Nhất là độ nhạy bén (điều mà gần như là 1 yếu tố mang tính thiên phú hơn là kỹ năng).

1 câu chuyện thực tế tôi đã trải qua ở 1 công ty tài chính tôi từng làm. Họ ký contract với McKinsey (top 3 global) để predict số về cuối tháng, sau 1 năm kết quả vẫn trật. Thú vị là con số này lại được các bạn team DA tính rất chuẩn (sai số chỉ là con số thuộc hàng thứ 2 sau dấu '.'). Đến mức consultant bên đó phải xuống và hỏi về giải thuật và model đang dùng là gi ? Và tôi nghĩ câu trả lời sẽ khiến nhiều bạn cảm thấy bối rối: chỉ dùng excel và xstk, không có model gì cả.

Bên cạnh, đó là lời chia sẽ thật lòng của một người thuộc hàng C mà tôi có dịp trao đổi riêng. Top có thể không hiểu technical nhưng họ rất hiểu số và cực nhạy trong vấn đề này. Không nhiều người trong hàng ngũ đó lại không biết về số hay nói cách khác là công việc của 1 DA như chị ấy cũng đã từng trải qua.

Nghe có vẻ hơi dìm DS và DE nhưng tôi nghĩ các bạn nên lắng nghe thêm góc nhìn từ người đi trước để có cái nhìn khách quan hơn.

Bản thân tôi đánh giá mức quan trọng của DE/DA/DS đều ngang nhau mỗi cái đều có cái mạnh riêng. Như DE mà làm không tốt, data toàn rác qua DA với DS có mà ói máu đi dọn.

Cuối cùng là việc có bạn thắc mắc vì sao họ lại hay ăn xổi ? Theo tôi lý do khá đơn giản, khi bỏ tiền đầu tư họ sẽ phải tính toán rất nhiều thứ, trong đó quan trọng nhất là tỷ suất sinh lợi. Điều mà nếu bạn không prove được phương án của bạn đem lại là option tốt nhất thì các top level sẽ dẹp bỏ là chuyện bình thường. Vì quy cho cùng, business là tiền.
 
Sau khi đọc hết 21 pages của topic này có 1 điều tôi muốn chia sẽ 1 chút về DA.
Có rất nhiều comment xếp hạng và phân loại công việc DA có phần chiếu dưới thậm chí là easy.
Nhưng thực tế thì ngược lại, trừ khi công việc nó quá thuần túy là reporting only. Còn 1 khi đã dính đến insight - brainstorm, thì đòi hỏi rất nhiều bao gồm cả domain knowledge có khi không chỉ của công ty mà còn bao gồm của thị trường. Nhất là độ nhạy bén (điều mà gần như là 1 yếu tố mang tính thiên phú hơn là kỹ năng).

1 câu chuyện thực tế tôi đã trải qua ở 1 công ty tài chính tôi từng làm. Họ ký contract với McKinsey (top 3 global) để predict số về cuối tháng, sau 1 năm kết quả vẫn trật. Thú vị là con số này lại được các bạn team DA tính rất chuẩn (sai số chỉ là con số thuộc hàng thứ 2 sau dấu '.'). Đến mức consultant bên đó phải xuống và hỏi về giải thuật và model đang dùng là gi ? Và tôi nghĩ câu trả lời sẽ khiến nhiều bạn cảm thấy bối rối: chỉ dùng excel và xstk, không có model gì cả.

Bên cạnh, đó là lời chia sẽ thật lòng của một người thuộc hàng C mà tôi có dịp trao đổi riêng. Top có thể không hiểu technical nhưng họ rất hiểu số và cực nhạy trong vấn đề này. Không nhiều người trong hàng ngũ đó lại không biết về số hay nói cách khác là công việc của 1 DA như chị ấy cũng đã từng trải qua.

Nghe có vẻ hơi dìm DS và DE nhưng tôi nghĩ các bạn nên lắng nghe thêm góc nhìn từ người đi trước để có cái nhìn khách quan hơn.

Bản thân tôi đánh giá mức quan trọng của DE/DA/DS đều ngang nhau mỗi cái đều có cái mạnh riêng. Như DE mà làm không tốt, data toàn rác qua DA với DS có mà ói máu đi dọn.

Cuối cùng là việc có bạn thắc mắc vì sao họ lại hay ăn xổi ? Theo tôi lý do khá đơn giản, khi bỏ tiền đầu tư họ sẽ phải tính toán rất nhiều thứ, trong đó quan trọng nhất là tỷ suất sinh lợi. Điều mà nếu bạn không prove được phương án của bạn đem lại là option tốt nhất thì các top level sẽ dẹp bỏ là chuyện bình thường. Vì quy cho cùng, business là tiền.


Chuẩn bác, sức mạnh của DA nằm ở việc hiểu rõ business đang đi hướng nào, cái mà DS không thể nắm sát được khi làm 1 bài toán lớn và DE không hiểu được khi làm hệ thống. DA không làm giải thuật như DS ( thật ra phần nhỏ DS có trình thôi chứ toàn import ....) hoặc ko code pipeline khỏe như DE nhưng việc hiểu dữ liệu và khớp nó với business đang vận hành như thế nào thì DS và DE không thể nắm bằng được. Nhất là trong môi trường startup , khi cả hệ thống và business quay xe liên tục thì mức độ nhạy về tính chính xác của dữ liệu và việc ứng dụng nó sát với business nhất lại là DA.


Phần lớn mọi người nghĩ , ùi ui DA làm Dashboard với hiện mấy cái số lên thôi mà làm gì to tát. Nhưng làm thế nào hiện cái số để business take action được thì không ai nói cả.
 
Chuẩn bác, sức mạnh của DA nằm ở việc hiểu rõ business đang đi hướng nào, cái mà DS không thể nắm sát được khi làm 1 bài toán lớn và DE không hiểu được khi làm hệ thống. DA không làm giải thuật như DS ( thật ra phần nhỏ DS có trình thôi chứ toàn import ....) hoặc ko code pipeline khỏe như DE nhưng việc hiểu dữ liệu và khớp nó với business đang vận hành như thế nào thì DS và DE không thể nắm bằng được. Nhất là trong môi trường startup , khi cả hệ thống và business quay xe liên tục thì mức độ nhạy về tính chính xác của dữ liệu và việc ứng dụng nó sát với business nhất lại là DA.


Phần lớn mọi người nghĩ , ùi ui DA làm Dashboard với hiện mấy cái số lên thôi mà làm gì to tát. Nhưng làm thế nào hiện cái số để business take action được thì không ai nói cả.

Đồng ý với bạn và mở rộng thêm 1 chút về vấn đề show số, nhiều người vẫn nghĩ như bạn đề cập nhưng lắm ông vỡ mồm vì 1 cặp skill set có thể nói là critical của DA. Điều mà ngay cả chính trong nội bộ DA đã không nhiều bạn làm được (huống chi là DE và DS), chỉ ai thực sự giỏi và nó rất cần cho các top level dù là startup hay các công ty lớn: khả năng cook số và debate.
 
Em đang định học hệ thống thông tin quản lý rồi theo hướng DA. Không biết DA có nặng toán như AI, ML không các thím =(( và em theo học ngành kia có phù hợp làm DA không hay nên học IT hơn ạ ?
 
Đồng ý với bạn và mở rộng thêm 1 chút về vấn đề show số, nhiều người vẫn nghĩ như bạn đề cập nhưng lắm ông vỡ mồm vì 1 cặp skill set có thể nói là critical của DA. Điều mà ngay cả chính trong nội bộ DA đã không nhiều bạn làm được (huống chi là DE và DS), chỉ ai thực sự giỏi và nó rất cần cho các top level dù là startup hay các công ty lớn: khả năng cook số và debate.

giỏi cái này thì thường phải giỏi toán. Mình có biết 1 cậu em học Toán, giờ học lên master và tiếp tục làm DA. Nói chung là giỏi toán.

Còn theo thị trường ở VN bây giờ thì là ... biết 1 chút sql, biết 1 chút python, 1 chút về xstk.
Thế là thành DA :)

Nói chung DA giỏi hoặc ít nhất là có nền tảng tốt ko dễ kiếm đâu :D
 
Em đang định học hệ thống thông tin quản lý rồi theo hướng DA. Không biết DA có nặng toán như AI, ML không các thím =(( và em theo học ngành kia có phù hợp làm DA không hay nên học IT hơn ạ ?
DA không nặng về toán nhưng vẫn cần bạn phải có kiến thức về xstk (có thêm kiến thức về hồi quy tuyến tính thì càng tốt).Theo như các bác ở trên nói thì skill quan trọng nhất của DA là domain business knowledge.Đồng nghĩa với việc bạn phải có kiến thức về kinh tế , hoặc kiến thức về mảng bạn làm nên mình thấy học HTTTQL làm DA phù hợp hơn là IT.IT ở Việt Nam mình thì làm kỹ sư phần mềm hoặc kỹ sư hệ thống là chuẩn nhất.Còn không thì bạn chọn ngành Computer Science(Khoa học máy tính ) ý ,bên Tây tôn thờ ngành đấy lắm, bạn học ngành đấy xong muốn làm nghề gì liên quan đến máy tính cũng đc :boss:
 
Tuỳ vào lượng dữ liệu của bạn. Nếu dữ liệu ít thì chơi theo hướng rule based.
Dạng bảng thì đầu tiên bạn align về chiều thẳng đã, sau đó cứ bóc nó ra thành từng cell để sau đó đưa nó về column và row. Có thể tham khảo ở đây: https://docs.opencv.org/3.4/dd/dd7/tutorial_morph_lines_detection.html
Với từ cell thì thực hiện text detection và text recognition. 2 models này thì có thể dùng pretrained model có sẵn, mình thường dùng CRAFT (của naver, đây là package được đóng gói https://github.com/fcakyon/craft-text-detector) và vietocr (https://github.com/pbcquoc/vietocr), sau đó fine-tuning theo nhu cầu.
Rồi từ các cell đó bạn dùng rule thôi, ví dụ cột đầu tiên thì là tên học phần, cột thứ 2 là số lý thuyết
sC5StBI.png
Đơn giản vậy thôi
TdDbuzl.png

Bác nào bổ sung hay chỉnh thì góp ý nhé chứ em cũng newbie thôi ạ
SAzCCti.png
cảm ơn thím nha, giờ em mới vào để rep được :)))
 
Mình cũng đang học free khoá này. Thím học free hay mua vậy? Em tò mò muốn xem mấy cái graded quiz để thực hành ấy mà.
Bác xin Financial Aid được mà.
Click vô nút Financial Aid trước khi enroll vào khóa rồi trả lời mấy câu hỏi. khoai nhất là 2 câu chính nó đòi tối thiểu 150 chữ mỗi câu thôi.
Được một lần là cứ lưu cái câu trả lời của mình lại. học mấy khóa sau cứ lôi ra mà paste. được hết. mình đang làm như thế đây.
PS: nhưng mình tự copy câu trả lời cũ của mình thì đc, chứ copy của ng khác hay của trên mạng thì ko chắc nha. vì nghe dân mạng đồn coursera nó check đạo văn (nghe đồn thôi chứ mình ko rõ)
 
Bác xin Financial Aid được mà.
Click vô nút Financial Aid trước khi enroll vào khóa rồi trả lời mấy câu hỏi. khoai nhất là 2 câu chính nó đòi tối thiểu 150 chữ mỗi câu thôi.
Được một lần là cứ lưu cái câu trả lời của mình lại. học mấy khóa sau cứ lôi ra mà paste. được hết. mình đang làm như thế đây.
PS: nhưng mình tự copy câu trả lời cũ của mình thì đc, chứ copy của ng khác hay của trên mạng thì ko chắc nha. vì nghe dân mạng đồn coursera nó check đạo văn (nghe đồn thôi chứ mình ko rõ)

Coursera nó check cái financial aid bao lâu có kết quả vậy bác.
 
Coursera nó check cái financial aid bao lâu có kết quả vậy bác.
2 tuần.và phải apply Aid trước khi học nha. chứ đang học giữa chừng nếu muốn apply Aid thì nó cũng bắt unenroll à.
.
Tuy nhiên chỉ chờ lâu ở lần đầu tiên thôi. mấy lần sau thì khi mình đang học khóa này, thì mình đã xin Aid cho 1,2 khóa nữa rồi. nên khúc sau thì ko phải chờ.
 
2 tuần.và phải apply Aid trước khi học nha. chứ đang học giữa chừng nếu muốn apply Aid thì nó cũng bắt unenroll à.
.
Tuy nhiên chỉ chờ lâu ở lần đầu tiên thôi. mấy lần sau thì khi mình đang học khóa này, thì mình đã xin Aid cho 1,2 khóa nữa rồi. nên khúc sau thì ko phải chờ.

Mà bác biết cái gói cousera plus không. Một năm 9 triệu, được học hầu hết các khóa, em thấy chỉ có một số khóa không học được như series DL của andrew Ng thôi, tính ra cũng rẻ.
 
:D mình làm AI đến nay cũng được khoảng 3 năm rồi, làm chính là về computer vision. Theo kinh nghiệm của mình thì làm cái này mà kiểu cầu bất cầu bơ thì cũng chả có gì là quá khó nhưng nếu muốn làm nghiêm túc thì tương đối là khoai. Vấn đề ngành này nó lại yêu cầu cao ở rât nhiều mảng, nghĩa là bạn làm model giỏi, kiến thức tốt nhưng vẫn cần có kĩ năng SE cứng. Vì sao ? vì bh ngta luôn làm product, mấy cái research mấy cty bth chả bh chuyên làm cả, thường là vừa làm AI vừa là SE luôn
Một điểm lưu ý là bh tài liệu rất nhiều, free cũng có, open source cũng nhiều nhưng đã học cái gì thì phải hiểu cái đó :v đừng như cái trend Mì AI bỏ mẹ gì đó :LOL: đào tạo ra một lứa chả hiểu cái gì chỉ biết git clone rồi python train.py :))
Chốt lại ngành này là ngành có tiềm năng phát triển nữa chứ cũng k phải là trend ngắn hạn. Tuy nhiên cần suy nghĩ kĩ vì ngành này yêu cầu tương đối là cao, cần sự chăm chỉ và tìm tòi nhất định :D muốn ăn xổi thì cũng được nhưng rồi sẽ đến lúc nhận ra mình k có chỗ đứng nữa thì lúc đấy tất cả cũng đã muốn :v dù gì thì ưu điểm cũng là đang trend + yêu cầu cao nên lương lậu cũng tương xứng.
Một góc chia sẻ nhỏ cho bác nào muốn đâm lao nhé :v

mảng computer vision thì có những job (task) cụ thể là gì vậy bác.
 
Mà bác biết cái gói cousera plus không. Một năm 9 triệu, được học hầu hết các khóa, em thấy chỉ có một số khóa không học được như series DL của andrew Ng thôi, tính ra cũng rẻ.

E ko biết. giờ bác nói mới biết ah. mà hiện e vẫn đang học ko mất phí thì e cứ thế mà tiếp thôi :)))

via theNEXTvoz for iPhone
 
AI vs DE cái nào tương lai dễ phát triển hơn các bác ? Làm AI không có MSc với PhD sau có phát triển được không ?
 
Đang xài keras CNN để làm bài toán binary classification, mà ko hiểu sao lại val_accuracy toàn loanh quanh 0.5 0.6. Learning rate 1e-4

Screen Shot 2021-07-08 at 12.00.28.png
 
Back
Top