thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Vừa xem được cái series hướng dẫn của anh Ấn Độ cho ngành Data Engineering, anh này pass phỏng vấn của Amazon (6 vòng) và kinh nghiệm cũng nhiều, nếu phát âm khó nghe thì đọc phụ đề cũng được.


Đây là roadmap những kiến thức mà một data Engineering cần có. Xem xong mà hoảng quá. Để học đủ 13 mảng kiến thức này chắc mất hết 4 năm đại học. Mấy anh Ấn Độ cày bừa kinh thật.


Hai project cá nhân mà anh này làm và dùng để khoe trong 6 vòng phỏng vấn với Amazon. Project 1 là lập data về số ca nhiễm COVID và project 2 là thống kê các tweet về vaccine. Anh này có giải thích cách làm từng project, từ việc tải file trên GitHub, cho đến cài đặt và triển khai như thế nào. Cái này có ích cho ai không có ý tưởng và không biết thực hiện một project về data như thế nào.


Đây là video kể về 6 vòng phỏng vấn với Amazon, chỉ có vòng 5, 6 là hỏi về hành vi, không có liên quan đến kỹ thuật. Các vòng khác đều hỏi một câu kỹ thuật SQL và một câu giải thuật.
 
Sau khi đọc những cuốn textbook được recommend nhiều nhất trên reddit + thực sự tập trung và suy nghĩ khi học chứ không lướt như lần học đầu thì em đã bắt đầu "hiểu" toán, và hiểu được tại sao những bạn chuyên toán lại đam mê nó tới vậy

Thực ra thì trước giờ môn toán em không tệ, nhưng vì nhiều lí do nên thành ra hồi phổ thông học chuyên tiếng Anh. Kể ra cũng bù trừ cho nhau, nhờ vậy mà tiếp cận được tài liệu nước ngoài, mới thấy rằng môn toán thực sự rất cần những tài liệu hay và thầy cô giáo giỏi, không thì nhìn chỉ thấy công thức với ký hiệu thôi, không hiểu gì hết

Tính ra cũng khá trễ và bỏ phí vài năm qua nhưng giờ em đang học lại toán và quyết tâm theo đuổi con đường AI Research. Nếu sau này thành công thì nói không ngoa tháng vừa rồi chính điểm khởi đầu cho cuộc hành trình :big_smile:

P/s: Thật lòng thì phải cảm ơn trang tải sách lậu, nhờ vậy mà lâu nay em đọc được biết bao nhiêu thứ hay chứ không chỉ là sách toán. Biết tiếng Anh nó thực sự mở ra một thế giới mới theo đúng nghĩa luôn
Bác cho em xin tên vài cuốn textbook với nhé :D
 
Bác cho em xin tên vài cuốn textbook với nhé :D
Môn gì mới được chứ.
Mà bạn cứ google "best books to learn xxx reddit" là ra thôi. Xem cỡ chục trang kết quả rồi tổng hợp lại.
Ở VN thì pirate thoải mái nên cứ tải hết về rồi xem thử được, không phải đắn đo kĩ càng như là mua sách thật
 
Hi các thím. Em là một DE.

Hiện tại đang có nhu cầu dựng mới một hệ thống base trên Hadoop, phục vụ để phát triển vài thứ nội bộ.
Em muốn tối thiểu effort cho mấy việc cài cắm, quản trị.
Lần cuối cùng em dựng hệ thống dạng này "bằng tay", cài cắm từng service cũng hơn hai năm trước rồi. Sau đó vài lần khác thì chơi qua ambari và dùng HDP.
Thật tiếc là hiện tại Cloudera đã chặn việc truy cập tới repo mất rồi nên việc cài cắm chắc sẽ khó khăn hơn khá nhiều.

Một số thằng em cần cài cắm:
  • HDFS, Yarn, MR cluster (5-10 nodes)
  • Hive + Derby chơi metastore luôn
  • Sqoop
  • Ranger, Atlas
  • Monitor dạng grafana
  • Có thằng nào mà quản trị như ambari nữa thì tuyệt.

Muốn hỏi các bác chút về ba options:
  • Kiếm được public repo mà ông nào đó clone được của HDP dùng được thì nhanh nhất. Lượn qua một chút thì thấy còn thằng này có repo nhưng em cũng chưa thử nghiệm: https://makeopensourcegreatagain.com. Bác nào biết có con nào nữa mà ngon không chỉ em với. Edit: Đã dựng lên được với thằng này
  • Build lại con ambari và setup local repo. Cái này thì không rõ cần những gì và effort cho nó có nhiều không nhỉ. Ambari thì em build thử cũng ok rồi nhưng chưa xem đoạn setup local repo. Nếu setup local repo mà lại phải đi build các con khác hay cấu hình qua phức tạp thì có vẻ no hope. Bác nào thử rồi thì cho em xin ý kiến luôn
  • Cài từng sẻvice. Vụ này thì em nghĩ là làm được nhưng sẽ tốn nhiều effort. Lần trước cho thằng em dựng mỗi cái hdfs cluster lên mà nó làm mấy ngày mới xong.

Thank các thím.

À: đừng thím nào bảo em chơi cloud nhá, vì cty có DC riêng nên các bố không cho chơi cloud lúc thử nghiệm này. Chứ không thì em đã mua mịa gói CDP hoặc move lên cloud cmnr :beat_brick:

via theNEXTvoz for iPhone
 
Last edited:
Hi các thím. Em là một DE.

Hiện tại đang có nhu cầu dựng mới một hệ thống base trên Hadoop, phục vụ để phát triển vài thứ nội bộ.
Em muốn tối thiểu effort cho mấy việc cài cắm, quản trị.
Lần cuối cùng em dựng hệ thống dạng này "bằng tay", cài cắm từng service cũng hơn hai năm trước rồi. Sau đó vài lần khác thì chơi qua ambari và dùng HDP.
Thật tiếc là hiện tại Cloudera đã chặn việc truy cập tới repo mất rồi nên việc cài cắm chắc sẽ khó khăn hơn khá nhiều.

Một số thằng em cần cài cắm:
  • HDFS, Yarn, MR cluster (5-10 nodes)
  • Hive + Derby chơi metastore luôn
  • Sqoop
  • Ranger, Atlas
  • Monitor dạng grafana
  • Có thằng nào mà quản trị như ambari nữa thì tuyệt.

Muốn hỏi các bác chút về ba options:
  • Kiếm được public repo mà ông nào đó clone được của HDP dùng được thì nhanh nhất. Lượn qua một chút thì thấy còn thằng này có repo nhưng em cũng chưa thử nghiệm: https://makeopensourcegreatagain.com. Bác nào biết có con nào nữa mà ngon không chỉ em với. Edit: Đã check qua repo của nó, không giúp được gì.
  • Build lại con ambari và setup local repo. Cái này thì không rõ cần những gì và effort cho nó có nhiều không nhỉ. Ambari thì em build thử cũng ok rồi nhưng chưa xem đoạn setup local repo. Nếu setup local repo mà lại phải đi build các con khác hay cấu hình qua phức tạp thì có vẻ no hope. Bác nào thử rồi thì cho em xin ý kiến luôn
  • Cài từng sẻvice. Vụ này thì em nghĩ là làm được nhưng sẽ tốn nhiều effort. Lần trước cho thằng em dựng mỗi cái hdfs cluster lên mà nó làm mấy ngày mới xong.

Thank các thím.

À: đừng thím nào bảo em chơi cloud nhá, vì cty có DC riêng nên các bố không cho chơi cloud lúc thử nghiệm này. Chứ không thì em đã mua mịa gói CDP hoặc move lên cloud cmnr :beat_brick:

via theNEXTvoz for iPhone
Mình xin phép đá cái thread này lên (đè lên mấy thread của bọn clone) để xem có ae nào giúp không.
Hnay ngồi tính thử effort cho vụ này thấy tốn resource quá nên vẫn chưa biết xử lý sao :beat_brick:
 
Trong cái certificate về Data Analyst của IBM trên Coursera ở link dưới, bạn sẽ thấy hai môn:
  • Excel Basics for Data Analysis
  • Data Visualization and Dashboards with Excel and Cognos
giúp học những kiến thức cơ bản về Excel nhưng chuyên dùng cho Data thôi, nên tiết kiệm thời gian vì học đúng trọng tâm mình cần. Nhớ chọn chữ Audit bé xíu khi đăng ký hai môn này để học free.
Bài giảng có thể có phụ đề tiếng Việt.

https://www.coursera.org/professional-certificates/ibm-data-analyst?
đã enroll :D
cảm ơn bác :D
 
Những bạn nào thích dữ liệu hay đam mê Data Analytic, Data visualization thì nên theo dõi hai kênh sau:
https://www.reddit.com/r/dataisbeautiful/
https://public.tableau.com/en-us/gallery/?tab=viz-of-the-day&type=viz-of-the-day

Những trang này cung cấp rất nhiều dạng biểu đồ dữ liệu đẹp mắt, trực quan vừa giúp mình học hỏi thêm kiến thức mà còn nảy ra ý tưởng để tạo các bảng biểu hấp dẫn.

Ví dụ một bạn tạo ra mô hình vành đai tiểu hành tinh rất đẹp mắt dựa trên số liệu từ hội thiên văn vũ trụ quốc tế.

 
Trong cái certificate về Data Analyst của IBM trên Coursera ở link dưới, bạn sẽ thấy hai môn:
  • Excel Basics for Data Analysis
  • Data Visualization and Dashboards with Excel and Cognos
giúp học những kiến thức cơ bản về Excel nhưng chuyên dùng cho Data thôi, nên tiết kiệm thời gian vì học đúng trọng tâm mình cần. Nhớ chọn chữ Audit bé xíu khi đăng ký hai môn này để học free.
Bài giảng có thể có phụ đề tiếng Việt.

https://www.coursera.org/professional-certificates/ibm-data-analyst?
vừa xem xong cái này
ko hay lắm vì kiến thức khá là cũ rồi, hiện tại excel ko làm như trong bài giảng nữa

để xem nốt cái dưới
 
Công ty em đang tuyển Data Engineer trình middle trở lên, làm việc tại Hà Nội. Thím nào có hứng thú vứt CV vào ib em refer nhé :beauty:
bên bạn có tuyển DA fresher không?mình đang làm về logistic giờ muốn chuyển sang data analyst
 
Mình đang làm SQL dev đây, trả lời câu hỏi giúp bác, thì cv hằng ngày của mình là viết, chỉnh sửa stored procedures. Nên bác chỉ cần nắm chắc T-SQL là làm ngon rồi, không cần biết ngôn ngữ khác, ( biết thì càng tốt để hiểu được cách nó làm việc với DB). Nói chung chung vậy chứ đụng vào thực tế có những SP rất phức tạp. Bác cần hỏi cụ thể thì ib e chia sẻ thêm

Cho mình hỏi với bác thì khi mà bác tunning mấy cái stored procedures này thì bác dùng kĩ năng nào nhiều nhất. Với mình thì mình thích là đọc execution plan và algorithm theo nó.

Mình khá tự tin về khả năng đọc execution plan và giải thích algorithm theo nó. VD tại sao là nested loop, tại sao là hash join, tại sao lại là sort-merge, tại sao ở đây có spool, tại sao có sort... rồi optimize theo execution plan, và mình cũng rất thích những ai có lối chơi về database thế này. Đọc execution plan và DAG của Spark cũng vậy. Mình cảm thấy một khi mình biết chắc chắn nó work như thế nào, thì điều khiển database và query cứ như trong lòng bàn tay vậy.

Tuy nhiên có vẻ trên thực tế người sử dụng lao động và phỏng vấn có vẻ còn chẳng biết đến những thứ này. :sweat:

Hiện giờ mình vừa nghỉ ở chỗ cũ và mới nhận job mới ở 1 công ty outsource lớn, nhưng sau 1 tuần có lẽ do cú shock văn hóa quá nặng (mình đến từ công ty product tầm trung) nên mình đang tính sẽ nghỉ luôn. Giờ tương lai ko biết sẽ đi về đâu.
 
Có anh em nào chuyên về mảng research algorithm computer vision, deep learning với robotics cho mình hỏi về cơ hội làm việc ở Việt Nam phát :) Đang tính thử apply vào VinAI với Phenikaa
 
Vừa xem được cái series hướng dẫn của anh Ấn Độ cho ngành Data Engineering, anh này pass phỏng vấn của Amazon (6 vòng) và kinh nghiệm cũng nhiều, nếu phát âm khó nghe thì đọc phụ đề cũng được.


Đây là roadmap những kiến thức mà một data Engineering cần có. Xem xong mà hoảng quá. Để học đủ 13 mảng kiến thức này chắc mất hết 4 năm đại học. Mấy anh Ấn Độ cày bừa kinh thật.


Hai project cá nhân mà anh này làm và dùng để khoe trong 6 vòng phỏng vấn với Amazon. Project 1 là lập data về số ca nhiễm COVID và project 2 là thống kê các tweet về vaccine. Anh này có giải thích cách làm từng project, từ việc tải file trên GitHub, cho đến cài đặt và triển khai như thế nào. Cái này có ích cho ai không có ý tưởng và không biết thực hiện một project về data như thế nào.


Đây là video kể về 6 vòng phỏng vấn với Amazon, chỉ có vòng 5, 6 là hỏi về hành vi, không có liên quan đến kỹ thuật. Các vòng khác đều hỏi một câu kỹ thuật SQL và một câu giải thuật.
@timo Bác đang theo hướng DE à, đang học theo lộ trình nào đấy ạ
 
Hi các thím. Em là một DE.

Hiện tại đang có nhu cầu dựng mới một hệ thống base trên Hadoop, phục vụ để phát triển vài thứ nội bộ.
Em muốn tối thiểu effort cho mấy việc cài cắm, quản trị.
Lần cuối cùng em dựng hệ thống dạng này "bằng tay", cài cắm từng service cũng hơn hai năm trước rồi. Sau đó vài lần khác thì chơi qua ambari và dùng HDP.
Thật tiếc là hiện tại Cloudera đã chặn việc truy cập tới repo mất rồi nên việc cài cắm chắc sẽ khó khăn hơn khá nhiều.

Một số thằng em cần cài cắm:
  • HDFS, Yarn, MR cluster (5-10 nodes)
  • Hive + Derby chơi metastore luôn
  • Sqoop
  • Ranger, Atlas
  • Monitor dạng grafana
  • Có thằng nào mà quản trị như ambari nữa thì tuyệt.

Muốn hỏi các bác chút về ba options:
  • Kiếm được public repo mà ông nào đó clone được của HDP dùng được thì nhanh nhất. Lượn qua một chút thì thấy còn thằng này có repo nhưng em cũng chưa thử nghiệm: https://makeopensourcegreatagain.com. Bác nào biết có con nào nữa mà ngon không chỉ em với. Edit: Đã check qua repo của nó, không giúp được gì.
  • Build lại con ambari và setup local repo. Cái này thì không rõ cần những gì và effort cho nó có nhiều không nhỉ. Ambari thì em build thử cũng ok rồi nhưng chưa xem đoạn setup local repo. Nếu setup local repo mà lại phải đi build các con khác hay cấu hình qua phức tạp thì có vẻ no hope. Bác nào thử rồi thì cho em xin ý kiến luôn
  • Cài từng sẻvice. Vụ này thì em nghĩ là làm được nhưng sẽ tốn nhiều effort. Lần trước cho thằng em dựng mỗi cái hdfs cluster lên mà nó làm mấy ngày mới xong.

Thank các thím.

À: đừng thím nào bảo em chơi cloud nhá, vì cty có DC riêng nên các bố không cho chơi cloud lúc thử nghiệm này. Chứ không thì em đã mua mịa gói CDP hoặc move lên cloud cmnr :beat_brick:

via theNEXTvoz for iPhone
Vừa cài thử theo thằng https://github.com/steven-matison/dfhz_hdp_mpack này thì ăn này thím. Nhưng để an toàn thì clone lại repo của nó về thôi :v Bọn HDP h phải mất tiền thành ra mệt mỏi quá. :)
1617703122570.png
 
Back
Top