thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

À thực ra thì cũng ko tới mức sâu thế đâu. Hỏi xem ứng viên có biết, có nắm dc các kiến thức basic ko thôi.
Rồi đưa 1 table + hỏi vài câu query liên quan + xác suất thống kê các kiểu.

Còn về DE thì bên mình cần thiên về system hơn. Do DE bên mình công việc là build pipeline xử lý các flow data. Bên mình đang monitoring data trên Grafana + InfluxDB. Mà cũng chưa tận dụng dc hết sức mạnh cuẩ 2 thằng này ^^
Bên mình thì làm về fintech, stack chủ yếu là Spark/Hadoop/Airflow/Python
Bác rảnh thì hôm nào cafe giao lưu :D
Bên bác có xài spark3 chưa, có tận dụng dc cái gì mới ko?

Databricks runtime mới nó có Spark 3, mình có xài qua nhưng chưa có cảm nhận được gì. Cơ bản là cũng chả có xài Spark mấy, toàn xài để parse với đọc web log không, mà lâu lâu cần mới đọc. Còn gắn luôn vào pipeline chạy thường xuyên thì trước có cái request của 1 module trong công ty, cần nó để integrate 1 đống các loại web server log với history log với structured data trong database, rồi đưa data đó cho analyst phân tích insights gì đó, nhưng làm được nửa chừng thì phải dẹp vì phát hiện ra là vi phạm quy định về data của khách hàng. :after_boom: (Họ yêu cầu ko được mang data ra khỏi mấy cái server của họ)

Nhưng mà đọc quảng cáo thì thấy khá nhiều cái hay. Adaptive query thấy nói cái broadcast tính chính xác hơn, rồi operation kích ra shuffle nó sẽ dùng số lượng partition phù hợp hơn thay vì trước auto là 200.... Rồi còn cái partition pruning, không biết có phải giống mấy cái operation "bitmap" trong sql server ko. Đọc mô tả mấy lần đều nghĩ đến bitmap, dù cái tên là "partition pruning" rất lạ.....

Giao lưu thì ok luôn bác, bác rảnh tối hay là cuối tuần. :byebye:
 
Power BI bây giờ có vẻ là xu hướng nhĩ, thấy trên facebook hay chạy ads về nó vs power query, ae chia sẻ về việc học nó và ứng dụng trong công việc đi, sử dụng dc 2 thằng này thì lương khá ko vs nhu cầu hiện tại và sắp tới của thị trường lao động...
 
Databricks runtime mới nó có Spark 3, mình có xài qua nhưng chưa có cảm nhận được gì. Cơ bản là cũng chả có xài Spark mấy, toàn xài để parse với đọc web log không, mà lâu lâu cần mới đọc. Còn gắn luôn vào pipeline chạy thường xuyên thì trước có cái request của 1 module trong công ty, cần nó để integrate 1 đống các loại web server log với history log với structured data trong database, rồi đưa data đó cho analyst phân tích insights gì đó, nhưng làm được nửa chừng thì phải dẹp vì phát hiện ra là vi phạm quy định về data của khách hàng. :after_boom: (Họ yêu cầu ko được mang data ra khỏi mấy cái server của họ)

Nhưng mà đọc quảng cáo thì thấy khá nhiều cái hay. Adaptive query thấy nói cái broadcast tính chính xác hơn, rồi operation kích ra shuffle nó sẽ dùng số lượng partition phù hợp hơn thay vì trước auto là 200.... Rồi còn cái partition pruning, không biết có phải giống mấy cái operation "bitmap" trong sql server ko. Đọc mô tả mấy lần đều nghĩ đến bitmap, dù cái tên là "partition pruning" rất lạ.....

Giao lưu thì ok luôn bác, bác rảnh tối hay là cuối tuần. :byebye:

Uh bên mình cũng mới upgrade lên spark 3, delta lake các kiểu opensource thôi nhưng mình thấy khá ổn. Tiết kiệm dc khá nhiều công sức, data gọn gàng hơn.
Bên mình cũng làm khá đặc thù nên ko dc mang data ra khỏi server của khách. Có khi nào bác với mình làm chung 1 mảng ko nhỉ :LOL:))
Mình thường rảnh cuối tuần :D
 
Theo Data Science quan trọng bằng cấp lắm không mấy bác? Hay cần kĩ năng là chính nhỉ? Làm outsource được không? Mình chuẩn bị học khoá DS bên Funix, background thì master Viễn thông của BK mà lại chán ngành VT :too_sad:. Giờ em nên làm gì tiếp nhỉ, có cần phải học lên master DS để đi làm không?:too_sad:
 
Uh bên mình cũng mới upgrade lên spark 3, delta lake các kiểu opensource thôi nhưng mình thấy khá ổn. Tiết kiệm dc khá nhiều công sức, data gọn gàng hơn.
Bên mình cũng làm khá đặc thù nên ko dc mang data ra khỏi server của khách. Có khi nào bác với mình làm chung 1 mảng ko nhỉ :LOL:))
Mình thường rảnh cuối tuần :D
Spark thì bác tự cài trên máy local hay setup trên cloud ?
 
Theo Data Science quan trọng bằng cấp lắm không mấy bác? Hay cần kĩ năng là chính nhỉ? Làm outsource được không? Mình chuẩn bị học khoá DS bên Funix, background thì master Viễn thông của BK mà lại chán ngành VT :too_sad:. Giờ em nên làm gì tiếp nhỉ, có cần phải học lên master DS để đi làm không?:too_sad:
Tùy công ty, chủ yếu vẫn là kĩ năng, có bằng mà không có kĩ năng thì cũng vất, chém gió không thằng nghe (trừ phi DS thuần lý thuyết):eek::eek: Giờ kiếm công ty thực tập thôi, tầm này funix fu nủng gì nữa :sure:
 
Tùy công ty, chủ yếu vẫn là kĩ năng, có bằng mà không có kĩ năng thì cũng vất, chém gió không thằng nghe (trừ phi DS thuần lý thuyết):eek::eek: Giờ kiếm công ty thực tập thôi, tầm này funix fu nủng gì nữa :sure:
Em h mới học DS bác ạ, muốn học làm chuyển ngành ấy, chứ viễn thông kiến thức liên quan ít lắm :(
 
Mình đang làm cái việc dễ hơn mà đang bị các bạn trẻ hắt hủi là làm DataWarehouse bằng các tool của Oracle. Ai đang làm ở HN không nhỉ, mình giới thiệu cho job >= 1.5K$ tùy trình độ.
 
thôi thím ơi, em nghĩ thím nên dừng lại trước khi quá muộn....

DS về nhu cầu của doanh nghiệp cũng ít hơn SE.
Bọn SE có kiến thức đại cương tốt(xác suất, toán), nó đánh qua DS cũng nhiều, ngoài ra để phân tích tốt thì bác còn phải nắm kiến thức SE như nguyên lý hoạt động của DBMS, B-tree vv , nếu dùng Spark thì phải hiểu được Map-Reduce, các loại join hoạt động như thế nào , data trao đổi như nào trong từng node, khi nào thì tăng số node thì tăng hiệu năng, lúc nào không.

Nhu cầu ít, yêu cầu khó, đường dễ k đi, bác chui vào bụi rậm làm gì. Nếu tay ngang, thì làm SE đi, đầu tư tìm hiểu về DBMS, distributed system trong quá trình làm việc, sau đấy nhảy quá DS thì dễ hơn.

Chứ nghe tên fancy rồi ngồi học thì chả dc gì đâu
Còn trẻ thấy thích nên muốn thử á bác, toán, xstk, cấu trúc dữ liệu và giải thuật, binary tree, oop, cơ sở dữ liệu thì mình cũng có học qua trong trường rồi á :too_sad: . Cá nhân có tìm hiểu nhưng lại hứng thú làm việc với data, ML và điểm khác với tụi thuần IT là làm quen với thuật toán còn ít và viết code còn kém. Chủ yếu mình muốn hỏi các cty tuyển, phát triển sự nghiệp thì cần bằng cấp trình độ thạc sĩ chính quy trở lên không? Hay mình cứ tự học, chú trọng vào kĩ năng là chính?:)
 
Còn trẻ thấy thích nên muốn thử á bác, toán, xstk, cấu trúc dữ liệu và giải thuật, binary tree, oop, cơ sở dữ liệu thì mình cũng có học qua trong trường rồi á :too_sad: . Cá nhân có tìm hiểu nhưng lại hứng thú làm việc với data, ML và điểm khác với tụi thuần IT là làm quen với thuật toán còn ít và viết code còn kém. Chủ yếu mình muốn hỏi các cty tuyển, phát triển sự nghiệp thì cần bằng cấp trình độ thạc sĩ chính quy trở lên không? Hay mình cứ tự học, chú trọng vào kĩ năng là chính?:)

Mấy cái bạn nói là mấy cái 1 ông sinh viên năm 2 nào cũng học qua hết.
Còn để theo nghiệp Data Scientist thì nó cần nhiều hơn rất nhiều. Ng ta học master/phd thì cũng chỉ mới gọi là bắt đầu sự nghiệp thôi.

Nếu bạn có bằng master Computer Science ở mấy trường top của VN như KHTN/BK v.v... thì có thể coi là qua được round CV, có thể thử apply mấy vị trí "Junior/Fresher". Còn nếu bạn là tay ngang thì bạn nên làm mấy job về DA/DE trước.
Mà chắc gì đã pass dc DE. Nếu thích làm data thì thử DA xem sao. Làm DA chắc chỉ cần thêm mỗi SQL.
 
À thực ra thì cũng ko tới mức sâu thế đâu. Hỏi xem ứng viên có biết, có nắm dc các kiến thức basic ko thôi.
Rồi đưa 1 table + hỏi vài câu query liên quan + xác suất thống kê các kiểu.

Còn về DE thì bên mình cần thiên về system hơn. Do DE bên mình công việc là build pipeline xử lý các flow data. Bên mình đang monitoring data trên Grafana + InfluxDB. Mà cũng chưa tận dụng dc hết sức mạnh cuẩ 2 thằng này ^^
Bên mình thì làm về fintech, stack chủ yếu là Spark/Hadoop/Airflow/Python
Bác rảnh thì hôm nào cafe giao lưu :D
Bên bác có xài spark3 chưa, có tận dụng dc cái gì mới ko?
Ồ mình cũng đang dùng Grafana + influxdb mà dùng để monitoring IoT data.
Grafana xài khá là ngon, biết React thì tự viết custom plugin cho nó luôn :beauty:

via theNEXTvoz for iPhone
 
Vẫn đang hướng nghiệp nhỉ. Hỏi vài câu technical cụ thể để chém gió nâng cao kiến thức nào.

Ví dụ này mình lấy của thím @xacu69

  • Về tài chính có thể dùng một số dữ liệu telco, cic, trusting social, dữ liệu mua sắm, thông tin cá nhân... để dự báo các nhu cầu hàng hoá dịch vụ để làm đầu vào cho các đơn vị chạy chiến dịch, hoặc đánh giá mức độ ổn định thu nhập và công việc để xác định mức độ tín nhiệm trong vòng 1 năm tới để cho vay hoặc cho mua chịu chẳng hạn.

Giả sử bài toán là build model để phân loại mức độ tín nhiệm người đi vay dựa vào hàng loạt thông tin như ví dụ trên: "telco, cic, trusting social, dữ liệu mua sắm, thông tin cá nhân... ".

Mình có câu hỏi về Feature Selection: thông thường mấy bạn làm Data Analysis, ML dùng các kỹ thuật nào để chọn ra các trường thông tin có ý nghĩa nhất trong việc phân loại giữa hàng trăm trường thông tin như trên?
 
Còn trẻ thấy thích nên muốn thử á bác, toán, xstk, cấu trúc dữ liệu và giải thuật, binary tree, oop, cơ sở dữ liệu thì mình cũng có học qua trong trường rồi á :too_sad: . Cá nhân có tìm hiểu nhưng lại hứng thú làm việc với data, ML và điểm khác với tụi thuần IT là làm quen với thuật toán còn ít và viết code còn kém. Chủ yếu mình muốn hỏi các cty tuyển, phát triển sự nghiệp thì cần bằng cấp trình độ thạc sĩ chính quy trở lên không? Hay mình cứ tự học, chú trọng vào kĩ năng là chính?:)
Nếu trước đây bác có hứng thú với toán thì việc học rất hay, nếu 99 thì ngại gì học. Tui thì chả tin việc giảng dạy ở VN, tự học tốt hơn. Tui có 1 đứa bạn mới học xong ở JVN, kêu ca dạy không hay lắm.
 
Power BI bây giờ có vẻ là xu hướng nhĩ, thấy trên facebook hay chạy ads về nó vs power query, ae chia sẻ về việc học nó và ứng dụng trong công việc đi, sử dụng dc 2 thằng này thì lương khá ko vs nhu cầu hiện tại và sắp tới của thị trường lao động...
Power Bi nó không phải là power query nhá power query nó chỉ là thành phần ETL của Power Bi thôi
 
Em đang định hướng theo DE, thấy topic toàn pro trong này nên muốn vào hỏi để định hướng chút. Sơ qua thì em đang học nước ngoài năm sau năm cuối, có kiến thức cơ bản về algo ok(em vẫn luyện bài trên leetcode thường xuyên tuần giải khoảng 4-5 bài), kiến thức về database(SQL và NoSQL), ngôn ngữ nắm vững thì python, C/C++. Vì định hướng theo DE nên mấy kì tới đăng kí course liên quan DE, ví dụ kì tới có môn data engineer dạy về dựng data pipeline, ETL...hay có môn distributed system kì tới cũng học. Đáng lẽ có 1 course nữa về big data dạy về hadoop và spark nhưng lão thầy dính covid nghỉ rồi mà trường không kiếm ai thay được nên drop luôn course. Sắp tới em cũng rảnh nên muốn tìm 1 project để tự làm với muốn học thêm về hadoop nhưng tài liệu về mấy cái này khó tìm quá, ví dụ như hadoop tìm trên mạng thì tài liệu toàn nói chung chung. Bác nào có tài liệu hay project nào thì chỉ em với, và với định hướng như em thì nên học thêm cái gì nữa nhỉ:big_smile:
 
Power Bi nó không phải là power query nhá power query nó chỉ là thành phần ETL của Power Bi thôi
í mình là thấy trên mạng hay quảng cáo Power BI vs Power Query, nên mún hỏi các công việc liên quan đến nó và lương khá ko, chứ mình có nói Power BI là Power Query đâu...
 
Back
Top