Thím chia sẽ một chút về công việc cụ thể team thím đang làm được ko? Mình cũng muốn biết các cty làm về data nó hay làm gì. Thấy nhiều cty lúc tuyển yêu cầu thì đao to búa lớn, nào là data analysis, ML, AI các kiểu, nhưng vào làm thì toàn là data processing, cleaning, ETL, làm report cơ bản thôi. Tất nhiên làm data là mấy bước này bắt buộc phải có nhưng nếu đây là công việc chính thì lại ko học hỏi đc nhiều.
Mình làm data engineer. Công ty mình là 1 công ty làm phần mềm... có lẽ là nên xếp vào product thì hợp lý hơn, và team data nó hoạt động thế này. (Các team data của các công ty dạng khác có thể có cách hoạt động khác, có thể sẽ được tổ chức tốt hơn, hơn nữa những thứ gì mình nói dưới đây chỉ là dạng nhất thời viết ra, nó cũng ko đầy đủ/bao quát, bạn chỉ nên xem những thứ gì mình kể ra ở đây để tham khảo thôi)
Với data engineer như mình thì công việc chính là xây hệ thống data cho công việc analytic, hay là nói cụ thể hơn, có lẽ là xây data warehouse. Hiện giờ thì công ty mình, 1 công ty mới khởi nghiệp phát triển nóng trong 1 vài năm gần đây, thì từ application đến data là một mớ hỗn loạn, các team mạnh ai nấy làm, đến mức mà 1 câu hỏi kiểu "một thực thể mà chúng ta đang xử lý thực sự là gì"?, "chúng ta thực sự đang cần quan tâm đến cái gì?", "chúng thực sự được xử lý ra sao, trải qua các quy trình nào?" không một ai trong công ty định nghĩa được nó cho đàng hoàng.Thế nên 1 trong những nhiệm vụ của mình - data modeler: cố gắng định nghĩa lại thực sự cái hệ thống này đang xử lý cái gì, quy trình xử lý chúng ra sao để khái quát lên data model. Rồi sau đó thì mấy cái data mô tả quá trình xử lý đó ở đâu, có ghi lại ở đâu đó không. Nếu có thì sao? Hốt xử lý. Nếu không thì sao? Cố gắng suy đoán với 1 tỉ lệ chính xác nhất định từ 1 data manh mối khác/yêu cầu team product ghi data khi làm/từ chối request report nếu đụng phải câu hỏi liên quan đến những thứ mà data không có....
Rồi về architecture của hệ thống. Architect ở đây với mình là trò chơi hiểu và lắp ghép. Cần hiểu 1 hệ thống analytic tổng thể cần phải đạt được các mục tiêu gì? Để đạt được những mục tiêu này thì cần phải dùng những thứ gì. Dùng như thế nào, điều khiển nó ra sao, hạ tầng, giá cả thế nào. Hiểu các component nhỏ này dùng để làm gì, hoạt động thế nào. Rồi ghép chúng lại với nhau để đạt được các mục đích chung của hệ thống.
ETL, cleaning, data processing cuối cùng cũng chỉ là bề nổi của tảng băng chìm trên.
Còn data analyst (hay nếu là chiếu theo cách gọi của cái công ty của người trong video bên trên mình đăng (có vẻ là Facebook), thì là Data Scientist Analytics) của bên mình thì:
Đầu tiên là C-level họ cũng chẳng biết họ cần gì, muốn gì. Họ chỉ có 1 yêu cầu đơn giản: "Tôi muốn hiểu hơn về những gì đang xảy ra trong công ty", còn cụ thể là gì thì chẳng ai biết. Một trong những nhiệm vụ của analyst bên mình: Tìm và mớm cho họ có thể những gì họ có thể quan tâm. Sau khi người ta nhận ra mình quan tâm gì, thì bắt đầu đi đào bới các thông tin quanh vấn đề đó.
Làm report, ừ đúng là vậy. C-level họ cũng chỉ biết vậy. Nhưng mà mình nghĩ là nên nhìn rõ hơn chính xác là làm gì. Mình cảm thấy có 2 loại chính:
1. Xây dựng report metric. Nghĩa là tạo ra những report các về thông số, số đo. Bán được X tiền? Số này là ít hơn hay nhiều hơn so với năm ngoài? Tổng số lời bán ra so với vốn? Trend lời là tăng hay giảm trong vài năm gần đây... Mấy report này thường được tổ chức theo dạng có 1 trang 1 cụm vấn đề, có vài ba cái bảng và chart, rồi người dùng filter theo ý thích để họ nhìn ra các thông số của công ty.
2. Report dạng phân tích chứng minh. Dạng này là kiểu: Hiện nay hệ thống đang gặp vấn đề blah blah. Vậy vấn đề năm ở đâu. Ở X? không phải, vì blah blah có 1 mớ chart tĩnh rồi nói dông dài gì đó để chứng minh vấn đề ko phải là do X. Mà thực ra vấn đề là do Y, rồi dẫn 1 mớ chart ra rồi blah blah gì đó để chứng minh. Rồi rút ra kết luận vậy chúng ta nên blah blah. Dạng này nó thường tổ chức theo kiểu notebook, có scroll và nhiều text.
Data Analyst là người trực tiếp làm việc với những người có quyền ra quyết định. Những người này, ở đâu mình ko biết chứ bên mình, miễn là đưa ra được những thứ mà họ cần, thì cả team data đó thành công. Không cần biết team data làm bằng gì, dùng gì, hay cái hệ thống bên dưới modeling/architecture nó tốt đẹp hay tan nát như thế nào.
----------------------------
Các vấn đề về predictive analytic (do data scientist làm) thì bên mình chưa làm nhiều nên không rõ. Trước mình có cố làm một cái mô hình dự đoán số lượng nhu cầu đơn hàng của các khách hàng trong thời gian sắp tới, để công ty phân bố người. Mà team trình cùi nên làm chẳng ra gì, nói chung sản phẩm làm ra vô ích. Sắp tới có thể mình sẽ nghiên cứu thêm rồi cố gắng làm lại lần nữa.
------------------------------
Như mình đã nói ở trên thì ngay cả những người có quyền quyết định trong công ty thậm chí họ cũng chẳng biết họ muốn gì. Nếu bọn mình an phận, làm theo lối cũ, OK vẫn tốt chẳng sao, C-level họ đã quen thế, đổi mới rất rách việc. Nhưng nếu muốn phát triển bản thân, thì phải tự tìm phương pháp, thuyết phục người ta tin vào phương pháp đó, rồi tự mình làm/hoàn thành/hoàn thiện/biểu diễn. Nếu nó tạo ra impact? Quá thành công. Nếu không? Ít nhất bạn cũng biết đến những phương pháp đó, và bạn cũng đã có trải nghiệm với nó.