thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Vẫn đang hướng nghiệp nhỉ. Hỏi vài câu technical cụ thể để chém gió nâng cao kiến thức nào.

Ví dụ này mình lấy của thím @xacu69



Giả sử bài toán là build model để phân loại mức độ tín nhiệm người đi vay dựa vào hàng loạt thông tin như ví dụ trên: "telco, cic, trusting social, dữ liệu mua sắm, thông tin cá nhân... ".

Mình có câu hỏi về Feature Selection: thông thường mấy bạn làm Data Analysis, ML dùng các kỹ thuật nào để chọn ra các trường thông tin có ý nghĩa nhất trong việc phân loại giữa hàng trăm trường thông tin như trên?

Up 🚀🚀🚀

data-science-de-la-matemtica-a-la-prctica-10-638.jpg
 
có sự giao thoa gì giữa ngành Hệ thống thông tin (Information systems) với Khoa học dữ liệu (Data Science) ko các bác. Em đang học HTTT và thấy DS quá là hay luôn
 
Theo feature important hoặc theo business sense là chia thành các nhóm.
Rồi coi thêm predictive power. Nếu cắt feature mà ko giảm thì là tốt.
Nói chung có nhiều cách. Mình biết sơ thế thôi

Hiện tại mình chỉ biết một số cách sau:

1. Cách dùng statistics:
  • Numerical variable vs numerical variable: tính correlation của 2 biến (pearson correlation để kiểm tra linear relationship, spearman correlation để kiểm tra monotonic relationship).
  • Categorical variable vs categorical variable: dùng Chi-Square test để làm hypothesis test, tính p-value < 0.05 coi như 2 biến không độc lập, có liên quan nhau.
  • Numerical variable vs categorical variable: dùng one-way ANOVA làm hypothesis test tính ra F-Statistics với p-value < 0.05 thì xem như có relationship.
Cách này thì chỉ biết được quan hệ 2 chiều x => y hay y => x là như nhau.

2. Cách dùng Machine Learning:
Tính predictive power score theo như bài viết dưới đây, hiểu đơn giản là tác giả dùng các giải thuật như DecisionTree chạy Regression, Classification rồi so nó với baseline model. Cách này thi nhận biết được quan hệ 1 chiều x => y khác y => x:
https://towardsdatascience.com/rip-correlation-introducing-the-predictive-power-score-3d90808b9598

3. Plotting: visualize 2 biến lên xem nó có liên quan sơ múi gì nhau ko.

Ko biết còn cách nào khác ko.
 
Mình đang tính phân nhóm Customer (R-Recency, F-Frequency, M -Moneytary).

Mình đang tính xài giải thuật K-Means để phâm cụm Customer. Tuy nhiên sếp mình ko đồng ý vs việc phân nhóm bằng K-means
Ko biết là ae Phân nhóm Customer theo phương pháp nào ?
 
Mình đang tính phân nhóm Customer (R-Recency, F-Frequency, M -Moneytary).

Mình đang tính xài giải thuật K-Means để phâm cụm Customer. Tuy nhiên sếp mình ko đồng ý vs việc phân nhóm bằng K-means
Ko biết là ae Phân nhóm Customer theo phương pháp nào ?

Bác có thể nói lí do tại sao sếp không đồng ý kmeans không? Kmeans đơn giản nên cứ chạy thử trước lấy baseline. Bác đã chạy chưa, và vì kết quả thấp hay là vấn đề gì khác mà sếp lại không đồng ý?
 
Các ngân hàng (e.g. Vietcombank) hiện đang tuân thủ Hiệp ước về vốn Basel II, sử dụng phương pháp tiếp cận dựa trên đánh giá nội bộ. Để ước lượng probability of default họ sử dụng logistics regression. Trong Basel II, có thể đã có sẵn những gợi ý cho mô hình chung. Đó là những gì tôi biết về cái câu hỏi ví dụ của bác.
 
Vô đây thấy mọi người thiên về DS và DE nhiều hơn ah, mấy bạn nói mình cảm thấy có vẻ DA dễ ăn nhỉ kiểu không còn lựa chọn nào mới nhảy vô DA ấy, còn thượng đẳng này nọ nữa chứ 😂😂😂
 
Bác có thể nói lí do tại sao sếp không đồng ý kmeans không? Kmeans đơn giản nên cứ chạy thử trước lấy baseline. Bác đã chạy chưa, và vì kết quả thấp hay là vấn đề gì khác mà sếp lại không đồng ý?
Ông sếp mình người nước ngoài. Mình chạy + visualize luôn nhưng sếp nhìn vào kêu không hợp lý. Rồi ông đưa ra đống logic if else kiểu phân loại Customer bằng scoring
 
Ông sếp mình người nước ngoài. Mình chạy + visualize luôn nhưng sếp nhìn vào kêu không hợp lý. Rồi ông đưa ra đống logic if else kiểu phân loại Customer bằng scoring
Mình nghĩ bên bạn có những tiêu chí để phân loại rồi và có tập dữ liệu phân loại sẵn hết rồi, tại k-mean là unsupervised learning trừ khi bạn ko có tiêu chí phân loại ntn mới dùng đến, nếu có data phân loại sẵn rồi thì decision tree xem ntn. Đây là ngu kiến của mình ah câc bác chém nhé cái 😄😄😄
 
Mình nghĩ bên bạn có những tiêu chí để phân loại rồi và có tập dữ liệu phân loại sẵn hết rồi, tại k-mean là unsupervised learning trừ khi bạn ko có tiêu chí phân loại ntn mới dùng đến, nếu có data phân loại sẵn rồi thì decision tree xem ntn. Đây là ngu kiến của mình ah câc bác chém nhé cái 😄😄😄
Thì ban đầu chả có tiêu chí gì nên mình mới dùng K-means ấy chứ.
 
Thì ban đầu chả có tiêu chí gì nên mình mới dùng K-means ấy chứ.
Theo mình vậy là sếp bạn có tiêu chí phân loại riêng dựa vào kinh nghiệm của ổng rồi, một là bây giờ bạn phân loại dạng của ổng muốn kiểu như KH A: bao nhiểu tuổi, thu nhập bao nhiêu là phân loại vô A gì đó, 2 là bạn chứng minh cho sếp thấy là phương pháp k-mean tương đối giống với cái tiêu chí phân loại của sếp bạn mà cái này bạn xuất thẳng ra file kết quả chứ khỏi visualization làm gì, tại như vậy dễ nhìn rõ cái tiêu chí (feature) để đánh giá hơn, rồi pivot cái phân loại của bạn theo các feature và phần trăm của nó. Kiểu sếp bạn chắc kiểu cổ điển mỗi feature có các thang điểm đánh giá riêng, cộng hết lại rồi lấy điểm đó để phân loại customer thui :D:D:D
 
Last edited:
Chắc bác cũng biết cuộc thi credit scoring do Kalapa tổ chức :)
Thằng bạn em chỉ đơn giản là đưa hết features vào model nó dùng (XGBoost) sau đó nhân tuyến tinh với 1 hằng số nào đó (?) mà đứng được top 2 :LOL:
Nghe có vẻ ko make sense lắm nhưng model work :LOL: Còn trong banking chắc chắn họ không làm như vậy được vì không giải thích được tại sao nó work :D

Trong deep learning thì features selection model cũng tự học được, đơn giản là cái nào không quan trọng thì đánh trọng số thấp đi.
 
Theo mình vậy là sếp bạn có tiêu chí phân loại riêng dựa vào kinh nghiệm của ổng rồi, một là bây giờ bạn phân loại dạng của ổng muốn kiểu như KH A: bao nhiểu tuổi, thu nhập bao nhiêu là phân loại vô A gì đó, 2 là bạn chứng minh cho sếp thấy là phương pháp k-mean tương đối giống với cái tiêu chí phân loại của sếp bạn mà cái này bạn xuất thẳng ra file kết quả chứ khỏi visualization làm gì, tại như vậy dễ nhìn rõ cái tiêu chí (feature) để đánh giá hơn, rồi pivot cái phân loại của bạn theo các feature và phần trăm của nó. Kiểu sếp bạn chắc kiểu cổ điển mỗi feature có các thang điểm đánh giá riêng, cộng hết lại rồi lấy điểm đó để phân loại customer thui :D:D:D
Thì đúng là sếp mình phân loại kiểu scoring từng thuộc tính của customer sau đó + các điểm của thuộc tính lại rồi mới sắp xếp thành VIP, normal, ...
 
Thì đúng là sếp mình phân loại kiểu scoring từng thuộc tính của customer sau đó + các điểm của thuộc tính lại rồi mới sắp xếp thành VIP, normal, ...
Nên mình mới nói bạn cần là chứng minh model bạn chạy cluster giống với tiêu chí của ổng thì ổng sẽ ok ah, kiểu chứng minh hiệu quả của model trong thực tế luôn, quan trọng kết quả giống tương đối đã thì sếp mới theo chứ ông không biết thuật toán này nọ đâu
 
Last edited:
Mình đang tính phân nhóm Customer (R-Recency, F-Frequency, M -Moneytary).

Mình đang tính xài giải thuật K-Means để phâm cụm Customer. Tuy nhiên sếp mình ko đồng ý vs việc phân nhóm bằng K-means
Ko biết là ae Phân nhóm Customer theo phương pháp nào ?

Search thấy thì phân tích RFM là bài toán thường gặp trong Market Research. Đây là trường hợp phải vận dụng domain knowlegde. Tốt nhất là thím nên google RFM Analysis để biết các kỹ thuật người ta thường xài rồi sau đó mới áp dụng Machine Learning vào đây để bổ trợ thôi. Vì đây là bài toán phổ biến nên có thể có best practice rồi.

https://en.wikipedia.org/wiki/RFM_(market_research)

Customer purchases may be represented by a table with columns for the customer name, date of purchase and purchase value. One approach to RFM is to assign a score for each dimension on a scale from 1 to 10. The maximum score represents the preferred behavior and a formula could be used to calculate the three scores for each customer. For example, a service-based business could use these calculations:

Recency = the maximum of "10 – the number of months that have passed since the customer last purchased" and 1
Frequency = the maximum of "the number of purchases by the customer in the last 12 months (with a limit of 10)" and 1
Monetary = the highest value of all purchases by the customer expressed as a multiple of some benchmark value
 
Chắc bác cũng biết cuộc thi credit scoring do Kalapa tổ chức :)
Thằng bạn em chỉ đơn giản là đưa hết features vào model nó dùng (XGBoost) sau đó nhân tuyến tinh với 1 hằng số nào đó (?) mà đứng được top 2 :LOL:
Nghe có vẻ ko make sense lắm nhưng model work :LOL: Còn trong banking chắc chắn họ không làm như vậy được vì không giải thích được tại sao nó work :D

Trong deep learning thì features selection model cũng tự học được, đơn giản là cái nào không quan trọng thì đánh trọng số thấp đi.

Ờ Machine Learning, Deep Learning là "chiếc hộp thần kỳ", cứ quăng 1 đống data vào cái hộp này là tự nó giải quyết hết, đầu ra sẽ đẹp đẽ thôi phải ko fen? :shame:

Mời fen đọc bài này: How to Spot a Fake Data Scientist, nghe câu garbage in garbage out chưa fence?
 
Last edited:
Các bác có thể gợi ý e một số github (hoặc hướng dẫn làm) chia âm thanh ra thành từng chữ rồi nhận dạng được k ạ - sound separation and recognition, em k chắc keyword ạ. :adore::adore::adore:

Sent from samsung SM-N970F via nextVOZ
 
Back
Top