Hiện tại mình chỉ biết một số cách sau:
1. Cách dùng statistics:
- Numerical variable vs numerical variable: tính correlation của 2 biến (pearson correlation để kiểm tra linear relationship, spearman correlation để kiểm tra monotonic relationship).
- Categorical variable vs categorical variable: dùng Chi-Square test để làm hypothesis test, tính p-value < 0.05 coi như 2 biến không độc lập, có liên quan nhau.
- Numerical variable vs categorical variable: dùng one-way ANOVA làm hypothesis test tính ra F-Statistics với p-value < 0.05 thì xem như có relationship.
Cách này thì chỉ biết được quan hệ 2 chiều x => y hay y => x là như nhau.
2. Cách dùng Machine Learning:
Tính
predictive power score theo như bài viết dưới đây, hiểu đơn giản là tác giả dùng các giải thuật như DecisionTree chạy Regression, Classification rồi so nó với baseline model. Cách này thi nhận biết được quan hệ 1 chiều x => y khác y => x:
https://towardsdatascience.com/rip-correlation-introducing-the-predictive-power-score-3d90808b9598
3. Plotting: visualize 2 biến lên xem nó có liên quan sơ múi gì nhau ko.
Ko biết còn cách nào khác ko.