thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Vừa cài thử theo thằng https://github.com/steven-matison/dfhz_hdp_mpack này thì ăn này thím. Nhưng để an toàn thì clone lại repo của nó về thôi :v Bọn HDP h phải mất tiền thành ra mệt mỏi quá. :)View attachment 483011
Thank thím, em clone về và dựng được lên rồi thím ạ. Khổ, thằng cha thằng mẹ của hadoop nó đóng binary build nên muốn dựng lên vọc vạch cũng khó.

via theNEXTvoz for iPhone
 
Hiện tại mình chỉ biết một số cách sau:

1. Cách dùng statistics:
  • Numerical variable vs numerical variable: tính correlation của 2 biến (pearson correlation để kiểm tra linear relationship, spearman correlation để kiểm tra monotonic relationship).
  • Categorical variable vs categorical variable: dùng Chi-Square test để làm hypothesis test, tính p-value < 0.05 coi như 2 biến không độc lập, có liên quan nhau.
  • Numerical variable vs categorical variable: dùng one-way ANOVA làm hypothesis test tính ra F-Statistics với p-value < 0.05 thì xem như có relationship.
Cách này thì chỉ biết được quan hệ 2 chiều x => y hay y => x là như nhau.

2. Cách dùng Machine Learning:
Tính predictive power score theo như bài viết dưới đây, hiểu đơn giản là tác giả dùng các giải thuật như DecisionTree chạy Regression, Classification rồi so nó với baseline model. Cách này thi nhận biết được quan hệ 1 chiều x => y khác y => x:
https://towardsdatascience.com/rip-correlation-introducing-the-predictive-power-score-3d90808b9598

3. Plotting: visualize 2 biến lên xem nó có liên quan sơ múi gì nhau ko.

Ko biết còn cách nào khác ko.
Cho em hỏi cách 2 sau khi chạy xong PPS thì chọn features như thế nào ạ? Em là dev đá qua đây chút nên kiến thức còn yếu.
 
ai có tài liệu tự học ngôn ngữ R cho mình xin với .
theo cuốn này đi bạn (R for data science)
https://r4ds.had.co.nz/explore-intro.html

Mình cũng đang tự học, àh thằng DataCamp cho free unlimited khóa học đến 30/04/2021 bạn join theo R đi cho lẹ. Xong quay lại book này cũng ok

Ngoài ra, Bác theo cheatsheet của mảng này (mình thấy rất ok) https://www.business-science.io/
Và mấy bài blog của trang này thấy ok https://www.business-science.io/blog/index.html

Lúc đầu mình tính cũng học R và Python nhưng giờ tập trung vào mỗi Python do không có thời gian và dễ loạn chưởng
 
Anh em nào thường xuyên chơi với mấy con Orches như Luigi và Airflow không nhỉ? Lập team chơi ống nước với chong chóng không anh em :D

via theNEXTvoz for iPhone
 
Có anh em nào làm báo cáo và visual trên SAS chưa?

Nhà mình có data cỡ vài triệu đến trăm triệu dòng (có bảng lên đến tỷ). Có cách nào visualise và phân tích trên SAS không anh em
 
Các bác cho em hỏi mấy khóa Cert của GG, IBM trên coursera sao em enroll không thấy audit mà toàn là start free trial 7 days nhỉ?

À thêm nữa, sắp tới em có một bài toán dạng trích xuất thông tin từ ảnh của một tờ đề cương sau đó đưa thông tin vào cơ sở dữ liệu. Tờ đề cương này có dạng như dạng bảng, với các trường thông tin như học phần ( ví dụ Học máy), số tiết lý thuyết, số tiết thực hành,.... Các bác cho em hướng hoặc keyword để giải quyết bài toán dạng này với ạ. Em là newbie ạ
 
Các bác cho em hỏi mấy khóa Cert của GG, IBM trên coursera sao em enroll không thấy audit mà toàn là start free trial 7 days nhỉ?
Cert thì không có audit đâu bạn. Nhưng khi bạn chọn từng môn học riêng lẻ trong gói Cert đó, bạn có thể chọn Audit. Cho nên giải pháp là bookmark cái trang Cert đó để biết cần học môn gì, sau đó đăng ký từng môn để có thể audit.
 
Các bác cho em hỏi mấy khóa Cert của GG, IBM trên coursera sao em enroll không thấy audit mà toàn là start free trial 7 days nhỉ?

À thêm nữa, sắp tới em có một bài toán dạng trích xuất thông tin từ ảnh của một tờ đề cương sau đó đưa thông tin vào cơ sở dữ liệu. Tờ đề cương này có dạng như dạng bảng, với các trường thông tin như học phần ( ví dụ Học máy), số tiết lý thuyết, số tiết thực hành,.... Các bác cho em hướng hoặc keyword để giải quyết bài toán dạng này với ạ. Em là newbie ạ
Tuỳ vào lượng dữ liệu của bạn. Nếu dữ liệu ít thì chơi theo hướng rule based.
Dạng bảng thì đầu tiên bạn align về chiều thẳng đã, sau đó cứ bóc nó ra thành từng cell để sau đó đưa nó về column và row. Có thể tham khảo ở đây: https://docs.opencv.org/3.4/dd/dd7/tutorial_morph_lines_detection.html
Với từ cell thì thực hiện text detection và text recognition. 2 models này thì có thể dùng pretrained model có sẵn, mình thường dùng CRAFT (của naver, đây là package được đóng gói https://github.com/fcakyon/craft-text-detector) và vietocr (https://github.com/pbcquoc/vietocr), sau đó fine-tuning theo nhu cầu.
Rồi từ các cell đó bạn dùng rule thôi, ví dụ cột đầu tiên thì là tên học phần, cột thứ 2 là số lý thuyết
sC5StBI.png
Đơn giản vậy thôi
TdDbuzl.png

Bác nào bổ sung hay chỉnh thì góp ý nhé chứ em cũng newbie thôi ạ
SAzCCti.png
 
Hello các thím, em xin có 1 câu hỏi ngu và nghiêng về phía phương pháp hơn là code nhé.

Cụ thể là: Nếu chúng ta tìm hiểu các nhân tố ảnh hưởng đến sự hài lòng của khách hàng về dịch vụ, giả sử có các nhân tố:
  • (A)Hình ảnh thương hiệu
  • (B)Chất lượng sản phẩm
  • (C)Chất lượng hậu mãi.
  • (D)Giá cả.
  • (E)Sự sẵn có ( thuận tiện)
Mục tiêu khám phá ra là sự hài lòng của khách hàng.

Bên trong các nhân tố cũng có những nhân tố nhỏ hơn A: a1,a2,....

Vậy cho em hỏi: Tại sao các nghiên cứu định lượng cấp cao lại sử dụng mô hình SEM-PLS mà không làm một cách navie là làm khảo sát hỏi thẳng kiểu " A có làm bạn cảm thấy hài lòng không, v.v..."

Rất mong các bác thông não và giảng giải cụ thể để sau này k mắc phải trường hợp lấy dao mổ trâu giết gà ( hoặc lấy kim tay giết voi) ạ.

Thanks team.
 
Như tittle ạ, em đang làm việc về nghiên cứu xây dựng đang muốn học thêm về powerBI để lập các báo cáo tôbgr hợp từ nhiều file excel khác nhau.
Các thím có thể tư vấn giúp em nguồn học powerBI được không ạ (ưu tiên tiếng Việt ạ)

(Nếu thím nào có tài liệu video về phần này cho em xin với ạ)
Em cảm ơn các thím nhiều ạ.
 
Nguồn học thì nhiều, thím muốn miễn phí hay có phí?
Đại khái thì PBI nó gồm
Power Query làm ETL
Data Model để mô hình hóa + phân tích (sử dụng DAX)
Visualization để trực quan hóa
1 số nguồn:
Miễn phí: Youtube search + Docs của Microsoft (tiếng Anh)
Có phí: Mấy khóa học. Review sơ sơ thì:
-Gitiho: Rẻ nhất trong cả đám. Học kiểu cưỡi ngựa xem hoa, dành cho người đi từ chưa biết gì đến biết được tính năng cơ bản.
-BACS, hocdataonline: Dạy theo kiểu nghiệp vụ. Không làm cùng ngành thì bỏ qua.
-Datapot: na ná cái trên.
-KPIM: dạy ổn. Group cộng đồng cũng to.
 
Back
Top