thảo luận [Thảo Luận] Data Analysis, ML, DL, AI (All Levels vào đây chém gió nào)

Mình thêm 1 layer dropout 0.5 rồi mà vẫn bị ko hiểu tại sao nữa =]]]]
chứ kết quả validation mà dễ để cao thì nó lại ez quá

giờ bác đưa ra có mấy dòng thông tin như vậy thì ai mà biết được là do cái gì. Đâu phải ngẫu nhiên mà các cty nó trả lương cao vút, có nền tảng lý thuyết + kinh nghiệm thì mới biết mà "debug" được. Khi học introduction thì cứ làm trên mnist, iris,... nên dễ ra kết quả chứ dữ liệu thực khó hơn.

bác có biết về bias variance, model evaluation, data augmentation không? nếu không thì có thể tìm hiểu các topic này, chứ cứ thêm thắt này kia không cải thiện được nhiều đâu
 
chứ kết quả validation mà dễ để cao thì nó lại ez quá

giờ bác đưa ra có mấy dòng thông tin như vậy thì ai mà biết được là do cái gì. Đâu phải ngẫu nhiên mà các cty nó trả lương cao vút, có nền tảng lý thuyết + kinh nghiệm thì mới biết mà "debug" được. Khi học introduction thì cứ làm trên mnist, iris,... nên dễ ra kết quả chứ dữ liệu thực khó hơn.

bác có biết về bias variance, model evaluation, data augmentation không? nếu không thì có thể tìm hiểu các topic này, chứ cứ thêm thắt này kia không cải thiện được nhiều đâu
Mình đang học thôi, k cần lương.
 
Lấy model có sẵn của Keras chạy thử xem fence. Chạy model nhỏ trước.
Mình làm test qua mấy cái model nhỏ của keras rồi. Mới lên kaggle lấy bộ data dog & cat về chạy phân loại thử lại dính cái lỗi này, chưa biết hướng giải quyết ntn.
 
Minhh làm test qua mấy cái model nhỏ của keras rồi. Mới lên kaggle lấy bộ data dog & cat về chạy phân loại thử lại dính cái lỗi này, chưa biết hướng giải quyết ntn.
Ý là chạy các model đấy với bộ này làm baseline.
 
Mình làm test qua mấy cái model nhỏ của keras rồi. Mới lên kaggle lấy bộ data dog & cat về chạy phân loại thử lại dính cái lỗi này, chưa biết hướng giải quyết ntn.
Binary classification mà accuracy có 0.5 0.6 thì đoán bừa cũng được tầm đó.
Bác thử share code lên mọi người xem nào chứ mỗi cái kiến trúc model biết sao được
 
Binary classification mà accuracy có 0.5 0.6 thì đoán bừa cũng được tầm đó.
Bác thử share code lên mọi người xem nào chứ mỗi cái kiến trúc model biết sao được
Screen Shot 2021-07-08 at 22.18.11.png


Sau khi mày mò thì lên được ntn rồi bạn à. Lý do là overfit vì model quá phức tạp.
 
Đặt gạch hóng ợ, các bác cho e hỏi, e đang ôn luyện để apply fresher computer vision ạ, hiện e đang học mấy khóa machine learning và deep learning specialization trên coursera. Các bác cho em hỏi e cần học thêm gì ạ, và trong thời gian bao lâu nữa thì có thể apply fresher ạ=((

Sent from Samsung SM-G977N using vozFApp
 
Các bác cho mình hỏi một số vấn đề về xử lý data, mình không phải dân chuyên nên không biết gọi sao cho đúng.

Nhu cầu của mình là join/ merge/ combine/ aggregate… what ever data từ nhiều database, datasource… khác nhau để ra report.

Ví dụ mình có:
DB chứa thông tin user nằm trên postgres server A.
DB chứa thông tin mua hàng của user nằm trênpostgres server B.
DB tracking lịch sử truy cập, lịch sử click của user nằm trên mongo server M.

Từ 3 cái db trên mình muốn ra được một cái report tổng thể user nào đã xem mặt hàng nào vào thời điểm nào và đã mua những mặt hàng gì….

Mình không rõ người xử lý data phải dùng công cụ nào, kỹ thuật nào để kết hợp nhiều nguồn data như vậy?

Với mô hình single database truyền thống trên RDBMS mình chỉ việc join nhiều bảng có thể ra kết quả, còn case trên thì mình không biết.
 
View attachment 640695

Sau khi mày mò thì lên được ntn rồi bạn à. Lý do là overfit vì model quá phức tạp.
theem batchNorm, dropout, tuy data ma coi xem dung L1 hay L2 nua cho do overfitting, ngoai ra thi dung img argumentation nua cho da dang anh len, mo het nhung anh ma fail xem nhung anh do co dac diem gi chung khong, co van de gi, coi xem nhung anh bi fail thi model predict ra label nao thong ke lai theo tung class de co huong sua tiep
 
theem batchNorm, dropout, tuy data ma coi xem dung L1 hay L2 nua cho do overfitting, ngoai ra thi dung img argumentation nua cho da dang anh len, mo het nhung anh ma fail xem nhung anh do co dac diem gi chung khong, co van de gi, coi xem nhung anh bi fail thi model predict ra label nao thong ke lai theo tung class de co huong sua tiep
ok cảm ơn fence nhé. để tôi đọc thêm :D
 
Hi mọi người, em mới biết đến thread này. Cho em hỏi ở đây có nhiều tiền bối làm về audio không ạ, cho em theo với :)
 
Cho mình hỏi với bác thì khi mà bác tunning mấy cái stored procedures này thì bác dùng kĩ năng nào nhiều nhất. Với mình thì mình thích là đọc execution plan và algorithm theo nó.

Mình khá tự tin về khả năng đọc execution plan và giải thích algorithm theo nó. VD tại sao là nested loop, tại sao là hash join, tại sao lại là sort-merge, tại sao ở đây có spool, tại sao có sort... rồi optimize theo execution plan, và mình cũng rất thích những ai có lối chơi về database thế này. Đọc execution plan và DAG của Spark cũng vậy. Mình cảm thấy một khi mình biết chắc chắn nó work như thế nào, thì điều khiển database và query cứ như trong lòng bàn tay vậy.

Tuy nhiên có vẻ trên thực tế người sử dụng lao động và phỏng vấn có vẻ còn chẳng biết đến những thứ này. :sweat:

Hiện giờ mình vừa nghỉ ở chỗ cũ và mới nhận job mới ở 1 công ty outsource lớn, nhưng sau 1 tuần có lẽ do cú shock văn hóa quá nặng (mình đến từ công ty product tầm trung) nên mình đang tính sẽ nghỉ luôn. Giờ tương lai ko biết sẽ đi về đâu.
Bác có recommend khoá học/tài liệu nào để gain kiến thức phần execution plan này ko ạ?
Thú thực là e làm DA và dùng sql nhiều nhưng viết query vẫn khá là bản năng và chưa biết cách optimize running time.
 
Bác có recommend khoá học/tài liệu nào để gain kiến thức phần execution plan này ko ạ?
Thú thực là e làm DA và dùng sql nhiều nhưng viết query vẫn khá là bản năng và chưa biết cách optimize running time.

Bạn DA thì mình vẫn cho rằng k cần đầu tư vào mảng này đâu, bạn nên đầu tư nâng cấp skill phân tích hơn là tech.

Các query bạn viết thường quyết định logic và kết quả của query, còn nhanh hay chậm là cái database thực sự thực thi nó thế nào. Bạn viết query có thể dùng cách khác nhau, vd bạn lúc viết EXISTS lúc là IN chẳng hạn, nhưng máy dịch ra xuống physical operation thì cũng là, VD nested loop left semi join như nhau.

Để có thể can thiệp vào việc database dùng cách nào để xử lý logical query của bạn, vd join nhảy từ nested loop sang sort merge thì là chuyện của những thứ như index, data model, statistics, partition... Chứ không phải ở tầng logical query. Dĩ nhiên bạn có vài lệnh để force, tuy nhiên mình k khuyến khích force, vì nó sẽ chỉ đúng với trạng thái và biến số hiện tại chứ k chắc với trạng thái và biến số khác.

Mà những thứ trên DA bạn khó can thiệp được. Quan điểm của mình optimize trên tầng logical query, không phải là không có, tuy nhiên không nhiều.

Tuy nhiên nếu bạn muốn học thì mình có thể nói là bạn tìm thử mấy cái doc + blog trên mạng thử, rồi vừa đọc vừa mò theo. Bản thân mình cũng k dám chắc là mình hiểu hết và đúng.
Đến giờ mình vẫn phải mò và lâu lâu lại phát hiện thêm vài điều thú vị.
 
Back
Top