thảo luận [Góc chia sẻ- Thảo Luận] Review, phân tích và giải thích những bài báo khoa học về AI/Computer Vision

Như tít, noi gương mai pen ở topic https://voz.vn/t/chia-se-lo-trinh-ielts-7-cho-vozer-de-hoc.339522/page-7#post-14437273,
mình quyết định lập topic này để review, đọc, phân tích, và giải thích những bài báo SOTA trong lĩnh vực AI và computer vision. Mong được các anh chị em ủng hộ, góp ý, thảo luận.

Những ai làm computer vision mảng application hoặc nghiên cứu đều biết literature review là 1 công việc quan trọng trước khi xây dựng ứng dụng.
Mục đích của topic:

  • Review những paper kinh điển, phải biết trong lĩnh vực, vì những công nghệ trong những bài báo này thường được sử dụng, hoặc thường dc làm benchmark trong các task, hoặc là cơ sở để build những model SOTA hiện tại.
  • Phân tích phương pháp tiếp cận toán học của paper 1 cách trực quan, dễ hiểu (thường mọi người hay ngán đọc báo do cách viết khó hiểu và toán học lằng nhằng)
  • Nhận xét ưu, khuyết điểm của mô hình, và 1 số flaws in research của author
  • Trải nghiệm thực tế, code implementation (nếu có thể)

Mình sẽ cố gắng lên 1-2 bài/tuần, danh sách các topic mình sẽ review:

1. AI in deconvolution: ứng dụng zoom ảnh siêu to (super-resolution), phục hồi ảnh mờ (deblur), phục hồi ảnh bị che (uncensor) với deep learning.

1 số thành quả của em:
Ảnh gốc bị mờ: Chưa đem vào huấn luyện bao giờ
crwg3jA1GdT31g-bzJ2CZ5xDZsn4Q56Ys55lkqzIQ69AQR-eiCOKqtmeXX8UVdtjMeJFTGBa-TmTG1-6regHc3w54LhT73RGvexuKkLrvtYZf3DLeeiN-wqQKtUM7-7ImwTQylZcNQ

Model output:
xxR4HfVYq9cLnXcqRG92NZLqEq0mp2NlPmwObPTQUrGcQo2M_hKIQzRWzvJf9IHNLp3bRdE5c7RVAGrMJAbTJwO-eFc0Cyb12CLqQCHuk0TQBv9tQ6mc_ShGSaBKveqUHD13_ubANw

Với ảnh màu:
EKQNzpAaf1e09u9WVy-usZRu4FycgZl9BkGTnCey2NadhEjiHHO4MgJI4SsxSH5hehi9srgW8e0rCunSzju6aifWJMe4GII6oJWhYkqCXEgn8pUPCT7Ho-JWd-rUgIVpnBXgisp7NA


Part 1: Xây dựng mô hình CNN deblur ảnh :



2. Deep Learning with Transformer in Computer Vision (SOTA năm 2020)

3. Self-supervised segmentation, self-supervised face recognition using classical algorithms (eigenfaces, Chan-vese)

4. Deep Learning in scene text recognition

5. Deep Learning in Motion Transfer (HOT)

6. Classical models: resnet, SE-Resnet, cơ sở toán học của PCA, decision boundaries, polyminal regression, feature selection methods...

Mỗi topic mình sẽ review 2-3 bài, nếu mọi người có suggest thì cứ comment topic + paper.

Paper đầu tiên về deblur mình sẽ update trong tuần này.
 
Last edited:
ghê vậy thím nó dựa trên cơ chế nào để phục hồi vậy,nếu một tấm hình chưa đem vào huấn luyện bao giờ cũng ko có ngữ cảnh nào tương tự trong tập huấn luyện thì có phục hồi dc ko thím
 
ghê vậy thím nó dựa trên cơ chế nào để phục hồi vậy,nếu một tấm hình chưa đem vào huấn luyện bao giờ cũng ko có ngữ cảnh nào tương tự trong tập huấn luyện thì có phục hồi dc ko thím
được nha thím, cái này là 1 dạng self-supervised. Hiện tại em đang nghiên cứu về mảng này.
1 số thành quả của em:
Ảnh gốc bị mờ: Chưa đem vào huấn luyện bao giờ
crwg3jA1GdT31g-bzJ2CZ5xDZsn4Q56Ys55lkqzIQ69AQR-eiCOKqtmeXX8UVdtjMeJFTGBa-TmTG1-6regHc3w54LhT73RGvexuKkLrvtYZf3DLeeiN-wqQKtUM7-7ImwTQylZcNQ

Model output:
xxR4HfVYq9cLnXcqRG92NZLqEq0mp2NlPmwObPTQUrGcQo2M_hKIQzRWzvJf9IHNLp3bRdE5c7RVAGrMJAbTJwO-eFc0Cyb12CLqQCHuk0TQBv9tQ6mc_ShGSaBKveqUHD13_ubANw

Với ảnh màu:
EKQNzpAaf1e09u9WVy-usZRu4FycgZl9BkGTnCey2NadhEjiHHO4MgJI4SsxSH5hehi9srgW8e0rCunSzju6aifWJMe4GII6oJWhYkqCXEgn8pUPCT7Ho-JWd-rUgIVpnBXgisp7NA

em sẽ trình bày chi tiết cơ chế sau
 
b có thể giải thích rõ hơn về tế bào thần kinh nhân tạo không? :nosebleed:
https://laodong.vn/the-gioi/nhat-ban-robot-tu-duy-buoc-tien-moi-cua-tri-tue-nhan-tao-968246.ldo
bài báo này viết chung chung lắm bác ạ. Có ít nhất vài loại loại giải thuật AI có thể làm công việc của con robot trong bài báo. Em đoán là họ chỉ dùng 1 mạng Neural network thôi. Nếu về mảng này bác xem qua ví dụ về xe tự hành nhé.

Cơ chế hoạt động đơn giản nhất của 1 neuron network này:

1639129091349.png


Giả sử có N neuron trong mạng thần kinh, mỗi neuron nhận vào 1 xung tín hiệu x, thì transfer function là hàm tổng hợp cường độ tín hiệu của các input:
Transfer function (sigma trong hình) = W1 * x1+ W2*x2 + ...+Wn*xn
Hàm activation sẽ dùng để dựa trên tín hiệu tổng hợp mà quyết định (shoot), ví dụ quyết định robot có đi tiếp hay dừng lại:
Theta(Transfer function)>threshold => đi tiếp, else dừng lại, ví dụ v.
Sau khi thực hiện mỗi hành động, sẽ có 1 hàm loss để đánh giá hành động này là đúng hay sai, ví dụ, robot dựa vào tín hiệu để xem trong tay đang cầm quả chanh hay táo. Robot nghĩ là táo , trong khi nó đang cầm quả chanh => Hàm loss sẽ có giá trị cao và buộc các neuron phải update để lần sau cầm quả chanh đó thì nó bik đó là quả chanh chứ k dc nghĩ là quả táo nữa.
 
được nha thím, cái này là 1 dạng self-supervised. Hiện tại em đang nghiên cứu về mảng này.
1 số thành quả của em:
Ảnh gốc bị mờ: Chưa đem vào huấn luyện bao giờ
crwg3jA1GdT31g-bzJ2CZ5xDZsn4Q56Ys55lkqzIQ69AQR-eiCOKqtmeXX8UVdtjMeJFTGBa-TmTG1-6regHc3w54LhT73RGvexuKkLrvtYZf3DLeeiN-wqQKtUM7-7ImwTQylZcNQ

Model output:
xxR4HfVYq9cLnXcqRG92NZLqEq0mp2NlPmwObPTQUrGcQo2M_hKIQzRWzvJf9IHNLp3bRdE5c7RVAGrMJAbTJwO-eFc0Cyb12CLqQCHuk0TQBv9tQ6mc_ShGSaBKveqUHD13_ubANw

Với ảnh màu:
EKQNzpAaf1e09u9WVy-usZRu4FycgZl9BkGTnCey2NadhEjiHHO4MgJI4SsxSH5hehi9srgW8e0rCunSzju6aifWJMe4GII6oJWhYkqCXEgn8pUPCT7Ho-JWd-rUgIVpnBXgisp7NA

em sẽ trình bày chi tiết cơ chế sau

Có cơ chế chi tiết tag tao vô với.
 
em là newbie ngành này. Em đang nghiên cứu implement paper này ( https://arxiv.org/abs/1811.08965 ) nhưng mà đang mơ hồ hướng đi lắm bác thớt ạ. Cái SR thì người ta xài VDSR ra hồi 2015, còn cái FR người ta xài thì em tìm không có code =((. Phận newbie gà mờ, mong bác chỉ hướng cho.:cry:
 
em là newbie ngành này. Em đang nghiên cứu implement paper này ( https://arxiv.org/abs/1811.08965 ) nhưng mà đang mơ hồ hướng đi lắm bác thớt ạ. Cái SR thì người ta xài VDSR ra hồi 2015, còn cái FR người ta xài thì em tìm không có code =((. Phận newbie gà mờ, mong bác chỉ hướng cho.:cry:
Bác cần hỏi cụ thể gì.

Sent from Hieu iPhone via nextVOZ
 
Bác cần hỏi cụ thể gì.

Sent from Hieu iPhone via nextVOZ
bác cho em một cái overview về SR trong những năm gần đây được ko. Đại khái là model nào đang nổi trội, model nào đang cho kết quả tốt nhất, có model nhỏ gọn nào cho thiết bị có năng lực tính toán thấp. Bác trình bày hoặc gửi bài viết tài liệu bài báo hay paper gì đó cho em đọc cũng được. Em mới tiếp xúc cái task SR này =((
 
Em là sv năm cuối chuyên ngành CS, cũng mới chân ướt chân ráo vào đời đc hơn năm nay chủ yếu làm ở cty thiên về sản phẩm ứng dụng AI nhưng các sản phẩm hầu hết đều phát triển dựa trên các open source có sẵn, chủ yếu sẽ là thu thập data rồi huấn luyện mô hình và tuning các tham số để cho ra được mô hình tốt nhất (object detection, image segmentation, OCR, ...). Có bro nào hiện cũng đang làm công việc tương tự cho em xin lời khuyên để phát triển lâu dài với.
 
Em là sv năm cuối chuyên ngành CS, cũng mới chân ướt chân ráo vào đời đc hơn năm nay chủ yếu làm ở cty thiên về sản phẩm ứng dụng AI nhưng các sản phẩm hầu hết đều phát triển dựa trên các open source có sẵn, chủ yếu sẽ là thu thập data rồi huấn luyện mô hình và tuning các tham số để cho ra được mô hình tốt nhất (object detection, image segmentation, OCR, ...). Có bro nào hiện cũng đang làm công việc tương tự cho em xin lời khuyên để phát triển lâu dài với.
Cứ học tuning cho tốt đã. R lên kaggle để bik nhiều hơn, sau cùng thì join research thôi

Sent from Hieu iPhone via nextVOZ
 
Back
Top