thảo luận [Góc chia sẻ- Thảo Luận] Review, phân tích và giải thích những bài báo khoa học về AI/Computer Vision

hihi_vitcon_saolaibanem · Dec 10, 2021

Như tít, noi gương mai pen ở topic https://voz.vn/t/chia-se-lo-trinh-ielts-7-cho-vozer-de-hoc.339522/page-7#post-14437273,
mình quyết định lập topic này để review, đọc, phân tích, và giải thích những bài báo SOTA trong lĩnh vực AI và computer vision. Mong được các anh chị em ủng hộ, góp ý, thảo luận.

Những ai làm computer vision mảng application hoặc nghiên cứu đều biết literature review là 1 công việc quan trọng trước khi xây dựng ứng dụng.
Mục đích của topic:

Review những paper kinh điển, phải biết trong lĩnh vực, vì những công nghệ trong những bài báo này thường được sử dụng, hoặc thường dc làm benchmark trong các task, hoặc là cơ sở để build những model SOTA hiện tại.
Phân tích phương pháp tiếp cận toán học của paper 1 cách trực quan, dễ hiểu (thường mọi người hay ngán đọc báo do cách viết khó hiểu và toán học lằng nhằng)
Nhận xét ưu, khuyết điểm của mô hình, và 1 số flaws in research của author
Trải nghiệm thực tế, code implementation (nếu có thể)

Mình sẽ cố gắng lên 1-2 bài/tuần, danh sách các topic mình sẽ review:

1. AI in deconvolution: ứng dụng zoom ảnh siêu to (super-resolution), phục hồi ảnh mờ (deblur), phục hồi ảnh bị che (uncensor) với deep learning.

1 số thành quả của em:
Ảnh gốc bị mờ: Chưa đem vào huấn luyện bao giờ

crwg3jA1GdT31g-bzJ2CZ5xDZsn4Q56Ys55lkqzIQ69AQR-eiCOKqtmeXX8UVdtjMeJFTGBa-TmTG1-6regHc3w54LhT73RGvexuKkLrvtYZf3DLeeiN-wqQKtUM7-7ImwTQylZcNQ

Model output:

xxR4HfVYq9cLnXcqRG92NZLqEq0mp2NlPmwObPTQUrGcQo2M_hKIQzRWzvJf9IHNLp3bRdE5c7RVAGrMJAbTJwO-eFc0Cyb12CLqQCHuk0TQBv9tQ6mc_ShGSaBKveqUHD13_ubANw

Với ảnh màu:

EKQNzpAaf1e09u9WVy-usZRu4FycgZl9BkGTnCey2NadhEjiHHO4MgJI4SsxSH5hehi9srgW8e0rCunSzju6aifWJMe4GII6oJWhYkqCXEgn8pUPCT7Ho-JWd-rUgIVpnBXgisp7NA

Part 1: Xây dựng mô hình CNN deblur ảnh :

https://voz.vn/t/goc-chia-se-thao-l...oc-ve-ai-computer-vision.449969/post-14572110

2. Deep Learning with Transformer in Computer Vision (SOTA năm 2020)

3. Self-supervised segmentation, self-supervised face recognition using classical algorithms (eigenfaces, Chan-vese)

4. Deep Learning in scene text recognition

5. Deep Learning in Motion Transfer (HOT)

6. Classical models: resnet, SE-Resnet, cơ sở toán học của PCA, decision boundaries, polyminal regression, feature selection methods...

Mỗi topic mình sẽ review 2-3 bài, nếu mọi người có suggest thì cứ comment topic + paper.

Paper đầu tiên về deblur mình sẽ update trong tuần này.

bong · Dec 10, 2021

deblur là uncensored hả thớt

hihi_vitcon_saolaibanem · Dec 10, 2021

bong said:
deblur là uncensored hả thớt

Deblur là phục hồi ảnh bị mờ nha thím

Sent from Hieu iPhone via nextVOZ

bong · Dec 10, 2021

ghê vậy thím nó dựa trên cơ chế nào để phục hồi vậy,nếu một tấm hình chưa đem vào huấn luyện bao giờ cũng ko có ngữ cảnh nào tương tự trong tập huấn luyện thì có phục hồi dc ko thím

hihi_vitcon_saolaibanem · Dec 10, 2021

bong said:
ghê vậy thím nó dựa trên cơ chế nào để phục hồi vậy,nếu một tấm hình chưa đem vào huấn luyện bao giờ cũng ko có ngữ cảnh nào tương tự trong tập huấn luyện thì có phục hồi dc ko thím

được nha thím, cái này là 1 dạng self-supervised. Hiện tại em đang nghiên cứu về mảng này.
1 số thành quả của em:
Ảnh gốc bị mờ: Chưa đem vào huấn luyện bao giờ

Model output:

Với ảnh màu:

em sẽ trình bày chi tiết cơ chế sau

chúa tể thịt beef · Dec 10, 2021

b có thể giải thích rõ hơn về tế bào thần kinh nhân tạo không? :nosebleed:

https://laodong.vn/the-gioi/nhat-ban-robot-tu-duy-buoc-tien-moi-cua-tri-tue-nhan-tao-968246.ldo

hihi_vitcon_saolaibanem · Dec 10, 2021

chúa tể thịt beef said:
b có thể giải thích rõ hơn về tế bào thần kinh nhân tạo không?
https://laodong.vn/the-gioi/nhat-ban-robot-tu-duy-buoc-tien-moi-cua-tri-tue-nhan-tao-968246.ldo

bài báo này viết chung chung lắm bác ạ. Có ít nhất vài loại loại giải thuật AI có thể làm công việc của con robot trong bài báo. Em đoán là họ chỉ dùng 1 mạng Neural network thôi. Nếu về mảng này bác xem qua ví dụ về xe tự hành nhé.

Cơ chế hoạt động đơn giản nhất của 1 neuron network này:

Giả sử có N neuron trong mạng thần kinh, mỗi neuron nhận vào 1 xung tín hiệu x, thì transfer function là hàm tổng hợp cường độ tín hiệu của các input:
Transfer function (sigma trong hình) = W1 * x1+ W2*x2 + ...+Wn*xn
Hàm activation sẽ dùng để dựa trên tín hiệu tổng hợp mà quyết định (shoot), ví dụ quyết định robot có đi tiếp hay dừng lại:
Theta(Transfer function)>threshold => đi tiếp, else dừng lại, ví dụ v.
Sau khi thực hiện mỗi hành động, sẽ có 1 hàm loss để đánh giá hành động này là đúng hay sai, ví dụ, robot dựa vào tín hiệu để xem trong tay đang cầm quả chanh hay táo. Robot nghĩ là táo , trong khi nó đang cầm quả chanh => Hàm loss sẽ có giá trị cao và buộc các neuron phải update để lần sau cầm quả chanh đó thì nó bik đó là quả chanh chứ k dc nghĩ là quả táo nữa.

bong · Dec 10, 2021

hihi_vitcon_saolaibanem said:
Model output:

Với ảnh màu:

em sẽ trình bày chi tiết cơ chế sau

edit em nhìn nhầm

hihi_vitcon_saolaibanem · Dec 10, 2021

bong said:
edit em nhìn nhầm

s v bác

bong · Dec 10, 2021

hihi_vitcon_saolaibanem said:
s v bác

em tưởng blur dạng tuyến tính mà zoom lên thấy rung lắc quá nên chắc mấy phương pháp truyền thống chịu thua rồi :sure:

hihi_vitcon_saolaibanem · Dec 10, 2021

bong said:
em tưởng blur dạng tuyến tính mà zoom lên thấy rung lắc quá nên chắc mấy phương pháp truyền thống chịu thua rồi

model deal tốt với unstructured blur kernel luôn bác nhé. E đang làm thesis về topic này luôn.

-RedSky.v2- · Dec 10, 2021

hihi_vitcon_saolaibanem said:
được nha thím, cái này là 1 dạng self-supervised. Hiện tại em đang nghiên cứu về mảng này.
1 số thành quả của em:
Ảnh gốc bị mờ: Chưa đem vào huấn luyện bao giờ

Model output:

Với ảnh màu:

em sẽ trình bày chi tiết cơ chế sau

Có cơ chế chi tiết tag tao vô với.

xatuoinho · Dec 10, 2021

em là newbie ngành này. Em đang nghiên cứu implement paper này ( https://arxiv.org/abs/1811.08965 ) nhưng mà đang mơ hồ hướng đi lắm bác thớt ạ. Cái SR thì người ta xài VDSR ra hồi 2015, còn cái FR người ta xài thì em tìm không có code =((

. Phận newbie gà mờ, mong bác chỉ hướng cho. :cry:

hihi_vitcon_saolaibanem · Dec 10, 2021

-RedSky.v2- said:
Có cơ chế chi tiết tag tao vô với.

Để t up từ từ

Sent from Hieu iPhone via nextVOZ

hihi_vitcon_saolaibanem · Dec 10, 2021

xatuoinho said:
em là newbie ngành này. Em đang nghiên cứu implement paper này ( https://arxiv.org/abs/1811.08965 ) nhưng mà đang mơ hồ hướng đi lắm bác thớt ạ. Cái SR thì người ta xài VDSR ra hồi 2015, còn cái FR người ta xài thì em tìm không có code . Phận newbie gà mờ, mong bác chỉ hướng cho.

Bác cần hỏi cụ thể gì.

Sent from Hieu iPhone via nextVOZ

xatuoinho · Dec 10, 2021

hihi_vitcon_saolaibanem said:
Bác cần hỏi cụ thể gì.

Sent from Hieu iPhone via nextVOZ

bác cho em một cái overview về SR trong những năm gần đây được ko. Đại khái là model nào đang nổi trội, model nào đang cho kết quả tốt nhất, có model nhỏ gọn nào cho thiết bị có năng lực tính toán thấp. Bác trình bày hoặc gửi bài viết tài liệu bài báo hay paper gì đó cho em đọc cũng được. Em mới tiếp xúc cái task SR này =((

Troll Ghẻ · Dec 10, 2021

Đặt gạch hóng :ROFLMAO:

Fire Of Heart · Dec 10, 2021

lên thớt mà để lâu ko đụng tới là ban nhé :doubt:

còn duy trì dc đều sang năm t tặng title cho

lemontree309 · Dec 11, 2021

Em là sv năm cuối chuyên ngành CS, cũng mới chân ướt chân ráo vào đời đc hơn năm nay chủ yếu làm ở cty thiên về sản phẩm ứng dụng AI nhưng các sản phẩm hầu hết đều phát triển dựa trên các open source có sẵn, chủ yếu sẽ là thu thập data rồi huấn luyện mô hình và tuning các tham số để cho ra được mô hình tốt nhất (object detection, image segmentation, OCR, ...). Có bro nào hiện cũng đang làm công việc tương tự cho em xin lời khuyên để phát triển lâu dài với.

hihi_vitcon_saolaibanem · Dec 11, 2021

lemontree309 said:
Em là sv năm cuối chuyên ngành CS, cũng mới chân ướt chân ráo vào đời đc hơn năm nay chủ yếu làm ở cty thiên về sản phẩm ứng dụng AI nhưng các sản phẩm hầu hết đều phát triển dựa trên các open source có sẵn, chủ yếu sẽ là thu thập data rồi huấn luyện mô hình và tuning các tham số để cho ra được mô hình tốt nhất (object detection, image segmentation, OCR, ...). Có bro nào hiện cũng đang làm công việc tương tự cho em xin lời khuyên để phát triển lâu dài với.

Cứ học tuning cho tốt đã. R lên kaggle để bik nhiều hơn, sau cùng thì join research thôi

Sent from Hieu iPhone via nextVOZ

thảo luận [Góc chia sẻ- Thảo Luận] Review, phân tích và giải thích những bài báo khoa học về AI/Computer Vision

Senior Member

Junior Member

Senior Member

Junior Member

Senior Member

Senior Member

Senior Member

Junior Member

Senior Member

Junior Member

Senior Member

Senior Member

Senior Member

Senior Member

Senior Member

Senior Member

Senior Member

277;67;6824839

Junior Member

Senior Member

Similar threads

Share this page