kiến thức Hướng dẫn Chuyển Ảnh Trên Màn Hình thành Văn Bản Siêu Nhanh với Capture2Text (OCR)

hoanganh.pro · Apr 13, 2024

Phần1. Hướng dẫn Chuyển Ảnh Trên Màn Hình thành Văn Bản Siêu Nhanh với Capture to Text

Bước 1: Tải Phần Mềm Capture to Text Truy cập vào trang chủ của Capture2Text tại đây và tải xuống phiên bản phù hợp với hệ điều hành của bạn.

Bước 2: Cài Đặt Phần Mềm Sau khi tải về, giải nén file cài đặt và chạy tệp tin để cài đặt phần mềm lên máy tính của bạn.

Bước 3: Tải Gói Ngôn Ngữ Tiếng Việt Nếu bạn muốn sử dụng Capture2Text để nhận dạng văn bản tiếng Việt, bạn cần tải gói ngôn ngữ tiếng Việt về máy. Truy cập vào đây để tải gói ngôn ngữ tiếng Việt về.

Bước 4: Cài Đặt Gói Ngôn Ngữ Sau khi tải gói ngôn ngữ về, giải nén và sao chép các tệp tin vào thư mục tessdata trong thư mục cài đặt của Capture to Text.

Ghi chú:
a. Bạn có thể Tải Phần Mềm Đã Tích Hợp Tiếng Việt + Anh Nếu bạn muốn tiết kiệm thời gian và không muốn mất công cài đặt gói ngôn ngữ, bạn có thể tải phiên bản đã tích hợp sẵn tiếng Việt và tiếng Anh tại đây.

b. Xem Video Hướng Dẫn Để hiểu rõ hơn về cách sử dụng Capture to Text, bạn có thể xem video hướng dẫn chi tiết tại đây.

Với Capture to Text, việc chuyển đổi các đoạn văn bản từ ảnh trên màn hình thành văn bản sẽ trở nên đơn giản và nhanh chóng hơn bao giờ hết. Hãy thử ngay và trải nghiệm sự thuận tiện mà nó mang lại!

---
Phần2. Hướng dẫn Chuyển hàng loạt file ảnh sang file văn bản .txt

Bước 1: Cài đặt phần mềm Tesseract OCR

Link tải: Home (https://github.com/UB-Mannheim/tesseract/wiki)
Tesseract là một phần mềm mã nguồn mở được phát triển bởi Google, chuyên dùng để nhận dạng ký tự từ hình ảnh. Nó là một hệ thống OCR (Optical Character Recognition) mạnh mẽ có khả năng nhận dạng các ký tự từ các tệp ảnh và chuyển đổi chúng thành văn bản có thể chỉnh sửa được. Tesseract được sử dụng rộng rãi trong các ứng dụng như scan tài liệu, nhận dạng biển số xe, và xử lý văn bản từ hình ảnh trong các dự án AI và Machine Learning.

Bước 2: Tải gói ngôn ngữ
Các gói ngôn ngữ của phần mềm này dùng chung với Capture2text (trong phần 1) được. Link tải bạn có thể dùng trong phần 1 hoặc tải tại đây: GitHub - tesseract-ocr/tessdata: Trained models with fast variant of the "best" LSTM models + legacy models (https://github.com/tesseract-ocr/tessdata)

Bước 3: Sau khi tải về bạn copy gói ngôn ngữ vào thư mục tessdata trong thư mục đã cài đặt của Tesseract OCR thông thường nằm tại: CProgram Files\Tesseract-OCR\tessdata:

Bước 4: Tiến hành convert ảnh:
4.1. Sử dụng Tesseract qua dòng lệnh
Bạn có thể sử dụng Tesseract qua dòng lệnh bằng cách mở cửa sổ dòng lệnh và nhập lệnh sau:

Code:

tesseract path_to_your_image output_file_name

Trong đó:

path_to_your_image là đường dẫn đến hình ảnh bạn muốn nhận dạng.
output_file_name là tên của tệp tin văn bản đầu ra.

4.2. Để convert hàng loạt bạn có thể sử dụng file Excel - vba sau:
Link tải: https://hoangtuan.net/s/114
- Vào mục Chuyển ảnh sang chữ trên menu → Chọn tiếp Chuyển ảnh sang chữ (trước đó cần chọn ngôn ngữ từ ảnh trong file excel nếu cần - mặc định là Tiếng Việt)

- Chọn ảnh cần chuyển và ấn Open để phần mềm thực hiện, các định dạng ảnh hỗ trợ là:
"*.png; *.jpg; *.jpeg; *.tiff; *.tif; *.webp; *.bmp; *.pnm"

- File txt được tạo ra nằm cùng thư mục ảnh cần chuyển đổi!

Video hướng dẫn:

Nếu bạn sử dụng file Excel chứa vba báo lỗi thì tham khảo thêm video "Hướng dẫn mở file chứa macros, Vba" sau:

--
Ứng dụng: chuyển hardsub trên video sang softsub:
1. Dùng VideoSubFinder để tự động chụp ảnh chứa sub
2. Dùng cách Chuyển ảnh hàng loạt trên Excel để convert ảnh sang text.
3. Nếu cần gộp file txt có thể sử dụng TXTcollector

ePubc · Apr 13, 2024

ngon nhe.. mới test thấy nhận diện ngon

123_abc · Apr 13, 2024

đù cảm ơn bác, e cần tìm cái này lâu lắm r, test chạy ngon vcl

hoanganh.pro · Apr 15, 2024

update phần 2, chuyển ảnh hàng loạt!

christds · Apr 19, 2024

hoanganh.pro said:
update phần 2, chuyển ảnh hàng loạt!

File này cần xin quyền driver hả bác

hoanganh.pro · Apr 19, 2024

christds said:
File này cần xin quyền driver hả bác

Bác cứ yêu cầu là auto duyệt chậm nhất sau 1h mà

ichiSol · Apr 19, 2024

tks Bác nhiều nha, để em test thử xem ợ

Snawfus · Apr 19, 2024

Nguồn tessdata ở phần 2 (Github - tessdata) có vẻ mới hơn ở phần 1, và nó có thể dùng cho Capture2Text vẫn được đó bác.

hoanganh.pro · Apr 19, 2024

Nguồn tessdata dùng chung được nhé các bác. Còn nguồn nào các bác thấy chính xác hơn thì cứ thử test. Trước em có tải 1 nguồn gói ngôn ngữ của Việt Nam là 11Mb nặng hơn gói 7Mb nhưng em test thử một vài ảnh thì có vẻ nhận dạng không chuẩn bằng.

Snawfus said:
Nguồn tessdata ở phần 2 (Github - tessdata) có vẻ mới hơn ở phần 1, và nó có thể dùng cho Capture2Text vẫn được đó bác.

aladanh2000 · Apr 19, 2024

không biết có dịch được chữ Tàu ko fen, tôi đang định dịch cái bia mộ cổ

Snawfus · Apr 19, 2024

aladanh2000 said:
không biết có dịch được chữ Tàu ko fen, tôi đang định dịch cái bia mộ cổ

Chữ Tàu bản nào cũng có, cả giản thể lẫn phồn thể. Tuy nhiên mục đích của bác là dịch bia mộ cổ thì có chút hơi… căng. Vì nếu như mình không lầm thì thường những bia mộ, hoặc bảng hiệu nói chung thường kiểu chữ nó như "word art", rất khó để OCR nhận diện. Hoặc là kiểu chữ Thảo (dạng chữ giống như viết tay) lại càng khó hơn nữa. OCR chỉ hiệu quả nhất khi quét văn bản đánh máy thuần túy như thế này thôi.

binhte89 · Apr 20, 2024

Hay quá. Trước đây toàn phải chụp màn hình rồi paste vào web khác để dịch.
Phần dịch hình ảnh của google cũng hạn chế lắm, toàn phải dùng kiểu như bên yandex.

dark_devils · Apr 24, 2024

Cái "Capture2Text" ko support Win 11 à bác thớt ơi

Snawfus · Apr 24, 2024

dark_devils said:
Cái "Capture2Text" ko support Win 11 à bác thớt ơi

Mình đang dùng Win11 nè, xài bình thường mà bác.

hoanganh.pro · Apr 24, 2024

Chuẩn mình đang dùng trên Win 11 nhé!

dark_devils said:
Cái "Capture2Text" ko support Win 11 à bác thớt ơi

Snawfus said:
Mình đang dùng Win11 nè, xài bình thường mà bác.

quocpg · Thursday at 10:59 AM

Thanks bác nhé cái này khá là hữu ích đó :CƯỜI:

koda · Sunday at 3:10 PM

oh, coi bộ ngon, bookmark lại nghiên cứu
Tks

LHA_lengend · Sunday at 5:28 PM

Mình thấy trên windows 11 Snipping tool hỗ trợ OCR cả tiếng việt rồi

kiến thức Hướng dẫn Chuyển Ảnh Trên Màn Hình thành Văn Bản Siêu Nhanh với Capture2Text (OCR)

hoanganh.pro

Senior Member

ePubc

Senior Member

123_abc

Junior Member

hoanganh.pro

Senior Member

christds

Đã tốn tiền

hoanganh.pro

Senior Member

ichiSol

Junior Member

Snawfus

Senior Member

hoanganh.pro

Senior Member

aladanh2000

Senior Member

Snawfus

Senior Member

binhte89

Junior Member

dark_devils

Senior Member

Snawfus

Senior Member

hoanganh.pro

Senior Member

quocpg

Junior Member

koda

Junior Member

LHA_lengend

Junior Member

Similar threads

Share this page