Làm sao để download file ảnh từ list url siêu to khổng lồ?

NguyenThiKieuSa

Junior Member
Xin vozer tư vấn cách nào để tải đống file ảnh ntn.

Ảnh có thể là đuôi: jpg, png, jpeg, gif, bmw,.....

Nguồn ảnh từ 1 tên miền web thôi.
Sẽ download từ 1 triệu URL ảnh, có thể nhiều hơn đấy, đống url này để trong 1 file .txt, mỗi dòng 1 url.

Ảnh có thể tồn tài. Ok
Hoặc ko tồn tại, thì nó sẽ trả về 1 ảnh mặc đỉnh 404, tuy nhiên url ảnh đó vẫn giữ nguyên. Kiểu domain.com/nbchjd/photo2145.jpg chứ ko phải redirect sang 1 link khác domain.com/error/404.jpg đâu nhé. Thì phần ảnh ko tồn tại này, nếu có thể check ra đc để bỏ nó đi, ko download về nữa thì tốt.

Chắc chắn ko dùng IDM đc rồi, sập ngay :)

E cảm ơn trc ạ :D
 
Xin vozer tư vấn cách nào để tải đống file ảnh ntn.

Ảnh có thể là đuôi: jpg, png, jpeg, gif, bmw,.....

Nguồn ảnh từ 1 tên miền web thôi.
Sẽ download từ 1 triệu URL ảnh, có thể nhiều hơn đấy, đống url này để trong 1 file .txt, mỗi dòng 1 url.

Ảnh có thể tồn tài. Ok
Hoặc ko tồn tại, thì nó sẽ trả về 1 ảnh mặc đỉnh 404, tuy nhiên url ảnh đó vẫn giữ nguyên. Kiểu domain.com/nbchjd/photo2145.jpg chứ ko phải redirect sang 1 link khác domain.com/error/404.jpg đâu nhé. Thì phần ảnh ko tồn tại này, nếu có thể check ra đc để bỏ nó đi, ko download về nữa thì tốt.

Chắc chắn ko dùng IDM đc rồi, sập ngay :)

E cảm ơn trc ạ :D
30p. 1tr
 
1 triệu dòng idm sập á. Thử dùng lệnh trong linux đi, kiếm máy khoẻ tí tránh sập. Tải hết về rồi lọc ảnh lỗi sau
 
bác thử lần nào chưa ạ, vì file text chứa list url ảnh cực lớn.
Thì tuỳ cấu hình máy cho nó load url thôi, có sẽ nó sẽ đơ cứ để nó xử lý xong. Chỉnh tải 1 file thôi xong rồi nó tải tiếp file kế. T tải mới có tầm 500 url à, đưa file đây t test cho
 
Đọc stream file. đưa ví dụ file text url xem nào :D
Chỉ đơn giản kiểu như này thôi bác, tải về bình thường, ko bị bất kỳ giới hạn gì ạ

domain.com/najhsfn/213141.jpg
domain.com/dsdfds/6643.jpg
domain.com/cxvxvx/634345.jpg
domain.com/w3werw/363453.jpg
domain.com/sdfsf/234324.jpg
 
Dựng 1 hệ thống đi.

Bandwidth network tối đa là bao nhiêu? Trung bình kích thước 1 file là bao nhiêu? Tải 1 file mất khoảng bao lâu giây. Tính sơ bộ xem nào. Nếu ko thì phải thuê server bên ngoài rồi code.

Code xử lý parallel thôi, chia đống url đó ra thành nhiều file, mỗi process xử lý 1 file, lưu vào 1 nơi. Merge lại sau. Cách đơn giản là thế.
Còn phức tạp hơn thì tùy vào hệ thống tới đâu.
 
Back
Top