thảo luận Truyện tàu dịch máy (MTL)

Mấy trăm chương thêm tay đến bao giờ.
BdgiW7R.png


Ngồi rảnh viết cái mini script thấy chỗ nào có (第[0-9]+章) thì replace thành ///(第[0-9]+章), làm một mẻ khỏe cả đời.

Ừ mà lại phải tra regex chữ hán, lười vcl.
yBBewst.png
(\u7B2C[0-9]+\u7AE0)

đã test, coi như tôi siêng đi...
nhưng cách này có nhược điểm là không thêm được cho đơn chương, thành ra đơn chương sẽ dính vào chương ngay phía trước...
 
@Nipin bug detected.

Do match & replace để thêm 3 xoẹt bằng regex mà tôi quên thêm một cái \n trước \1 nên nó nhận tên chương thành nhãn quyển, cái này lỗi tôi
lol.gif

Nhưng sau khi tôi sửa lại rồi thêm lại thì, well, các chương vẫn được cập nhật, vào đọc thì thấy đúng, nhưng mục lục và số chương thì không được cập nhật (cả đánh số và tên chương...)?
1627959497460.png

1627959514691.png

đã thêm tới chương 197, next next next vẫn tới được nhưng mục lục chỉ hiện tới 256, cả đếm số chương cũng mới đếm tới 228...
1627959591908.png

1627959691856.png

Link: https://chivi.xyz/-la-ly-dung-gia-tu-duong-nhat-5kvk/
 
^: ghi đè được nhé, cứ nhập lại dữ liệu cũ, sửa cái số chương cho đúng, bấm lưu nó sẽ đè lại.

... à vụ vẫn hiện thông tin cũ, là do tôi có lưu thông tin dịch chương ở chỗ khác.
cái này chỉ cần xoá đi thôi.

đợi chút tôi xoá, đống dịch tên chương cũng bị lỗi thời rồi, xoá hết cho nó build lại :)
 
^: ghi đè được nhé, cứ nhập lại dữ liệu cũ, sửa cái số chương cho đúng, bấm lưu nó sẽ đè lại.

... à vụ vẫn hiện thông tin cũ, là do tôi có lưu thông tin dịch chương ở chỗ khác.
cái này chỉ cần xoá đi thôi.

đợi chút tôi xoá, đống dịch tên chương cũng bị lỗi thời rồi, xoá hết cho nó build lại :)

Thì tôi biết ghi đè được mà, tôi đang nói vụ ghi đè xong mục lục không cập nhật ấy :v
Anh biết được chỗ nào rồi thì ok 👌
//đã thấy tên chương cập nhật nhưng số chương ở mục lục + paging bar vẫn chưa cập nhật đủ...
 
Thì tôi biết ghi đè được mà, tôi đang nói vụ ghi đè xong mục lục không cập nhật ấy :v
Anh biết được chỗ nào rồi thì ok 👌
đã xoá hết cái đống dịch chương, check thử xem còn lỗi không.
vụ tự xoá thì sửa rồi nhưng chưa test, thử lại hộ tôi các bước cũ xem còn lỗi không, còn thì để tôi đào tiếp.

vụ này tôi cũng biết từ đầu là error prone, mà vì logic khá phức tạp nên cũng chưa làm tử tế được :confused:
 
đã xoá hết cái đống dịch chương, check thử xem còn lỗi không.
vụ tự xoá thì sửa rồi nhưng chưa test, thử lại hộ tôi các bước cũ xem còn lỗi không, còn thì để tôi đào tiếp.

vụ này tôi cũng biết từ đầu là error prone, mà vì logic khá phức tạp nên cũng chưa làm tử tế được :confused:

đã thấy tên chương cập nhật nhưng số chương ở mục lục + paging bar vẫn chưa cập nhật đủ...
để chờ 10p nữa tôi thêm đè lại phát nữa xem có cập nhật không
 
đã thấy tên chương cập nhật nhưng số chương ở mục lục + paging bar vẫn chưa cập nhật đủ...
để chờ 10p nữa tôi thêm đè lại phát nữa xem có cập nhật khôngd
à tôi vừa sửa xong lỗi nữa, nếu mà số chương bắt đầu nhỏ hơn tổng thì nó không cập nhật chap_count, vừa sửa lại là số đầu + số các chương - 1 > chap_count thì cập nhật :)

đợi vài phút để nó build xong test lại nhé :)

nói chung vấn đề vẫn ở text thì tôi lưu ở trong ổ, thông tin thì tôi lưu trên database, nhiều khi nó không đồng bộ :">

p/s: đã build xong. tôi hiện tại dùng con server amd ryzen 3900x, build cũng nhanh, không như cái trước dùng xeon đời tống, ngồi đợi 10 phút không xong.

mà các bạn dùng script gì dị vậy, tôi dùng đủ các ngôn ngữ thì đều hỗ trợ regex với unicode character mà?
chứ mỗi lần động đến tiếng tàu mà phải đi đổi sang codepoint thì tôi bỏ code chivi lâu rồi :v
 
Last edited:
mà các bạn dùng script gì dị vậy, tôi dùng đủ các ngôn ngữ thì đều hỗ trợ regex với unicode character mà?
chứ mỗi lần động đến tiếng tàu mà phải đi đổi sang codepoint thì tôi bỏ code chivi lâu rồi :v
tôi dùng thẳng unicode char mà, script bằng python
Python:
added = re.sub(r'(第[0-9]+章)', r'////\n\1', fr.read())
chả biết anh tôm tép dùng gì mà cần code point nên quăng lên hộ thôi
anh thử xem cách này độ áp dụng cao không, hiện tại thì tôi thấy áp dụng được cho tất cả text đánh tên chương dạng (第[0-9]+章), nếu đánh số chương bằng chữ thì đổi tí là được. Nhược điểm là không thêm được cho đơn chương...
regex 2 newline khó áp dụng cho mấy file text không format chuẩn...ngay cả cách trên kia mà vẫn đánh sót vài chương do vài chương thiếu 第 trước số chương, damn...
 
tôi dùng thẳng unicode char mà, script bằng python
Python:
added = re.sub(r'(第[0-9]+章)', r'////\n\1', fr.read())
chả biết anh tôm tép dùng gì mà cần code point nên quăng lên hộ thôi
anh thử xem cách này độ áp dụng cao không, hiện tại thì tôi thấy áp dụng được cho tất cả text đánh tên chương dạng (第[0-9]+章), nếu đánh số chương bằng chữ thì đổi tí là được. Nhược điểm là không thêm được cho đơn chương...
regex 2 newline khó áp dụng cho mấy file text không format chuẩn...ngay cả cách trên kia mà vẫn đánh sót vài chương do vài chương thiếu 第 trước số chương, damn...
nói chung muốn chia chương tử tế không dễ đâu, đây là cái script tôi chia chương cho cái nguồn zxcs.me này, cái nguồn này nó còn khá lắm rồi, text có chỉnh sửa, mà vẫn 400 dòng.

https://github.com/np-nam/chivi/blob/master/tasks/zxcsme/split_chaps.cr

mà cái script này là interactive, mỗi lần chạy nếu thấy có vấn đề nó còn prompt ra lựa chọn để tôi sửa tay chạy lại nhé. gớm làm cái này mới thấy là nhiều thằng cũng ngộ nhận là 第 là đầu chương, break lung tung kể cả mấy chỗ như tiết thứ nhất (tiết học), sửa phát ói.

text của các trang random khác thì thôi khỏi nói :v
 
nói chung muốn chia chương tử tế không dễ đâu, đây là cái script tôi chia chương cho cái nguồn zxcs.me này, cái nguồn này nó còn khá lắm rồi, text có chỉnh sửa, mà vẫn 400 dòng.

https://github.com/np-nam/chivi/blob/master/tasks/zxcsme/split_chaps.cr

mà cái script này là interactive, mỗi lần chạy nếu thấy có vấn đề nó còn prompt ra lựa chọn để tôi sửa tay chạy lại nhé. gớm làm cái này mới thấy là nhiều thằng cũng ngộ nhận là 第 là đầu chương, break lung tung kể cả mấy chỗ như tiết thứ nhất (tiết học), sửa phát ói.

text của các trang random khác thì thôi khỏi nói :v
mẹ nhìn tởm thế, nguồn khá chuẩn mà handle cả đống case thế kia :surrender:
 
tôi dùng thẳng unicode char mà, script bằng python
Python:
added = re.sub(r'(第[0-9]+章)', r'////\n\1', fr.read())
chả biết anh tôm tép dùng gì mà cần code point nên quăng lên hộ thôi
anh thử xem cách này độ áp dụng cao không, hiện tại thì tôi thấy áp dụng được cho tất cả text đánh tên chương dạng (第[0-9]+章), nếu đánh số chương bằng chữ thì đổi tí là được. Nhược điểm là không thêm được cho đơn chương...
regex 2 newline khó áp dụng cho mấy file text không format chuẩn...ngay cả cách trên kia mà vẫn đánh sót vài chương do vài chương thiếu 第 trước số chương, damn...
Đậu mợ vừa thử lại thì đúng là được thật. :amazed: Trước giờ không để ý vụ này lắm.

Nhưng mà dù sao cũng cảm ơn vì tìm code point hộ tôi. :sweet_kiss:
 
Anh thêm tính từ sợ sáng thì đúng rồi, tôi cũng định thêm. Nhưng tại sao cụm kia nó lại xử lý thành vậy :burn_joss_stick:
vì chỗ đó nó có 4 5 cái nodes phải gộp thành 1 node (mỗi node là một cụm từ), gộp trái hay gộp phải nhầm là nó lỗi ngay do nó là double linked list :) mấy cái này thì phải đợi tôi nốc nước tăng lực thì may ra mới debug dc :">

mà tới giờ ngủ của tôi rồi, đợi tối nhé :)
 
à mà mới nhớ ra, tôi sau khi nghĩ vài ngày thì thấy việc thêm từ điển riêng cho mỗi người cũng khá hợp lý.

bây giờ cái chỗ hiển thị lịch sử thêm từ sẽ thành cái radiobox 3 option là: từ điển cơ bản, từ điển nâng cao với từ điển cá nhân.
2 cái đầu thì tương ứng với 2 chế độ dịch cơ bản và nâng cao, các bạn không phải mất công đổi chế độ dịch để sửa từ nữa. cái thứ 3 cá nhân thì có 2 tác dụng: cho các bạn quyền hạn cao thì là chỗ để thử xem mình thêm từ có hợp lý hay không, với các bạn quyền hạn thấp (yêu cầu quyền hạn sẽ giảm 1 so với 2 cái kia) thì là cơ hội để thử nghiệm tính năng mà không ảnh hưởng tới người khác :)

cũng ổn :D

ừ vấn đề bây giờ là cái lịch sử dịch nhét chỗ nào... các bạn không để ý chứ cái phần nghĩa việt nó nằm chính giữa cái hộp thoại luôn, cùng lắm là lệch 1px do border. giờ thêm một line nữa nó lệch khó chịu vãi :confused:
 
à mà mới nhớ ra, tôi sau khi nghĩ vài ngày thì thấy việc thêm từ điển riêng cho mỗi người cũng khá hợp lý.

bây giờ cái chỗ hiển thị lịch sử thêm từ sẽ thành cái radiobox 3 option là: từ điển cơ bản, từ điển nâng cao với từ điển cá nhân.
2 cái đầu thì tương ứng với 2 chế độ dịch cơ bản và nâng cao, các bạn không phải mất công đổi chế độ dịch để sửa từ nữa. cái thứ 3 cá nhân thì có 2 tác dụng: cho các bạn quyền hạn cao thì là chỗ để thử xem mình thêm từ có hợp lý hay không, với các bạn quyền hạn thấp (yêu cầu quyền hạn sẽ giảm 1 so với 2 cái kia) thì là cơ hội để thử nghiệm tính năng mà không ảnh hưởng tới người khác :)

cũng ổn :D

ừ vấn đề bây giờ là cái lịch sử dịch nhét chỗ nào... các bạn không để ý chứ cái phần nghĩa việt nó nằm chính giữa cái hộp thoại luôn, cùng lắm là lệch 1px do border. giờ thêm một line nữa nó lệch khó chịu vãi :confused:

Trên cơ bản là thêm 1 cái từ điển với độ ưu tiên cao hơn và chỉ áp dụng cho bản thân?
Giải pháp hợp lý, vừa cá nhân hóa ngữ nghĩa theo ý thích, không ảnh hưởng người khác, vừa nhẹ hơn so với mỗi từ điển riêng hoàn toàn cho mỗi người.
Nhưng mà tôi cảm thấy chivi càng ngày càng không user friendly rồi...quan ngại nhẹ cho anh
 
vì chỗ đó nó có 4 5 cái nodes phải gộp thành 1 node (mỗi node là một cụm từ), gộp trái hay gộp phải nhầm là nó lỗi ngay do nó là double linked list :) mấy cái này thì phải đợi tôi nốc nước tăng lực thì may ra mới debug dc :">

mà tới giờ ngủ của tôi rồi, đợi tối nhé :)

穿梭时空的装置
蹭一下丈夫的脸庞
Lỗi tương tự
 
Last edited:
https://api.yousuu.com/api/book/1/booklist
ngon, endpoint của booklist khá đơn giản :)
có nhiều cái endpoint khác nhưng cái này là tốt nhất bây giờ rồi, vì có thể dựa vào book_id có sẵn :)

đợi tôi rảnh implement :)

... à mà vẫn không ổn, muốn link book list tới review vẫn phải chạy lại lần nữa, haizz :confused:
 
Back
Top