thảo luận Truyện tàu dịch máy (MTL)

hừm, theo luật ngữ pháp mới nhất thì mấy cụm từ kiểu "trên giường", "trong phòng" đều không cần thiết nữa vì mấy cái phương vị từ như "trong", "ngoài", "bên dưới" nó tự quản lý rồi.
tương tự trong vp có một đống rất + tính từ, tính từ + nhất, danh từ + của + danh từ có thể bỏ đi được.

vấn đề là nếu như mọi người đều dùng một mode dịch thì chắc chả sao, nhưng vì cái chức năng này vẫn là experiment cho nên nếu bỏ hết mấy cái cụm từ cũ đi thì không có ngữ pháp sẽ rất lởm.

nghĩ một hồi thì chắc tôi bóc tách những cụm từ không phân loại ra thành một từ điển riêng, tạm gọi là từ điển cho "pleb" :v

nhân tiện thì dự định là có 3 mode dịch:
  • mode 2: áp dụng tất cả các luật ngữ pháp đang implement
  • mode 1: cherry pick vài luật ngữ pháp an toàn không gây ảnh hưởng
  • mode 0: không áp dụng luật ngữ pháp gì cả, thấy "đích", "trứ" thì xoá, còn lại để nguyên

dự định nữa nếu bạn chọn mode dịch là 0 hoặc 1 thì lúc thêm sửa từ nó sẽ lưu vào các từ điển "pleb", không ảnh hưởng tới từ điển có phân loại.

ờ mà chắc cũng phải cân nhắc thêm vụ này. bản thân tôi thấy thì áp dụng ngữ pháp vào đọc vẫn nuột hơn, mặc dù nhiều cụm từ sai.

mà giờ bên dev.chivi.xyz đang để mặc định là mode == 1 đấy, các bạn check hộ tôi nếu thấy ổn thì tôi chuẩn bị deploy sang bản chính dần. nếu không ổn thì delay thêm một tuần tinh chỉnh ngữ pháp :v
 
hừm, theo luật ngữ pháp mới nhất thì mấy cụm từ kiểu "trên giường", "trong phòng" đều không cần thiết nữa vì mấy cái phương vị từ như "trong", "ngoài", "bên dưới" nó tự quản lý rồi.
tương tự trong vp có một đống rất + tính từ, tính từ + nhất, danh từ + của + danh từ có thể bỏ đi được.

vấn đề là nếu như mọi người đều dùng một mode dịch thì chắc chả sao, nhưng vì cái chức năng này vẫn là experiment cho nên nếu bỏ hết mấy cái cụm từ cũ đi thì không có ngữ pháp sẽ rất lởm.

nghĩ một hồi thì chắc tôi bóc tách những cụm từ không phân loại ra thành một từ điển riêng, tạm gọi là từ điển cho "pleb" :v

nhân tiện thì dự định là có 3 mode dịch:
  • mode 2: áp dụng tất cả các luật ngữ pháp đang implement
  • mode 1: cherry pick vài luật ngữ pháp an toàn không gây ảnh hưởng
  • mode 0: không áp dụng luật ngữ pháp gì cả, thấy "đích", "trứ" thì xoá, còn lại để nguyên

dự định nữa nếu bạn chọn mode dịch là 0 hoặc 1 thì lúc thêm sửa từ nó sẽ lưu vào các từ điển "pleb", không ảnh hưởng tới từ điển có phân loại.

ờ mà chắc cũng phải cân nhắc thêm vụ này. bản thân tôi thấy thì áp dụng ngữ pháp vào đọc vẫn nuột hơn, mặc dù nhiều cụm từ sai.

mà giờ bên dev.chivi.xyz đang để mặc định là mode == 1 đấy, các bạn check hộ tôi nếu thấy ổn thì tôi chuẩn bị deploy sang bản chính dần. nếu không ổn thì delay thêm một tuần tinh chỉnh ngữ pháp :v
Nói chung là cũng ổn. Chỉ có là vẫn đang lăn tăn vụ tính từ - trạng từ. :nosebleed:

Giá kể cấu trúc [tính từ][động từ] nào cũng có "địa" ở giữa thì tốt. Trạng động có thể đảo thành động trạng, cơ mà tính động đảo thành động tính nhiều khi đọc cứ chuối chuối.

Ờ còn cái danh từ ghép nữa. Hiện tại chưa có ghép các danh từ liền kề nên thường thường ngữ pháp chỉ lấy danh từ đầu hoặc cuối, điển hình là tên Nhật có hai bộ phận AB XY chẳng hạn, lại phải nhiều ra một đống entry khá thừa thãi kiểu AB đồng học, AB tiểu ca, XY tỷ tỷ.

Mà nếu ghép danh từ lại thì ghép đến đâu, ghép vào rồi có đảo AB thành BA không cũng phải nghĩ đến. Thế mới khắm. :sad:

Giờ tôi đọc truyện thấy cụm nào sai là tiện tay save lại luôn, đợi nhiều nhiều rồi quăng lên nghĩ cách fix một thể.
 
@Nipin dev.chivi mất phần đăng nhập rồi này.
BdgiW7R.png

1626768971076.png
 
Nói chung là cũng ổn. Chỉ có là vẫn đang lăn tăn vụ tính từ - trạng từ. :nosebleed:

Giá kể cấu trúc [tính từ][động từ] nào cũng có "địa" ở giữa thì tốt. Trạng động có thể đảo thành động trạng, cơ mà tính động đảo thành động tính nhiều khi đọc cứ chuối chuối.

Ờ còn cái danh từ ghép nữa. Hiện tại chưa có ghép các danh từ liền kề nên thường thường ngữ pháp chỉ lấy danh từ đầu hoặc cuối, điển hình là tên Nhật có hai bộ phận AB XY chẳng hạn, lại phải nhiều ra một đống entry khá thừa thãi kiểu AB đồng học, AB tiểu ca, XY tỷ tỷ.

Mà nếu ghép danh từ lại thì ghép đến đâu, ghép vào rồi có đảo AB thành BA không cũng phải nghĩ đến. Thế mới khắm. :sad:

Giờ tôi đọc truyện thấy cụm nào sai là tiện tay save lại luôn, đợi nhiều nhiều rồi quăng lên nghĩ cách fix một thể.
vụ ghép danh từ thì đang cân nhắc, chắc là ghép được nhiều hơn:
  • địa danh ghép với tổ chức
  • tổ chức ghép với tên người
  • tên người ghép với danh xưng (tỷ tỷ, đại ca, hiệu trưởng các kiểu đều là danh xưng)

kiểu này có thể tôi sẽ thêm một cái nữa là tộc danh, đặt đằng trước tên người nữa.

nói đến thì vụ phân loại từ này bên tàu cũng mỗi thằng một kiểu, không có phân loại chính xác, lại toàn tiếng tàu tôi cũng toàn đọc lướt.

tôi trước định là cứ ngâm đấy phát triển tới lúc ổn thì mới release mà giờ nghĩ lại rồi, để lâu mốc, với sức một người chả bao giờ ăn thua. chắc cố xem cái gì acceptable thì đẩy dần lên, rồi làm chức năng diễn đàn tạo project mọi người cùng phát triển.
 
vụ ghép danh từ thì đang cân nhắc, chắc là ghép được nhiều hơn:
  • địa danh ghép với tổ chức
  • tổ chức ghép với tên người
  • tên người ghép với danh xưng (tỷ tỷ, đại ca, hiệu trưởng các kiểu đều là danh xưng)

kiểu này có thể tôi sẽ thêm một cái nữa là tộc danh, đặt đằng trước tên người nữa.
Nghe hợp lý phết, giải quyết được kha khá danh từ, nhất là cái danh xưng.

Bao giờ gom được lại hết một câu thành 2 cục danh từ và động từ thì đúng chuẩn là engine trong mơ. Nhiều từ loại nữa cũng chỉ xoay quanh hai thằng này. :big_smile:
 
đã deploy lên chivi.xyz, khả năng sẽ kém hơn chút vì tôi bỏ hết các cụm từ không có trong các từ điển cho gọn (vẫn còn nếu đổi mode vê 1).

thường thì không sao nhưng một số cụm từ sử lý đặc biệt sẽ mất, cần thêm lại sau....

à mà tôi vẫn giữ lại đống từ nhập của các bạn, mặc dù muốn xoá sạch hết. vãi chưởng mấy cụm từ dài cả mét, lại tên riêng mà cứ nhét vào từ điển chung làm gì, mấy cái đó các bộ khác có dùng đâu, nhét vào từ điển từng truyện đi cho nó dễ quản lý :(

... nói mới nhớ bạn toomspaet kiểu quái gì input toàn có ký tự rác ở đầu, mây cái mới tôi đã xoá (sửa luôn trong code) mà mấy cái cũ quên mất chưa xoá, haizz :confused:
 
Well, tôi hỏi ntn:

trong truyện tôi đang đọc có cụm từ "奔驰",có hai nghĩa...

Nghĩa 1 là Động tính từ: "chạy vội, chạy nhanh"

Nghĩa 2 là Tên riêng: "Benz"....

Engine mới có fix đc cái này không? Không thì tôi bỏ ko sửa cụm từ này nữa, để ghép nó lại với những cái đằng sau.

Edit: Lỗi engine thì phải, các cụm từ viết tắt, ví dụ như "Ha - 40" bị chuyển thành "H a-40"; tự động chèn dấu cách ko rõ nguyên nhân....

tìm ra vấn đề rồi, nguyên cụm là "Ha-40 phát động cơ", engine tự chuyển cụm đằng sau (40 phát động cơ) thành "40 động cơ", nên nó tự break cụmđằng trước ra từ riêng. Cái này phải chờ function "từ ghép với danh từ" mới sửa đc.

Có vẻ engine dạng 3 (Nâng cao) đang gặp vấn đề với việc tự động ghép từ.

Cụm từ "10 phân chung", ở Engine cũ sẽ là "10 phút". Giờ nó auto chuyển thành "10 phân chung"; do cụm 10 phân bị detect thành từ ghép.

1626828618560.png
 
Last edited:
Well, tôi hỏi ntn:

trong truyện tôi đang đọc có cụm từ "奔驰",có hai nghĩa...

Nghĩa 1 là Động tính từ: "chạy vội, chạy nhanh"

Nghĩa 2 là Tên riêng: "Benz"....

Engine mới có fix đc cái này không? Không thì tôi bỏ ko sửa cụm từ này nữa, để ghép nó lại với những cái đằng sau.

Edit: Lỗi engine thì phải, các cụm từ viết tắt, ví dụ như "Ha - 40" bị chuyển thành "H a-40"; tự động chèn dấu cách ko rõ nguyên nhân....

tìm ra vấn đề rồi, nguyên cụm là "Ha-40 phát động cơ", engine tự chuyển cụm đằng sau (40 phát động cơ) thành "40 động cơ", nên nó tự break cụmđằng trước ra từ riêng. Cái này phải chờ function "từ ghép với danh từ" mới sửa đc.
vụ benz thì khá khó, cơ bản thì lựa chọn theo bộ thôi. tất nhiên cũng có thể detect dc nhưng tôi cần nhiều sample.

bạn nào muốn thêm special case cho từ nào thì cứ tìm cho tôi tầm 10 cái sample tôi xem có quy luật không rồi cho vào, chứ bảo tôi tìm thì khác nào bỏ gốc lấy ngọn.

ờ vụ cụm từ tiếng anh thì cũng chưa xử lý đâu nhé, trong code vẫn là todo.
cái ha-40 kia khả năng cao là sẽ dc gộp lại thành một từ đấy.

nói chung tôi cần thêm 1 2 buổi nữa để hoàn thiện cái máy dịch, nhưng mà tôi muốn đẩy dần đống feature đang nằm mốc trong máy cho nên cứ push lên tính sau :v
có lỗi thì mới có động lực mà sửa, không thì tôi cũng cứ để đấy :(
 
ừ cứ push lên đi, tôi dùng quen thằng chivi r nên lười qua dev xD. Cứ deploy lên r tôi đọc tìm lỗi cho.
 
à mà thực ra thì cái máy dịch này còn một phiên bản dự định v3 nữa, cho phép thay đổi nghĩa của từ dựa theo phân loại từ, ví dụ 奔驰 khi là tên riêng thì là benz, khi là tính từ thì là "băng băng", hoặc là mấy từ dạng danh động từ thì khi là danh từ cần thêm "sự" đằng trước.

nhưng mà làm cái này cần thay đổi cấu trúc của từ điển, khá lằng nhằng tốn công cho nên tôi tạm thời để sau.
 
... đệt đọc comment nhớ ra có đống lượng số từ chưa xoá.
bản thân engine của chivi nó ghép được rồi mấy cái dạng 10 phút kia cho vào thành sai.

đợi chiều sửa :v

p/s: mà sửa luôn vậy, ghi đè lên các file cũ luôn sorry các bạn :v
 
Last edited:
suggest trong engine ghép từ:

số lượng + đa -> chuyển thành hơn + số lượng.

ví dụ:

"650多名精英" -> hiện tại là "650 tên tinh anh nhiều"

"就是850多个优秀飞行员" -> hiện tại là "850 cái phi công ưu tú nhiều".....
 
suggest trong engine ghép từ:

số lượng + đa -> chuyển thành hơn + số lượng.

ví dụ:

"650多名精英" -> hiện tại là "650 tên tinh anh nhiều"

"就是850多个优秀飞行员" -> hiện tại là "850 cái phi công ưu tú nhiều".....

Ừ cái này cũng đang trong backlog, đi kèm với số từ có vài từ như gần, hơn, khoảng...

Sent from HUAWEI COR-L29 using vozFApp
 
Thêm một vấn đề nữa là khi ghép từ bằng chế độ "nâng cao" trong engine mới, chế độ này bypass toàn bộ từ đã đưa vào trong từ điển, kể cả từ điển chung, từ điển riêng, mà nó bốc nguyên cụm hán việt.
ông có thể check bộ này: https://chivi.xyz/~quat-khoi-chi-de-tam-de-quoc-mvrwv4p4/-chuong-961-vi-khuan-chien-bon-zxcs_me-966.

Cụm tôi đang sửa là "阿玛克那克岛和乌纳拉斯卡岛" = " đảo Amaknak cùng đảo Unalaska"

Tôi đã thêm cả "阿玛克那克岛" = đảo Amaknak; "阿玛克那克" = Amaknak; "乌纳拉斯卡岛" = "đảo Unalaska"; "乌纳拉斯卡" = "Unalaska" vào cả từ điển chung/từ điển riêng, nhưng khi chuyển sang chế độ "tiêu chuẩn"/"nâng cao" thì engine vẫn tự chuyển sang Hán việt.


Cơ bản.

1626831019876.png


Tiêu chuẩn:

1626831052098.png


Nâng cao:

1626831087334.png


Chế độ nâng cao còn ghép sai nữa, vì trước cụm danh từ có giới từ "tại", nhưng tôi nghĩ cái này fix sau được. Cái cần thiết hơn là ghép từ điển vào trong chế độ ghép từ.
 
Tôi đã thêm cả "阿玛克那克岛" = đảo Amaknak; "阿玛克那克" = Amaknak; "乌纳拉斯卡岛" = "đảo Unalaska"; "乌纳拉斯卡" = "Unalaska" vào cả từ điển chung/từ điển riêng, nhưng khi chuyển sang chế độ "tiêu chuẩn"/"nâng cao" thì engine vẫn tự chuyển sang Hán việt.
Ờ cái này chắc là tại mấy từ ông thêm vào là từ điển cơ bản, còn cái đống [seed] là từ điển ngữ pháp, nên bật ngữ pháp lên nó lấy ở từ điển kia?

Check thử phát ở page 77:

https://chivi.xyz/dicts/mvrwv4p4?page=77
 
Chắc vậy rồi.
Well, đã tìm ra đc phương pháp giải quyết nhanh gọn nhẹ: Xoá hết entry có tag [seed] đi là xong"
 
Back
Top