thảo luận Truyện tàu dịch máy (MTL)

nhưng tôi nghiêng về giả thuyết nhật bản khoa học phát triển, nhật hoá hết các concept khoa học hiện đại, bọn tàu thấy thế bê về dùng, việt mình sau đó ăn lại bọn hán :"> chứ đọc lịch sử đâu thấy người việt rồ nhật thế :/

p/s: mà hàm số lại là của tàu à, trí nhớ tôi kém cũng không chắc lắm, nhưng đợt trước có nghe ai bảo phân số các kiểu là của nhật cơ mà nhỉ?
Theo những gì tôi biết thì tàu nó phiên dịch từ tiếng gốc hoặc tiếng anh trừ khi khái niệm đó là của người nhật đưa ra (vd: moe với trung nhị 萌,中二, manga 漫画,)hoặc là chuyển hẳn thành tiếng trung (anime ( アニメ )--->动画(động họa), ví dụ khác là software - ソフトウェア ( ソフト ) - 软件(nhuyễn kiện) - phần mềm.
Với từ hàm số thì tụi nhật để kanji phiên âm hán là quan số 関数 (かんすう) ; nguồn gốc từ này theo baidu nói là bà Lý Thiện Lan dịch từ cuốn <<đại số học>> (1859) ( Elements of Algebra ) và dịch ra tiếng việt cũng là 'Nhập môn đại số học' lol
 
Chỉ cần tách được dữ liệu danh từ ra khỏi mớ hỗn độn vietphrase, kết hợp với luật nhân như tôi post ở trên là bản cvt đã cực kỳ mượt rồi. Thêm một bước sửa lỗi tv (có regex) nữa thì nuột vô đối, lúc đó các ông muốn thuần việt thế nào cũng được :still_dreaming:

Còn thú thực tôi ko nghĩ tách cả động từ, tính từ là hợp lý, vì vừa tốn thời gian mà chả biết hiệu quả đến đâu (10 năm là ít)
@ Nipin giả sử ông có kha khá dữ liệu danh, động, tính rồi tiếp đến xử lý ngữ pháp ntn ông đã tính đến chưa?

P/s: 10 năm trước tôi cũng nghĩ như ông nhưng tới giờ tôi thấy việc tách danh, động, tính ảo tưởng vl :)

1596133155212.png
 
Chỉ cần tách được dữ liệu danh từ ra khỏi mớ hỗn độn vietphrase, kết hợp với luật nhân như tôi post ở trên là bản cvt đã cực kỳ mượt rồi. Thêm một bước sửa lỗi tv (có regex) nữa thì nuột vô đối, lúc đó các ông muốn thuần việt thế nào cũng được :still_dreaming:

Còn thú thực tôi ko nghĩ tách cả động từ, tính từ là hợp lý, vì vừa tốn thời gian mà chả biết hiệu quả đến đâu (10 năm là ít)
@ Nipin giả sử ông có kha khá dữ liệu danh, động, tính rồi tiếp đến xử lý ngữ pháp ntn ông đã tính đến chưa?

P/s: 10 năm trước tôi cũng nghĩ như ông nhưng tới giờ tôi thấy việc tách danh, động, tính ảo tưởng vl :)

View attachment 134473
sao lại ảo tưởng? việc tách danh động tính là chuyện bình thường trong việc dịch máy mà.

còn về ngữ pháp thì có nhiều chỗ, trên mạng các bài viết về ngữ pháp tiếng trung cũng không ít, làm dần thôi.

p/s: thực ra lúc đầu tôi cũng nghĩ là làm danh động tĩnh phải tử tế, nếu không sẽ nát, nhưng sau đó nghĩ lại cái gọi là danh động tĩnh chẳng qua cũng chỉ là việc chuẩn hoá mấy cụm từ vietphrase (+ luật nhân) thôi cũng chả có gì to tát cả.

nói 10 năm nhưng làm gì cần 10 năm, chỉ cần đánh số mấy động từ hoặc tính từ thường dùng thôi, còn lại phần lớn vẫn là danh từ (tên riêng đại từ các kiểu đều có thể tính là danh từ hết).

thực ra nếu tôi làm fulltime thì tầm 2 tới 3 tháng chắc cũng được sơ sơ, cơ mà hiện tại project chưa ra lợi nhuận tôi cũng không quá hứng thú bỏ riêng 2 3 tháng ra làm cái phần đó không rõ hiệu quả :censored:

dân tình vẫn ưa đọc mỳ ăn liền, thêm từ còn ít nói gì tới vụ khác. hồi trước tôi làm cái tool đơn giản hơn, không có thông tin sách, không có crawl text, chủ yếu là convert xong tra kiểu như QT mà cuối cùng để đó không ai thèm bấm nút convert dù chỉ một lần :(
 
Last edited:
Thế mới nói, trông chờ cộng đồng thì 10, 20 năm nữa cũng chả xong nổi, quen mì ăn liền rồi :whistle:
May ra có cvter bachngocsach nhiệt tâm, cơ mà ... :))
 
tôi nghĩ rất khó xử lý vụ ngữ pháp, khó dã man ý vì để dữ liệu danh, động, tính... hoàn thiện chắc phải mất vài chục năm.
trước tôi có thảo luận bên bns về việc cấu trục dữ liệu của cái QT, tổng kết lại thì thế này:
  • vietphrase 1 chứa danh từ, đại từ nhân xưng và cụm từ có thể chạy với luatnhan
  • vietphrase 2 chứa dữ liệu vp còn lại
  • name 1 chứa tên gọi phổ biến, an toàn ko gây lỗi nghĩa (như mấy thằng họ Vu cực kỳ dễ gây lỗi câu vì từ vu có nghĩa đơn là tại)
  • name 2 chứa tên vớ vẩn, ko an toàn (thự tự ưu tiên ngang vp)
vụ tách dữ liệu động từ, tính từ thì bó tay vì có tách cũng chả biết xử lý thế nào với cái cấu trúc ngữ pháp như lol của bọn tàu.

P/s: share luatnhan tôi đang dùng cho các ong tham khảo, cv lẻ khá mượt (tôi là thằng chủ thớt Ban Lại Lập :v)
http://www.tangthuvien.vn/forum/showthread.php?t=103784
nên dùng 3 hay 1 hả bác
 
thế truyện các ông đọc như pntt, tiên nghịch, đlđl, thần mộ... từ đâu ra, toàn dân phọt phạch mù tiếng trung như tôi vừa nhìn cvt vừa mổ cò đấy.

Ưu tiên cvt giống tiếng việt nhưng khiến nội dụng cvt ra bị sai ngữ nghĩa, câu cú vặn vẹo, đọc ức chế hoặc chả hiểu gì cả thế có thích ko??? chính vì tui từng tham gia dịch à edit truyện nên tui rất sợ những đoạn text nát kiểu như vậy, ngồi tra tra sửa sửa để làm rõ nghĩa câu mất thời gian vkl.

??? Tôi có chê converter đâu nào??? Tôi chỉ nói converter và editor KHÔNG PHẢI LÀ dịch giả thôi.

Sao ông cứ mặc định convert giống tiếng Việt thì câu cú nhất định phải vặn vẹo, sai ngữ nghĩa? Rõ ràng việc để quá nhiều từ đọc theo âm Hán Việt (lưu ý là từ đọc theo âm Hán Việt chứ không phải từ Hán Việt chứ không phải từ Hán Việt) mới khiến cho câu tối nghĩa, khó hiểu mới đúng. Bây giờ tôi phân tích một người đọc convert mới điển hình (tất nhiên không phải tất cả) để ông thấy nhé: dùng tiếng Việt lâu năm (khoảng 15 năm hoặc hơn); ít tiếp xúc hoặc không hề biết tiếng Trung và truyện convert; không hiểu ngữ pháp tiếng Trung; có vốn từ Hán Việt nhất định nhưng không hiểu các từ đọc bằng âm Hán Việt (như lão sư, nguyên lai chẳng hạn).

Bây giờ cậu này sẽ bật convert lên, bắt đầu đọc. Cậu ta nhìn thấy câu đầu tiên:

Nguyên lai cái đó phú nhị đại và cái kia võng hồng đều là của hắn phát tiểu.

Ở đây có những từ này khiến cho cậu ta thắc mắc: "nguyên lai", "phú nhị đại", "võng hồng", "phát tiểu". Trong đa số trường hợp, cậu này là một người không quá kiên nhẫn để tra từng từ, và diễn biến tâm lý đại khái là như thế này: "Ôi cái đ** con m*, ngôn ngữ l*n gì đây, thôi thôi bố mày dí b**i vào đọc cái đống hổ lốn này." Sau đó cậu ta quyết định tắt convert, mở bản dịch Đấu Phá Lung Tung (sai lè) ra để tiếp tục thẩm du.

Đây rõ ràng là một câu chuyện buồn, nhưng vấn đề là nó xảy ra hàng ngày, hàng giờ. Những bản convert quá lạm dụng âm Hán Việt giống như cái sàng sàng hết 99% những người muốn đọc truyện mạng, đá họ trở về với truyện dịch (nơi mà họ phải đặt tính mạng mình trong tay các dịch giả và "dịch giả", ví dụ như dịch giả Đại Niết Bàn chẳng hạn). Nhưng ta hãy giả định cậu này gặp được một converter có tâm, có data tốt và tool tốt được sửa từng phút từng giây, cậu ta sẽ đọc được câu này:

Thì ra cái đó con nhà giàu và cái kia sao Internet đều là của hắn bạn chơi từ nhỏ.

Rõ ràng về mặt ngữ nghĩa thì câu này đúng đến 99%, hơn nữa nó thân thiện với tiếng Việt hơn nhiều. Nhờ những bản convert như này mà cậu bạn của chúng ta chỉ cảm thấy lạ lẫm mỗi phần ngữ pháp, cậu ta quyết định bỏ ra tầm 5p để đọc ngữ pháp tiếng Trung và sau đó đọc truyện ngon lành thay vì hàng giờ ngồi đọc và tra từ vựng (có khi còn sai nghĩa). Rất nhanh, cậu này phát hiện Tiêu Viêm hóa ra cũng chỉ là một thằng óc chó...

Bạn có thể nói, thế nếu người ta chơi chữ thì sao? "Phú nhất đại" chẳng hạn? Tôi có thể khẳng định rằng số trường hợp chơi chữ ít hơn nhiều trường hợp bình thường, và đã gọi là chơi chữ thì không học tiếng Trung có l mà hiểu được, kể cả dân đọc convert lâu năm cũng có lúc hiểu sai, mà nói thật nó đã chơi chữ rồi thì convert 90% là sai.

Quay trở lại với câu chuyện chính ở đây. Tôi khẳng định là khi sửa data, tôi luôn cố gắng xem xét mọi khả năng có thể từ ngữ pháp đến ngữ nghĩa, chẳng hạn như 原来 tôi chia làm 原来 (thì ra) và 原来的 (ban đầu), hai từ được sử dụng trong tiếng Việt hiện đại với tần suất áp đảo "nguyên lai" (gần như chỉ còn trong cổ văn). Trong 99% trường hợp, Việt hóa các từ này sẽ 1) thân thiện với người đọc; 2) không làm thay đổi ngữ nghĩa và ngữ pháp của câu và 3) tránh cho tiếng Việt của người đọc khỏi bị Hán hóa.

P/S: Mà nói riêng vụ Hán hóa này thì có rất nhiều các bạn nhé. Không chỉ Hán hóa mà bạn đọc cái gì sẽ bị cái đấy ảnh hưởng giống như rất nhiều người đang nói tiếng Việt với ngữ pháp tiếng Anh chẳng hạn. Tôi gặp kha khá người dùng từ "bất quá là" trong giao tiếp hàng ngày mà đếch nhận ra có một từ tiếng Việt tương đương là "chẳng qua là" rồi.
 
Last edited:
https://truyen.tangthuvien.vn/doc-truyen/tam-ma#user-discuss

Văn phong âm trầm nặng nề

Thế giới điên loạn, không nhân vật nào bình thường. Nam chính nhập ma, xử lý bất kỳ 1 việc gì nó đều nghĩ tới giết người đầu tiên :waaaht:

Cốt truyện giàu chiều sâu, bí mật của thế giới đc mở từng lớp từng lớp. Sự thật của thế giới khá khủng khiếp, mỗi khi từng tầng bí mật đc tróc ra là cả 1 bi kịch hãi hùng

Nhược điểm buff nam chính quá mức, toàn cái đầu vài nghìn năm mà bị nam chính đùa bỡn trong tay. Trong khi anh chỉ là thằng tâm thần xuyên không, không tình báo không cơ duyên, không hậu trường.. À kết nát như chó nữa

Rất đáng tiếc

Review trên của youshou

Tôi bắt đầu đọc tâm ma đc 1/3 cuốn, viết rất khá bí mật thế giới quá khủng khiếp, khiến đọc giả trợn hết cả mắt lên. Phàm nhân đúng nghĩa heo bò chó lợn

Nhược điểm ờ y như quần chúng đánh giá ko hiểu nam chính nó lấy tình báo từ đâu mà sắp đặt kế hoạch như 1 vị thần ko kẽ hở. Trong khi anh chỉ là 1 thằng tu sĩ bình thường bị phong cấm tu vi, bị truy sát chạy như con chó nhà có tang
 
^ vụ "bất quá là" thì ông bậy rồi. "Bất quá" trong tiếng Việt không phải không có nghĩa, nghĩa nó chỉ khác hoàn toàn nghĩa TQ thôi.
"Không kêu được xe ôm, bất quá (thì) đi bộ"
-> không kêu được xe ôm, cùng lắm (thì) đi bộ"
"Bất quá chết thôi"
-> cùng lắm thì chết thôi != (khác) chẳng qua là chết thôi.
Tóm lại "bất quá" trong tiếng tàu đa số nghĩa là "nhưng", trong khi tiếng Việt là "cùng lắm thì"
 
^ vụ "bất quá là" thì ông bậy rồi. "Bất quá" trong tiếng Việt không phải không có nghĩa, nghĩa nó chỉ khác hoàn toàn nghĩa TQ thôi.
"Không kêu được xe ôm, bất quá (thì) đi bộ"
-> không kêu được xe ôm, cùng lắm (thì) đi bộ"
"Bất quá chết thôi"
-> cùng lắm thì chết thôi != (khác) chẳng qua là chết thôi.
Tóm lại "bất quá" trong tiếng tàu đa số nghĩa là "nhưng", trong khi tiếng Việt là "cùng lắm thì"

Tôi đang nói "bất quá là", không phải "bất quá". :amazed: "Bất quá là" chỉ có nghĩa "chẳng qua là" thôi, chứ đương nhiên tôi biết "bất quá" có nhiều nghĩa.
 
Tôi đang nói "bất quá là", không phải "bất quá". :amazed: "Bất quá là" chỉ có nghĩa "chẳng qua là" thôi, chứ đương nhiên tôi biết "bất quá" có nhiều nghĩa.

Chữ "bất quá" ông sửa thành "nhưng mà" đúng không? Trên chivi ấy.
Nãy giờ tôi đọc thấy nhiều case nghĩa sai bét rồi :burn_joss_stick:
 
Chữ "bất quá" ông sửa thành "nhưng mà" đúng không? Trên chivi ấy.
Nãy giờ tôi đọc thấy nhiều case nghĩa sai bét rồi :burn_joss_stick:

Ờ đúng rồi cái này lỗi tại tôi, để tôi sửa lại thành "bất quá" :beat_brick:

À mà thật ra cũng không phải. Hôm qua có thằng nào sửa 不过 thành "Nhưng mà" nên tôi tiện tay sửa thành "nhưng mà", lúc đấy không để ý lắm. :amazed:
 
Ờ đúng rồi cái này lỗi tại tôi, để tôi sửa lại thành "bất quá" :beat_brick:

Giờ khó nhất không phải ngữ pháp, mà là làm cách nào xử lý mấy từ nhiều nghĩa với tần suất xuất hiện các nghĩa bằng bằng nhau :burn_joss_stick: để nguyên âm Hán Việt thì khó hiểu cho người mới, chọn 1 nghĩa thì các trường hợp nghĩa còn lại trật lất
qZV215Z.png
 
Giờ khó nhất không phải ngữ pháp, mà là làm cách nào xử lý mấy từ nhiều nghĩa với tần suất xuất hiện các nghĩa bằng bằng nhau :burn_joss_stick: để nguyên âm Hán Việt thì khó hiểu cho người mới, chọn 1 nghĩa thì các trường hợp nghĩa còn lại trật lất
qZV215Z.png

Mấy từ khắm khắm kiểu 一样 (giống nhau/bình thường/một dạng) không biết phải sửa thế nào luôn. :cry:
 
Giờ khó nhất không phải ngữ pháp, mà là làm cách nào xử lý mấy từ nhiều nghĩa với tần suất xuất hiện các nghĩa bằng bằng nhau :burn_joss_stick: để nguyên âm Hán Việt thì khó hiểu cho người mới, chọn 1 nghĩa thì các trường hợp nghĩa còn lại trật lất
qZV215Z.png
lại đưa về thời 5 cột 1 từ hán việt đa nghĩa, dùng dấu / để phân chia các nghĩa với nhau :LOL:

tôi nghĩ chịu khó sửa cụm từ dài thôi....community effort mà...
 
Vấn đề là "nhận thức" nó cũng là danh từ (sự nhận thức, hiểu biết, kiến thức) nữa nên sửa thành "biết" nghe không ổn. :sad:
ko kiểu như là aaaa + ***** + bbbb thành bbbb + **** + aaaa, nó có nghĩa trong câu đó thôi
từ ngôn ngữ này đổi ngôn ngữ kia sao chuẩn đc
 
ko kiểu như là aaaa + ***** + bbbb thành bbbb + **** + aaaa, nó có nghĩa trong câu đó thôi
từ ngôn ngữ này đổi ngôn ngữ kia sao chuẩn đc

Thế thì tốn data lắm vì không áp dụng được rộng rãi. Như từ "nhận thức" nhé. Nếu ông sửa "A nhận thức" thành "A biết" thì đến những trường hợp "B nhận thức", "C nhận thức", "XXX nhận thức" lại phải sửa lại lần nữa. :burn_joss_stick:
 
Back
Top