thảo luận Truyện tàu dịch máy (MTL)

Dạo này đang hứng đọc mấy cái paper ngôn ngữ học thì một số ông bảo tiếng Việt không có từ loại, vì không có dấu hiệu cụ thể để nhận biết (vị trí, từ đi kèm, etc).

Khả năng tiếng khựa cũng vậy, dị vãi cả đái. :sad:
tiếng khựa dễ hơn, ít nhất thì nó có tượng hình, không như việt phải dùng chung từ.

tôi nhớ tiếng việt khó parse đến nỗi ngày xưa từng đề-xuất viết tiếng-việt kiểu thế-này :))

p/s: nói đến vụ tiếng việt lại nhớ mấy thằng khùng định tối giản mấy âm c k q của tiếng việt. đậu mợ để nguyên đã khó chơi lại còn gộp lại, đúng là não to :censored:
 
mà có khi lấy discord là trang trao đổi chính, thông báo chức năng mới, report bug, feature request các kiểu đều hoạt động trong đó luôn các bạn nhỉ?

tôi thì không ưa discord do nó tới giờ vẫn không hỗ trợ font tiếng việt, cơ mà giờ chưa có forum thì nên có chỗ để sinh hoạt :confused:

ý kiến của các bạn thế nào @ToomSpaet @eet789
 
nói đến vụ tiếng việt lại nhớ mấy thằng khùng định tối giản mấy âm c k q của tiếng việt. đậu mợ để nguyên đã khó chơi lại còn gộp lại, đúng là não to :censored:
Cuối cùng vẫn bị bash còn gì. Rảnh háng vãi, đang tường minh đéo thích lại thích clg thống nhất chữ viết theo ngữ âm học. :haha:
 
mà có khi lấy discord là trang trao đổi chính, thông báo chức năng mới, report bug, feature request các kiểu đều hoạt động trong đó luôn các bạn nhỉ?

tôi thì không ưa discord do nó tới giờ vẫn không hỗ trợ font tiếng việt, cơ mà giờ chưa có forum thì nên có chỗ để sinh hoạt :confused:

ý kiến của các bạn thế nào @ToomSpaet @eet789
Sao cũng đc :LOL:
 
Có cách nào bỏ từ k anh, thấy nó dư ra mà k cách nào ẩn đi đc
// move sang bên này cho đỡ offtopic

vụ ẩn từ trước thì có, giờ thì bỏ rồi.

vấn đề ở đây là trang chivi có nhiều người dùng, người này nhập linh tinh thì sẽ ảnh hưởng đến người khác. mấy cái khác thì nhìn được trên màn hình còn đỡ, mấy cái dạng xoá hẳn đi thì rất khó phát hiện.

à mà một số bổ ngữ bị dư thì đợi dần dần tôi bổ sung hết mấy từ ngữ thông dụng thì sẽ đỡ bớt.
 
Như trong hình này là sao vậy thím, đăng nhập rồi mà vẫn không thấy hiện chương truyện
 

Attachments

  • Screenshot_2021-06-10-17-39-58-290_com.opera.browser.jpg
    Screenshot_2021-06-10-17-39-58-290_com.opera.browser.jpg
    216.7 KB · Views: 56
Như trong hình này là sao vậy thím, đăng nhập rồi mà vẫn không thấy hiện chương truyện
mấy cái truyện từ qq, faloo, ciweimao thì thường không có text đâu. chỉ có qidian mới có text nhiều vì đây là trang nổi tiếng.

mà đặt là chivi có vẻ dễ gây hiểu nhầm, đang cân nhắc đổi tên.

// mà tôi đang tập trung làm một cái css framework (build ui chivi dùng cái này), chưa có thời gian quay lại phát triển chivi, các bạn kiên nhẫn đợi vài tuần :v

ừ làm xong rồi thì sẽ quay lại cải thiện dc giao diện chivi cho nó ngon nghẻ hơn, cũng dễ phát triển hơn :">
 
à mà tôi vừa tìm hiểu tiếp thì tàu đang bắt đầu phân loại từ rồi thì phải, dạng thế này:

Code:
	n   普通名词
	nt  时间名词
	nd  方位名词
	nl  处所名词
	nh  人名
	nhf 姓
	nhs 名
	ns  地名
	nn  族名
	ni  机构名
	nz  其他专名
	v   动词
	vd  趋向动词
	vl  联系动词
	vu  能愿动词
	a   形容词
	f   区别词
	m   数词  
	q   量词
	d   副词
	r   代词
	p   介词
	c   连词
	u   助词
	e   叹词
	o   拟声词
	i   习用语
	j   缩略语
	h   前接成分
	k   后接成分
	g   语素字
	x   非语素字
	w   标点符号
	ws  非汉字字符串
	wu  其他未知的符号

keyword là 中文的标注语料库, bạn nào rảnh tìm mấy kho số liệu hộ với :">

search qua ra dc cái này https://www.jianshu.com/p/206caa232ded mà link đã chết :(
 
à mà tôi vừa tìm hiểu tiếp thì tàu đang bắt đầu phân loại từ rồi thì phải, dạng thế này:

Code:
    n   普通名词
    nt  时间名词
    nd  方位名词
    nl  处所名词
    nh  人名
    nhf 姓
    nhs 名
    ns  地名
    nn  族名
    ni  机构名
    nz  其他专名
    v   动词
    vd  趋向动词
    vl  联系动词
    vu  能愿动词
    a   形容词
    f   区别词
    m   数词  
    q   量词
    d   副词
    r   代词
    p   介词
    c   连词
    u   助词
    e   叹词
    o   拟声词
    i   习用语
    j   缩略语
    h   前接成分
    k   后接成分
    g   语素字
    x   非语素字
    w   标点符号
    ws  非汉字字符串
    wu  其他未知的符号

keyword là 中文的标注语料库, bạn nào rảnh tìm mấy kho số liệu hộ với :">

search qua ra dc cái này https://www.jianshu.com/p/206caa232ded mà link đã chết :(
Nhiều label thế. :ops:

Mà cái cuối còn là "loại khác chưa biết." :ops:
 
Nhiều label thế. :ops:

Mà cái cuối còn là "loại khác chưa biết." :ops:
cái này là nhãn phân loại từ thôi, mình cũng chả cần dùng hết.

mấy cái này dùng cho NLP (natural language processing), aka AI ML, aka cho rân chơi thứ thiệt, bên mình thì tôi nghĩ chủ yếu vẫn là thêm danh từ là chính, mấy cái khác thì chắc đi tìm xem chỗ nào có phân loại sẵn.

lý tưởng thì vất vả 1 2 tháng phân loại dc hết các từ cơ bản, còn lại về sau hầu như chỉ nhập tên riêng thôi chả tốn efford mấy :)
 
search google thì cũng ra dc vài cái vớ vẩn, kiểu cái này nó có đánh dấu từ cho bài báo nào đó thì phải:

https://raw.githubusercontent.com/liwenzhu/corpusZh/master/corpus/corpus_一_20140804162433.txt
Baidu thử xem. Mà nếu là cách phân loại mới trong vòng 2-3 năm thì khả năng là không có, vì muốn có dữ liệu phải thuê người đánh nhãn thủ công (bọn BATX có hẳn vài trung tâm chỉ làm cái này) rất tốn tiền, có public cũng chỉ là hàng hết date.

Chưa kể làm thủ công và thường không tập trung vào mảng tiểu thuyết nên chưa chắc data đã clean...
 
Baidu thử xem. Mà nếu là cách phân loại mới trong vòng 2-3 năm thì khả năng là không có, vì muốn có dữ liệu phải thuê người đánh nhãn thủ công (bọn BATX có hẳn vài trung tâm chỉ làm cái này) rất tốn tiền, có public cũng chỉ là hàng hết date.

Chưa kể làm thủ công và thường không tập trung vào mảng tiểu thuyết nên chưa chắc data đã clean...
mình chỉ cần chạy trên đống dữ liệu có sẵn thôi mà, chứ giờ sơ sơ 200k entries tôi check bao giờ cho hết :v

mà nói mới nhớ, tôi cũng cần cái wordlist để lọc mất mấy cụm từ chúng nó thêm bừa vào vietphrase, mấy cái này xoá 5 năm không hết :confused:
 
ngon rồi, đã download dc cái dữ liệu nhân dân nhật báo 2014, file to 116MB chắc cũng có kha khá dữ liệu (mặc dù lặp lại chắc tương đối)... nghe bảo bản 1998 chuẩn hơn nhưng mà hết hạn download mỗi ngày rồi mai tính :D
 
đã hoàn thành việc thay thế thằng kemal bằng thằng amber, giảm bớt một gánh nặng :D

vừa deploy lên https://dev.chivi.xyz/, bạn nào rảnh check hộ xem có chỗ nào lỗi không, ngày kia tôi rảnh thì đẩy lên server chính :)
 
Đang test feature mới hay gì mà có cái bug log vào xong refresh lại thành acc khác rồi.
BdgiW7R.png


1624354460189.png


F5 một phát thành:

1624354491671.png


Nhân tiện đây là acc của ai thì yên tâm là tôi out ra rồi nhé.
 
Đang test feature mới hay gì mà có cái bug log vào xong refresh lại thành acc khác rồi.
BdgiW7R.png


View attachment 613464

F5 một phát thành:

View attachment 613466

Nhân tiện đây là acc của ai thì yên tâm là tôi out ra rồi nhé.
không phải đâu, vẫn đúng acc nhưng mà hiện nhầm thôi =) xem lịch sử là biết

mà vừa sửa xong refresh cái xem nào?

giải thích kỹ hơn thì sau khi đăng nhập vào thì nó sẽ trả về một cái cookie, dạng random string thế này: "90ljfs9xcvlj=cxlvj234"... tôi lấy luôn nó làm unique key để lưu thông tin người dùng.

vấn đề là lúc tôi split cookie tôi lại chỉ lấy cái phần 90ljfs9xcvlj - ờ đoạn trước dấu =, mà không biết rằng thực ra là mọi người đều có đoạn đó giống nhau :LOL:)
 
Back
Top