https://truyencv.com/chu-thien-the-gioi-tu-than/
Chivy chưa hoàn thiện name mấy bộ phương tây
về từ điển của chivi, nó có background thế này:
đầu tiên thì tôi dùng bộ qt của tôi, xoá một đống rác, xoá mãi xoá mãi tôi có lần thử convert bằng bản đã xoá, thì thấy chất lượng tụt trở về không khác gì QT thời đầu, cho nên bỏ.
tiếp đến tôi nghĩ nếu thiếu không đủ thừa thì sao, thế là lên mạng down chục cái vietphrase của thiên hạ về rồi gộp lại, kết quả là càng nát.
2 cái task này đợt đó tôi rảnh lãng phí mấy tháng luôn, giờ trong hdd vẫn còn gần 10 cái projects vụn vặt cho riêng các lần thử nghiệm xoá/thêm này.
đáng tiếc là ngoài việc làm tôi biết là vietphrase của cộng đồng đều như cứt + phân biệt các thể loại rác ra thì không giữ lại được thành quả gì.
lần làm chivi này thì tôi đi theo đường khác, đầu tiên tôi trích xuất ra từ tiếng trung của các từ điển lacviet, cedict + vietphrase đang có (ra được tầm 1 triệu từ thì phải), tiếp đến tôi chạy chương trình phân tích hơn 5000 bộ truyện tôi down về để xem số lần xuất hiện của từ này bao nhiêu lần + từ này xuất hiện trong bao nhiêu quyển sách.
cuối cùng thì tôi chạy một lần cuối từ các từ đã được đếm số, đưa ra một vài điều kiện để giữ lại (vào từ điển chính thức hay từ điển gợi ý), cơ mà điều kiện cũng hơi khắt khe cho nên kết quả giờ còn 180k entries cho từ điển chính thức (aka vp chung) + 300k gì gì đó cho từ điển gợi ý (cái phần gợi ý nó nằm trên ô nghĩa tiếng việt trong cái modal thêm từ ấy, các bạn click vào là nó tự thay thế nghĩa tiếng việt, ờ nhiều khi là tôi tự thay thế luôn... chữ in nghiêng là tự thay thế đấy:">)
... nói cái này để làm gì? nói cái này để tôi giải thích hai thứ: thứ nhất là những từ nào số lần xuất hiện ít thì sẽ bị lọc bỏ mất, thứ hai là 5000 bộ kia nó chưa chắc đã cover hết được tất cả các nội dung, cho nên nhiều khi đầy từ thường gặp nhưng cũng bị lọc bỏ bởi vì nó không xuất hiện trong 5000 bộ bootstrap kia.
tóm lại thì nhiều khi dữ liệu từ điển (dạng tên phương tây, tên thần) nó đã từng có nhưng đã biến mất, cái này thì tôi cũng chịu, giờ không còn thời gian mà chạy lại cái analyzer nữa, rất lâu.
bù lại thì cái cửa sổ thêm từ ấy nó có đường dẫn tới mấy trang ngoài như iciba, google translate, google, baidu, baike các kiểu (cho từ tiếng trung đang nhập), từ nào phương tây thì các bạn có thể bấm vào mấy cái bên dưới đó để tham khảo. google hầu như có hết chỉ việc copy.