thảo luận Những chia sẻ, thảo luận về Xử lý ngôn ngữ tự nhiên (NLP)

Valky99

Senior Member
lương NLP có khá không bác ? và có cần bằng MSc hay PhD không
HI bác,

Lương NLP thì cũng tuỳ chỗ thôi bác, mình cũng chưa bao h tìm hiểu mặt bằng chung về lương của NLP nên cũng không nắm được. Với nữa là NLP thiên về hướng nghiên cứu thì ở VN mình đếm k đc nhiều chỗ lắm.

Còn bằng thì mình nghĩ là nếu theo nghiên cứu, chắn chắn là cần. Còn nếu k theo thì mình nghĩ cũng phụ thuộc chỗ cty đó luôn. Cơ mà nếu có bằng rồi có thêm công trình nữa thì sẽ tốt hơn :smile:
 

Valky99

Senior Member
NLP làm chuyên sâu về engineer là làm gì vậy các bác ? Em vừa ra trường đi làm thì chủ yếu implement mấy paper thử nghiệm có kết quả tốt thì viết API, giờ nên học gì để nâng cao trình độ ạ
Hi bác,

NLP chuyên sâu về engineer thì chắc nhờ mọi người hỗ trợ chứ mình theo hướng nghiên cứu nên không rõ là khi làm về engineer họ làm gì :extreme_sexy_girl:

Nếu bác có nền tảng cơ bản về NLP là quá tốt rồi, từ đó bác có thể tự học trên các forum, đọc thêm các paper để cải tiến mô hình, hoặc kiếm giáo sư để hướng dẫn mình, ...
:big_smile:
 

Valky99

Senior Member
Hay quá, mình cũng đang muốn học về món này, nhưng chưa biết bắt đầu từ đâu. Mình là dân Software Engineering. Bác có thể giới thiệu cho mình nguồn tài liệu nào phù hợp không :adore::adore:

Hi bác,

Nếu bác chưa có nền tảng NLP cơ bản thì nên học 1 khoá. Có thể là từ 1 trường hoặc trung tâm, có thể học trên Coursera cũng được luôn.

Mình giới thiệu 1 khoá học ML mới ra lò của MS: ML For Beginner - Microsoft
 

Valky99

Senior Member
Là mình học về ML trước rồi mới chuyển qua NLP hả bác
Thường thì hầu hết là sẽ học ML rồi tới NLP.

Nhưng mà cái cơ bản NLP mình nói ở đây nó như sau: hiểu được hình thái từ, từ, câu, văn bản, ngữ cảnh; ngoài ra còn có ontology, syntax, graph... nếu như sau này bác muốn cải tiến mô hình (bằng cách tích hợp thêm tri thức, ...) hoặc xa hơn là nghiên cứu về bài toán gốc của nó (nghiên cứu cả về phía ngôn ngữ học của nó nữa nhé). Học cái cơ bản này thì bác học song song hoặc trc ML cũng dc.

Cơ mà nếu như bác ngại, chỉ muốn nhảy ngang qua và ứng dụng thực tế thì cứ học mấy khoá ML trên mạng là được, nó chính là "công cụ" hỗ trợ mình "xào nấu" dữ liệu để cho ra "món ăn ngon". Hiểu dc cái "công cụ" rồi thì "nguyên liệu" nào cũng có thể "xào nấu" được bác nhé :big_smile:
 

southernstar

Senior Member
NLP vẫn chưa thấy được sản phẩm thuần từ NLP. Chatbot hiện vẫn chỉ có khả năng xử lý các hội thoại đơn giản, FAQ chứ để vào chốt sale thì vẫn kém lắm.

via theNEXTvoz for iPhone
 

vOzper

Senior Member
Thường thì hầu hết là sẽ học ML rồi tới NLP.

Nhưng mà cái cơ bản NLP mình nói ở đây nó như sau: hiểu được hình thái từ, từ, câu, văn bản, ngữ cảnh; ngoài ra còn có ontology, syntax, graph... nếu như sau này bác muốn cải tiến mô hình (bằng cách tích hợp thêm tri thức, ...) hoặc xa hơn là nghiên cứu về bài toán gốc của nó (nghiên cứu cả về phía ngôn ngữ học của nó nữa nhé). Học cái cơ bản này thì bác học song song hoặc trc ML cũng dc.

Cơ mà nếu như bác ngại, chỉ muốn nhảy ngang qua và ứng dụng thực tế thì cứ học mấy khoá ML trên mạng là được, nó chính là "công cụ" hỗ trợ mình "xào nấu" dữ liệu để cho ra "món ăn ngon". Hiểu dc cái "công cụ" rồi thì "nguyên liệu" nào cũng có thể "xào nấu" được bác nhé :big_smile:
Cảm ơn lời khuyên của bác nhiều :p
 

southernstar

Senior Member
Thế ai ngồi đằng sau hỗ trợ cái này thế?
https://translate.google.com/?hl=vi
https://www.apple.com/siri/

P/s: trông jd giống có vẻ vào spam.
Cái mình nói là hướng đi áp dụng NLP vào các sản phẩm dành cho doanh nghiệp nhỏ, startup hay outsourcing. Chứ google translate mà bên đó cung cấp API thì ai cạnh tranh lại được? Các công ty bạn kể toàn là các công tu hàng đầu thế giới, nó không phải là cửa sáng cho các AI Engineer VN vì trình độ của mình kém hơn mức họ cần nhiều.

via theNEXTvoz for iPhone
 

southernstar

Senior Member
Thế ai ngồi đằng sau hỗ trợ cái này thế?
https://translate.google.com/?hl=vi
https://www.apple.com/siri/

P/s: trông jd giống có vẻ vào spam.
Mình hiện tại đang làm về NLP. Từng ngồi hơn nửa năm chỉ để cải thiện tokenizer. Liệu có doanh nghiệp nào đầu tư vậy không ngoài các công ty lớn? Câu hỏi của mình là thiên là hướng ứng dụng AI vào thị trường VN và oursourcing chứ không phải làm các sản phẩm như google translate. Hoạ chăng chỉ những thằng ngu mới làm lại cái tương tự như thế. Thực tế các API text-to-speech hay speech-to-text các ngân hàng vẫn lựa chọn google API chứ không phải của FPT Vbee hay VT


via theNEXTvoz for iPhone
 

southernstar

Senior Member
HI bác,

Lương NLP thì cũng tuỳ chỗ thôi bác, mình cũng chưa bao h tìm hiểu mặt bằng chung về lương của NLP nên cũng không nắm được. Với nữa là NLP thiên về hướng nghiên cứu thì ở VN mình đếm k đc nhiều chỗ lắm.

Còn bằng thì mình nghĩ là nếu theo nghiên cứu, chắn chắn là cần. Còn nếu k theo thì mình nghĩ cũng phụ thuộc chỗ cty đó luôn. Cơ mà nếu có bằng rồi có thêm công trình nữa thì sẽ tốt hơn :smile:
Tiện đây cho mình hỏi có công ty nào ở VN làm NLP mạnh không ạ? Ở HN thấy ít quá, ngoài các công ty to như VT hay Vin thì thấy có mỗi AIMEsoft là làm thật.

via theNEXTvoz for iPhone
 

hvhvhh

Senior Member
NLP vẫn chưa thấy được sản phẩm thuần từ NLP. Chatbot hiện vẫn chỉ có khả năng xử lý các hội thoại đơn giản, FAQ chứ để vào chốt sale thì vẫn kém lắm.

via theNEXTvoz for iPhone

Cái mình nói là hướng đi áp dụng NLP vào các sản phẩm dành cho doanh nghiệp nhỏ, startup hay outsourcing. Chứ google translate mà bên đó cung cấp API thì ai cạnh tranh lại được? Các công ty bạn kể toàn là các công tu hàng đầu thế giới, nó không phải là cửa sáng cho các AI Engineer VN vì trình độ của mình kém hơn mức họ cần nhiều.

via theNEXTvoz for iPhone
Nhìn lại xem đoạn tôi quote phía trên từ post của anh (đoạn đầu tiên trong cái post này) xem có câu nào nói về VN? Phí dịch vụ dịch của Google ko hề rẻ, có nhu cầu nhiều sẽ có cung thôi.

Mình hiện tại đang làm về NLP. Từng ngồi hơn nửa năm chỉ để cải thiện tokenizer. Liệu có doanh nghiệp nào đầu tư vậy không ngoài các công ty lớn? Câu hỏi của mình là thiên là hướng ứng dụng AI vào thị trường VN và oursourcing chứ không phải làm các sản phẩm như google translate. Hoạ chăng chỉ những thằng ngu mới làm lại cái tương tự như thế. Thực tế các API text-to-speech hay speech-to-text các ngân hàng vẫn lựa chọn google API chứ không phải của FPT Vbee hay VT


via theNEXTvoz for iPhone
(Đoạn màu xanh da trời) Vậy anh tưởng mỗi mình anh từng ngồi làm vậy thôi à? :)))))
Có thằng này "ngu" theo ý của anh này "https://akatrans.vn/bao-boi-phien-dich-cua-fsofter/", còn một số thằng khác (chỉ là bên outsource thôi) cũng manh nha tương tự, tôi ko tiện nói do có tiết lộ thông tin.

Anh nên tìm hiểu những dự án NLP áp dụng cho bản địa hoặc nhắm thị trường ngách trước khi phát biểu. Ngân hàng đặc thù là cần sự ổn định, Vbee mới nổi (tôi lâu ko update nên ko rõ tình trạng của FPT và VT, nhưng đánh giá Vbee cao hơn FPT và VT về mặt học thuật), nhưng xét về ổn định kiến trúc, cách triển khai ... thì chỉ là tay mơ so với big tech như Google, do đó ngân hàng chả ngu gì mà chơi liều.
 

southernstar

Senior Member
Nhìn lại xem đoạn tôi quote phía trên từ post của anh (đoạn đầu tiên trong cái post này) xem có câu nào nói về VN? Phí dịch vụ dịch của Google ko hề rẻ, có nhu cầu nhiều sẽ có cung thôi.


(Đoạn màu xanh da trời) Vậy anh tưởng mỗi mình anh từng ngồi làm vậy thôi à? :)))))
Có thằng này "ngu" theo ý của anh này "https://akatrans.vn/bao-boi-phien-dich-cua-fsofter/", còn một số thằng khác (chỉ là bên outsource thôi) cũng manh nha tương tự, tôi ko tiện nói do có tiết lộ thông tin.

Anh nên tìm hiểu những dự án NLP áp dụng cho bản địa hoặc nhắm thị trường ngách trước khi phát biểu. Ngân hàng đặc thù là cần sự ổn định, Vbee mới nổi (tôi lâu ko update nên ko rõ tình trạng của FPT và VT, nhưng đánh giá Vbee cao hơn FPT và VT về mặt học thuật), nhưng xét về ổn định kiến trúc, cách triển khai ... thì chỉ là tay mơ so với big tech như Google, do đó ngân hàng chả ngu gì mà chơi liều.
Đúng rồi bác, các công ty lớn như FPT, VT đều làm lại các công cụ này nhưng chất lượng kém xa các dịch vụ có sẵn của google. Mình từng ngồi xem demo của các bên để hợp tác, kém google lắm. Vậy nên nếu chả có đất của FPT và VT thì lấy đất đâu ra cho các doanh nghiệp nhỏ sống. Các doanh nghiệp có sẵn sàng đầu tư tiền cả năm trời cho một team làm NLP chỉ để cải thiện 1-2 % không? Vẫn là câu nói cũ, mình muốn hỏi về hướng đi cho các doanh nghiệp nhỏ, startup, outsource muốn làm về AI, chứ ứng dụng của nó thì không cần bàn.
 

Valky99

Senior Member
Tiện đây cho mình hỏi có công ty nào ở VN làm NLP mạnh không ạ? Ở HN thấy ít quá, ngoài các công ty to như VT hay Vin thì thấy có mỗi AIMEsoft là làm thật.

via theNEXTvoz for iPhone
Hi bác,

Mình không có thông tin nào để biết hết công ty nào mạnh về NLP được. Hầu hết cũng dựa vào chia sẻ từ mọi người.

Mình cũng chia sẻ 1 ít thông tin mình biết dc là có thể các công ty có nguồn lực lớn cũng đang đầu tư vào NLP, và các công ty này thuộc nhiều lĩnh vực khác nhau như bất động sản, sản xuất, thời trang, kinh doanh ... nhưng mà chính mình cũng thắc mắc là chỉ thấy mấy cty lớn này chỉ đăng tuyển ngầm chứ ít thấy đăng tuyển công khai. Cụ thể với trường hợp của mình là họ vào các trung tâm nghiên cứu để hốt các sinh viên có năng lực hoặc có thể kí hợp đồng dự án với nhóm luôn.
 

hvhvhh

Senior Member
Đúng rồi bác, các công ty lớn như FPT, VT đều làm lại các công cụ này nhưng chất lượng kém xa các dịch vụ có sẵn của google. Mình từng ngồi xem demo của các bên để hợp tác, kém google lắm. Vậy nên nếu chả có đất của FPT và VT thì lấy đất đâu ra cho các doanh nghiệp nhỏ sống. Các doanh nghiệp có sẵn sàng đầu tư tiền cả năm trời cho một team làm NLP chỉ để cải thiện 1-2 % không? Vẫn là câu nói cũ, mình muốn hỏi về hướng đi cho các doanh nghiệp nhỏ, startup, outsource muốn làm về AI, chứ ứng dụng của nó thì không cần bàn.
FPT với VT trả lương cho chuyên gia hơi bèo (so với doanh nghiệp chịu chi khác) nên không lấy được chuyên gia chất lượng cao. Họ chỉ có thế mạnh là dữ liệu và cơ sở hạ tầng nên chất lượng chưa được tối ưu như những trung tâm thuần học thuật. Tuy nhiên, lợi thế của họ là hỗ trợ chỉnh sửa hoặc thêm thắt dữ liệu để tối ưu theo yêu cầu của bên thuê.
Còn đối với các doanh nghiệp vừa và nhỏ thì nếu họ tìm được bài toán, nghĩ ra hướng để business thì có thể hợp tác với các viện nghiên cứu hay trường đại học. Với các start up cũng tương tự, nếu người đứng ra start up là những chuyên gia đi học từ nước ngoài về thì họ chỉ cần đi gọi vốn là xong (tôi biết mấy giảng viên bị quỹ bắt nghỉ việc để tập trung làm cho nghiêm chỉnh). Nếu người đứng ra start up ko có kiến thức mà chỉ có mô hình business thì vẫn như trên, quay về hợp tác với viện nghiên cứu / trường đại học. Mô hình của nước ngoài cũng bắt nguồn như thế này, chứ không phải là ngồi đọc rồi kéo mấy cái github về thử nghiệm xong đứng ra làm start up. Cuộc chơi về AI không đơn thuần như cuộc chơi out source như làm web hay mobile apps thông thường.
 

Valky99

Senior Member
#WDIRT #2:
Hugging Face đã mở khoá học cho NLP, hướng dẫn sử dụng các thư viện
như: Transformers, Datasets, Tokenizers, Accelerate, and the HuggingFace Hub

Hugging Face Course
 

buiminhhien

Junior Member
Có bác nào có thể giúp mình cái này không nhỉ. Hiện mình đang sử dụng thư viện PhoNLP để tiến hành pos tagging bộ dữ liệu của mình. Mình đang muốn tạo một cột "aspect" để trích xuất các từ loại danh từ "N" có trong câu review.

VD: [[[nhiều, shop, lừa_đảo]], [[['A'], ['N'], ['V']]], [[O, O, O]], [[['2', 'nmod'], ['3', 'sub'], ['0', 'root']]]], thì cột aspect của mình sẽ lấy ra từ "shop"

Code của mình là: data['content'].apply(model.annotate).apply(lambda x: [y for y in x[0] if x[1] == 'N'])

Nhưng không hiểu sao nó lại ra kết quả null, bác nào rành giúp mình với.
 

Valky99

Senior Member
Có bác nào có thể giúp mình cái này không nhỉ. Hiện mình đang sử dụng thư viện PhoNLP để tiến hành pos tagging bộ dữ liệu của mình. Mình đang muốn tạo một cột "aspect" để trích xuất các từ loại danh từ "N" có trong câu review.

VD: [[[nhiều, shop, lừa_đảo]], [[['A'], ['N'], ['V']]], [[O, O, O]], [[['2', 'nmod'], ['3', 'sub'], ['0', 'root']]]], thì cột aspect của mình sẽ lấy ra từ "shop"

Code của mình là: data['content'].apply(model.annotate).apply(lambda x: [y for y in x[0] if x[1] == 'N'])

Nhưng không hiểu sao nó lại ra kết quả null, bác nào rành giúp mình với.
Bác có sample code k?
 

buiminhhien

Junior Member
Bác có sample code k?
Code của mình đây bác

Python:
import phonlp
phonlp.download(save_dir='./pretrained_phonlp')
model = phonlp.load(save_dir='./pretrained_phonlp')

data['aspect'] = data['content'].apply(model.annotate).apply(lambda x: [y for y in x[0] if x[1] == 'N'])

Kết quả mình muốn sẽ ra như vầy
1626578509551.png


Do kết quả trên mình đang sử dụng thư viện underthesea để trích xuất và mình thấy kết quả không chính xác lắm do không nhận diện được các từ ghép sau khi tokenize, nên mới thực nghiệm thử thư viện PhoNLP mà đang bị stuck ở khúc trên. Nhờ bác xem hộ với nhé.
 
Top