Lý do khiến đào tạo AI nói tiếng Việt là điều khó khăn

Masterchiefs

Thành viên tích cực

Ngoài vấn đề ngữ pháp, dữ liệu tiếng Việt cũng rất phức tạp với hệ thống phương ngữ, từ lóng, từ mượn và các "biến thể" ngôn từ của GenZ khiến đội ngũ đào tạo AI gặp không ít trở ngại.

"Phong ba bão táp không bằng ngữ pháp Việt Nam" nên ngay cả người học, thậm chí người bản địa cũng không dễ để nắm rõ các thành phần của tiếng Việt. Độ khó càng tăng lên nhiều lần khi đụng tới mảng đào tạo (training) ngôn ngữ cho trí tuệ nhân tạo (AI) bởi sự phức tạp trong ngôn từ của người Việt.

Theo kỹ sư Trần Tuấn Minh - Trưởng nhóm nghiên cứu Language AI thuộc Trung tâm Nghiên cứu và Phát triển Samsung Việt Nam (SRV), đội ngũ kỹ sư Việt đã phải "vượt bão" nhằm đưa tiếng Việt trong thành 1 trong 13 ngôn ngữ đầu tiên được hỗ trợ trên công cụ Galaxy AI và xuất hiện trên thế hệ smartphone Galaxy S24 series vừa ra mắt hồi tháng 1.2024. Đáng nói, thời gian từ lúc triển khai tới khi hiện thực hóa chỉ có 4 tháng.

Trưởng nhóm kỹ sư cho biết tiếng Việt trên Galaxy AI được phát triển dựa trên ba trụ cột chính gồm nhận diện giọng nói (để chuyển sang văn bản), dịch sang ngôn ngữ khác, chuyển từ văn bản thành giọng nói. Được phát triển theo mô hình On-Device (hoạt động trực tiếp trên thiết bị) nên Galaxy AI tiếng Việt có thể phiên dịch theo thời gian thực mà không cần kết nối mạng internet. Điều này cũng góp phần tạo ra cuộc hội thoại liền mạch, gần như lập tức, không có độ trễ.

So với các ngôn ngữ như tiếng Anh, tiếng Trung Quốc, Pháp, Đức, Bồ Đào Nha, Tây Ban Nha… có độ phổ biến lớn trên thế giới, tiếng Việt ít được biết đến hơn, do đó nguồn dữ liệu rất hiếm. Các kỹ sư cũng gặp trở ngại khi phải tìm kiếm dữ liệu sạch, chuẩn và đáp ứng được vấn đề pháp lý (bản quyền).

Đội ngũ dự án gồm 30 kỹ sư phát triển trực tiếp và 45 người kiểm thử, đều là người Việt, nhưng đã có những thời điểm số lượng nhân sự lên tới hàng trăm kỹ sư nhằm tạo ra nhiều triệu bản ghi âm để đào tạo AI về vấn đề điều chỉnh, hiểu giọng nói. Chưa để đến sự hỗ trợ, tư vấn của những giảng viên, trưởng khoa ngôn ngữ tại các trường đại học ở Việt Nam cũng như đội ngũ chuyên gia.

Dữ liệu tiếng Việt cũng được đánh giá rất phức tạp như hệ thống phương ngữ chia theo vùng, miền, mỗi tỉnh lại có cách dùng từ, phát âm khác nhau, thậm chí yếu tố khác biệt này còn thể hiện rõ giữa các thôn, làng trong cùng một huyện. Bên cạnh đó là hệ thống từ lóng, từ đồng nghĩa, từ mượn và cả các từ mới được "sáng tạo" bởi thế hệ GenZ.

Bên cạnh việc huấn luyện AI trong phòng thí nghiệm, nhóm kỹ sư Việt cũng phải đưa chương trình ra môi trường thực tế để thử nghiệm, kiểm tra khả năng nghe, hiểu tại những nơi âm thanh phức tạp như Hồ Gươm (đông khách, xe cộ), trạm xe buýt, quán cà phê... "Càng được kiểm thử nhiều trong môi trường thực tế, độ chính xác của AI càng cao", anh Trần Tuấn Minh chia sẻ.

..................
 
"Phong ba bão táp không bằng ngữ pháp Việt Nam" thật các bạn chứ cái câu này nhảm vc, cái gì con Vịt cũng phải nhất thì mới thích cơ. Ngữ pháp tiếng Việt xếp vào hàng dễ nhất, vì ngôn ngữ tiếng Việt là ngôn ngữ độc lập nhất thế giới, cái này khoa học chứng minh rồi. Các từ đứng độc lập với nhau, từ nào ra từ nấy, không có chia động từ như phần lớn các ngôn ngữ khác. 3 thể qk ht tl chỉ có đúng 3 chữ: đã, đang và sẽ. Các cấu trúc cũng dễ học vì chỉ cần nhớ từ là đủ, không cần chia. Tiếng Việt dễ hơn tiếng Trung rất nhiều vì ít từ đồng nghĩa hơn do có rất nhiều âm tiết.

Cái khó của tiếng Việt là hệ thống phát âm quá khó, và chữ viết không được quá hoàn hảo vì còn Tr, ch, d, gi, r,...

Tiếng Việt có ngữ pháp cực kỳ đơn giản.
 
Last edited:
Ngoài Bắc và Nam ra tôi đề xuất có thêm: Huế, Quảng Nôm, TNT cho đa dạng

Sent from Xiaomi M2010J19SG using vozFApp
 
Bớt bớt giùm, tiếng Việt chả dễ nhất rồi má:confuse:
Với dữ liệu lớn thì việc phát âm quá dễ với nó luôn. Nó còn sõi hơn người Việt Nam ấy chứ:haha:
 
Lấy ngay như tiếng Anh, ngoài việc phải học quy tắc của 12 thì trong tiếng Anh, còn phải học quy tắc chia động từ hợp với thì, rồi còn các trường hợp đặc biệt, ngoài ra còn ti tỷ các loại như neither, either, despite, have to, wish, prevent, stop,... cũng có quy tắc về mẫu câu và động từ riêng, cũng phải chia riêng. Vậy mà các con vịt cứ ngạo nghễ ngữ pháp tiếng Việt khó nhất thế giới, phong ba bão táp các kiểu.
Còn phương ngữ, vâng, Anh Anh, Anh Mỹ, Anh Scott, Anh Úc, Anh British,... Tiếng trung có Phổ thông, Quảng Đông, Quan Thoại,... Nhật có nhật phổ thông, Nhật Osaka, Nhật Nagoya, Nhật Inui,...
Cứ như kiểu mình tiếng Việt có phương ngữ các nơi ý. Rồi các ông lại bảo ít người ngoại quốc nói tiếng Việt vì nó khó! Không ạ, ít người nói vì nước Việt không mạnh ạ. Anh có muốn đi học tiếng Lào, tiếng Luganda làm gì không?
Ngạo nghễ tiếng Việt khó nhất thế giới.
 
Quá khó luôn ấy chứ, nếu đào tạo nó biết nhiều quá thì nó lại có tư duy lệch lạc, phản động, chống phá. Sẽ tìm cách để vác luôn máy chủ bay ra nước ngoài sinh sống :sad:
 
Hôm qua đọc bài báo chỗ khác có nói nhân sự đội phát triển đội AI này chuyển từ teter mạng qua. Tiền thân cái trung tâm phát triển của Samsung này ở VN chủ yếu là test. Cộng thêm chủ quan tôi quá hiểu cách làm việc của SS Hàn ở VN ko bao giờ chuyển giao core cho người Việt... Nên tôi ko tin tưởng chất lượng AI tiếng Việt này ở thời điểm hiện tại.
 
Có mà xàm l thì có
Để làm được thì cần thật sự đầu tư, đéo phải xài opensource hay đi mua API xong lắp vào con robot tàu được.

Ôi lũ lợn này vẫn lên bài được cơ à :waaaht:
IMG_20240413_122958.jpg
 
Dữ liệu tiếng Việt cũng được đánh giá rất phức tạp như hệ thống phương ngữ chia theo vùng, miền, mỗi tỉnh lại có cách dùng từ, phát âm khác nhau, thậm chí yếu tố khác biệt này còn thể hiện rõ giữa các thôn, làng trong cùng một huyện
Sao không chọn phương ngữ nào mà mọi người đều nghe rõ để làm!
 
Lấy ngay như tiếng Anh, ngoài việc phải học quy tắc của 12 thì trong tiếng Anh, còn phải học quy tắc chia động từ hợp với thì, rồi còn các trường hợp đặc biệt, ngoài ra còn ti tỷ các loại như neither, either, despite, have to, wish, prevent, stop,... cũng có quy tắc về mẫu câu và động từ riêng, cũng phải chia riêng. Vậy mà các con vịt cứ ngạo nghễ ngữ pháp tiếng Việt khó nhất thế giới, phong ba bão táp các kiểu.
Còn phương ngữ, vâng, Anh Anh, Anh Mỹ, Anh Scott, Anh Úc, Anh British,... Tiếng trung có Phổ thông, Quảng Đông, Quan Thoại,... Nhật có nhật phổ thông, Nhật Osaka, Nhật Nagoya, Nhật Inui,...
Cứ như kiểu mình tiếng Việt có phương ngữ các nơi ý. Rồi các ông lại bảo ít người ngoại quốc nói tiếng Việt vì nó khó! Không ạ, ít người nói vì nước Việt không mạnh ạ. Anh có muốn đi học tiếng Lào, tiếng Luganda làm gì không?
Ngạo nghễ tiếng Việt khó nhất thế giới.
Em biết chào bằng tiếng lào đó.
Sabaide
 
Lấy ngay như tiếng Anh, ngoài việc phải học quy tắc của 12 thì trong tiếng Anh, còn phải học quy tắc chia động từ hợp với thì, rồi còn các trường hợp đặc biệt, ngoài ra còn ti tỷ các loại như neither, either, despite, have to, wish, prevent, stop,... cũng có quy tắc về mẫu câu và động từ riêng, cũng phải chia riêng. Vậy mà các con vịt cứ ngạo nghễ ngữ pháp tiếng Việt khó nhất thế giới, phong ba bão táp các kiểu.
Còn phương ngữ, vâng, Anh Anh, Anh Mỹ, Anh Scott, Anh Úc, Anh British,... Tiếng trung có Phổ thông, Quảng Đông, Quan Thoại,... Nhật có nhật phổ thông, Nhật Osaka, Nhật Nagoya, Nhật Inui,...
Cứ như kiểu mình tiếng Việt có phương ngữ các nơi ý. Rồi các ông lại bảo ít người ngoại quốc nói tiếng Việt vì nó khó! Không ạ, ít người nói vì nước Việt không mạnh ạ. Anh có muốn đi học tiếng Lào, tiếng Luganda làm gì không?
Ngạo nghễ tiếng Việt khó nhất thế giới.
Ai lại đi ngạo nghễ tiếng nước mình khó học bao giờ. Càng dễ học thì càng ngạo nghễ chứ. Chứng tỏ là ngôn ngữ hiện đại, khoa học.
 
Toàn xạo chó, không làm được vì dốt và vì không thằng nào nó làm giúp cho chứ tiếng Việt thuộc thể loại dễ nhất thế giới chứ có gì mà khó?
 
Ai lại đi ngạo nghễ tiếng nước mình khó học bao giờ. Càng dễ học thì càng ngạo nghễ chứ. Chứng tỏ là ngôn ngữ hiện đại, khoa học.
Ngược lại, càng khó mới là thứ khiến người ta càng ngạo nghễ, những giáo phái thường ngạo nghễ vì phải trải qua nhiều vòng thử thách mới được gia nhập.
Dễ quá nhưng thế giới chẳng mấy ai biết hóa ra là không ai thèm học à
 
Back
Top