Khởi Nghiệp Công Nghệ Ở Việt Nam

Khởi Nghiệp Công Nghệ Ở Việt Nam

Khu sản xuất nông nghiệp công nghệ cao Hà Nam sẽ trở thành mô hình kiểu mẫu, hiện đại và hiệu quả góp phần lan tỏa và thúc đẩy quá trình tái cấu trúc nông nghiệp tỉnh Hà Nam và các tỉnh ĐBSH, từ sản xuất nông nghiệp truyền thống sang sản xuất hàng hóa ứng dụng công nghệ cao theo hướng công nghiệp hóa, hiện đại hóa nông nghiệp, nông thôn.

Khu sản xuất nông nghiệp công nghệ cao Hà Nam sẽ trở thành mô hình kiểu mẫu, hiện đại và hiệu quả góp phần lan tỏa và thúc đẩy quá trình tái cấu trúc nông nghiệp tỉnh Hà Nam và các tỉnh ĐBSH, từ sản xuất nông nghiệp truyền thống sang sản xuất hàng hóa ứng dụng công nghệ cao theo hướng công nghiệp hóa, hiện đại hóa nông nghiệp, nông thôn.

Góp phần phát triển cộng đồng nghiên cứu về công nghệ tiếng nói tại Việt Nam

Trong quá trình thực hiện dự án về công nghệ tiếng nói, Vbee đã kết hợp chặt chẽ với Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội trong việc tạo môi trường nghiên cứu và phát triển cho một số nhóm nghiên cứu tại Viện về lĩnh vực xử lý ngôn ngữ tự nhiên và tiếng nói tiếng Việt. Một số nhóm nghiên cứu đã có công bố tại các hội thảo uy tín trong lĩnh vực.

Bên cạnh đó, trong khuôn khổ dự án, Vbee đã thực hiện phối hợp và tài trợ cho các hoạt động đào tạo và nghiên cứu của Viện như các giải thưởng đồ án được trình bày tốt nhất tại các hội đồng bảo vệ năm 2020-2021, hay Trường hè về Khoa học dữ liệu và Trí tuệ nhân tạo của Viện tổ chức trên phạm vi toàn quốc vào tháng 4 năm 2021.

Vbee luôn hiểu rõ vai trò tiên phong của mình trong quá trình phát triển công nghệ tiếng nói tại Việt Nam. Vì vậy, Vbee luôn luôn có ý thức và chủ động tham gia phát triển và đóng góp cho cộng đồng nghiên cứu về lĩnh vực này tại Việt Nam. Cụ thể, Vbee đã kết hợp với Trường Đại học Bách Khoa Hà Nội đứng ra tổ chức và tài trợ cho các cuộc thi cộng đồng về công nghệ tiếng nói Việt tại Hội thảo quốc tế về xử lý ngôn ngữ và tiếng nói tiếng Việt VLSP [4] trong suốt các năm 2019, 2020 và các năm tiếp theo.

Trong các cuộc thi này, ngoài việc trực tiếp tham gia các hoạt động tổ chức, quản lý, giám sát, đánh giá các đội thi; Vbee còn trực tiếp đóng góp dữ liệu đồng thời đóng góp công sức vào việc xây dựng và hoàn thiện các dữ liệu khác chia sẻ cho cộng đồng. Ngoài ra, Vbee cũng đã phát triển và vận hành nền tảng quản lý, tổ chức và đánh giá cho các cuộc thi tổng hợp tiếng nói tiếng Việt trong suốt hai năm 2019 và 2020.

Hệ sinh thái công nghệ tiếng nói tiếng Việt của Vbee

Dự án công nghệ tiếng nói Vbee với sự tài trợ của Vingroup dự kiến kéo dài trong vòng hai năm, từ tháng 10 năm 2019 đến hết tháng 9 năm 2021. Tuy nhiên, với sự phát triển rất nhanh của công nghệ và thị trường, Vbee đã nỗ lực hoàn thành toàn bộ các KPI đặt ra trong dự án sớm hơn kế hoạch ban đầu sáu tháng, với một số kết quả vượt ngoài KPI về công bố khoa học hay các đóng góp cho cộng đồng.

Trong quá trình phát triển của mình, Vbee luôn hướng tới việc hoàn thiện công nghệ lõi và mở rộng các sản phẩm trong hệ sinh thái về tiếng nói tiếng Việt. Bên cạnh các dịch vụ cho người dùng cuối như các dịch vụ giá trị gia tăng (VAS [5]: sản xuất sách nói, tạo clip tự động, review phim…), công nghệ của Vbee còn có thể tích hợp với các thiết bị IoT trong các hệ thống ô tô thông minh, nhà thông minh, đô thị thông minh, chính phủ điện tử…

Trong suốt thời gian thực hiện dự án, với sự tài trợ và hỗ trợ từ Vingroup, Vbee đã dần khẳng định được chỗ đứng, nâng cao uy tín và lòng tin với các đối tác và khách hàng. Với một công ty khởi nghiệp công nghệ, việc có được một nguồn tài trợ với trị giá lên tới 10 tỷ đồng từ Vingroup là một cú hích lớn giúp Vbee có thể nhanh chóng hoàn thiện công nghệ, phát triển và đóng gói sản phẩm từ đó nhanh chóng dẫn đầu thị trường. Quỹ Vingroup cũng tạo ra những kết nối giữa các công ty khởi nghiệp, các nhà nghiên cứu và tạo ra đòn bẩy cho các công ty khởi nghiệp nói chung và Vbee nói riêng phát triển nhanh hơn và mạnh mẽ hơn.

[1] Công nghệ chuyển văn bản thành tiếng nói (Text-To-Speech TTS) [2] Máy chủ GPU (Graphics Processing Unit) là máy chủ có gắn cạc đồ hoạ GPU được sử dụng cho quá trình huấn luyện và thử nghiệm các mô hình học sâu với tốc độ tính toán nhanh gấp nhiều lần so với máy chủ thông thường. Máy chủ GPU chính là chìa khoá giúp đẩy nhanh quá trình nghiên cứu cho các nhà khoa học để có thể thử nghiệm và đưa các mô hình AI vào thực tiễn. [3] Thí nghiệm cảm thụ MOS (Mean Opinion Score) là thí nghiệm đánh giá chất lượng các đoạn tiếng nói dựa trên số điểm trung bình của những người tham gia dựa trên một tiêu chí nào đó. [4] VLSP: Vietnamese Language and Speech Processing (

Vbee: Công ty khởi nghiệp tiên phong trong công nghệ tiếng nói tiếng Việt

Tại Việt Nam, công nghệ tiếng nói tiếng Việt đã được nghiên cứu và thử nghiệm từ hơn chục năm nay. Tuy nhiên, công nghệ này mới bắt đầu được tập trung nghiên cứu, phát triển và đưa ra thị trường chỉ trong vài năm gần đây, đặc biệt khi có sự xuất hiện của Vbee, công ty khởi nghiệp tiên phong trong lĩnh vực tổng hợp tiếng nói tiếng Việt [1].

Vbee là công ty khởi nghiệp chính thức thành lập từ năm 2018, với nhiều giải thưởng lớn như Giải cao nhất Nhân tài Đất Việt năm 2018, Giải thưởng công nghệ số Việt Nam các năm 2018 và 2020, Công ty khởi nghiệp thắng cuộc tại chương trình Tăng tốc khởi nghiệp Grab (Grab Ventures Ignite) mùa 1 năm 2020… Vbee cũng được Bộ Thông tin và Truyền thông lựa chọn trở thành một trong hai nền tảng lõi tiên phong về công nghệ tiếng nói trong chương trình chuyển đổi số quốc gia “Make in Vietnam”.

Năm 2019, một cột mốc quan trọng của Vbee chính là trở thành một trong 12 dự án đầu tiên về công nghệ tiếng nói được tài trợ bởi Quỹ nghiên cứu ứng dụng VinTech Fund và Quỹ đổi mới sáng tạo VinIF thuộc tập đoàn Vingroup. Việc được nhận mức tài trợ tối đa (10 tỷ đồng) đã mang lại cho Vbee một cơ hội lớn trong việc nghiên cứu và làm chủ các công nghệ tiên tiến hiện đại, từ đó có thể phát triển, đóng gói sản phẩm và dần chiếm lĩnh thị trường.

Không chỉ được hưởng lợi về mặt tài chính, bên cạnh những giải thưởng lớn khác, với sự công nhận và đánh giá công tâm từ Vingroup, thương hiệu của Vbee đã được củng cố và trở nên nổi bật trên thị trường. Vbee cũng được tham gia một mạng lưới các nhà nghiên cứu và các công ty khởi nghiệp. Tại đó, Vbee có thể giao lưu, học tập, chia sẻ kinh nghiệm và kết nối kinh doanh.

Nghiên cứu, phát triển và hoàn thiện công nghệ lõi

Một trong những thành quả quan trọng nhất của dự án Vbee về công nghệ tiếng nói khi được Vingroup tài trợ là được cung cấp đủ kinh phí để nghiên cứu và đề xuất các mô hình, công nghệ tổng hợp tiếng nói tiếng Việt tiên tiến, hiện đại và có khả năng ứng dụng trong thực tiễn. Điều này là một yếu tố sống còn với bất kỳ một công ty khởi nghiệp công nghệ nào khi có thể hoàn toàn tập trung vào hoàn thiện công nghệ lõi. Từ đó có thể cạnh tranh được với một số đối thủ đang dần xuất hiện trên thị trường. Vbee đã nghiên cứu, đề xuất, thực hiện huấn luyện và thử nghiệm các mô hình học sâu mới nhất, hiện đại nhất trên thế giới cho công nghệ tiếng nói Việt. Các nghiên cứu và thực nghiệm có thể tiến hành nhanh chóng trên các máy chủ GPU [2] mạnh và chuyên dụng.

Video giới thiệu về version mới Vbee Text to Speech v3

Trong khuôn khổ của dự án, các bộ ngữ liệu bao gồm sáu giọng nói nam nữ thuộc ba miền Bắc Trung Nam đã được thu âm, tiền xử lý và huấn luyện trên các công nghệ, mô hình Vbee đề xuất. Kết quả thí nghiệm cảm thụ MOS [3] cho thấy chất lượng tiếng nói nhân tạo đã đạt độ tự nhiên từ 91% đến 95% so với tiếng nói tự nhiên của con người trên tất cả các giọng ba miền.

Hình dưới minh hoạ sự tiến triển của chất lượng tiếng nói tiếng Việt nhân tạo so với tiếng nói tự nhiên khi sử dụng các công nghệ tổng hợp tiếng nói tiên tiến trên thế giới và mô hình ngữ điệu đề xuất cho tiếng Việt. Việc đưa thêm mô hình ngữ điệu riêng cho tiếng Việt đã giúp tăng từ 5% đến 8% chất lượng của tiếng nói tổng hợp so với tiếng nói tự nhiên. Nghiên cứu này đã được thực hiện và công bố tại hội nghị hàng đầu thế giới (Rank A) về tiếng nói Interspeech 2021 tại Cộng hoà Séc.

Kết quả thí nghiệm cảm thụ chất lượng tiếng nói tiếng Việt với các công nghệ tổng hợp tiếng nói hiện đại (HMM: Hidden Markov Model, DNN: Deep Neural Network, E2E: End-to-end, Natural: Tiếng nói tự nhiên) và mô hình hoá ngữ điệu tiếng Việt đề xuất (Prosody).

Một trong những mục tiêu quan trọng của Quỹ Vingroup là nâng cao tính khả thi của các nghiên cứu cũng như đưa được các kết quả nghiên cứu đó ứng dụng vào thực tiễn. Chính vì vậy, trong quá trình thực hiện dự án, Vbee đã giải quyết và xử lý các thách thức trong việc đóng gói, triển khai những kết quả nghiên cứu ra thị trường, bao gồm: (i) xử lý phân tán và song song để giảm thời gian phản hồi cho một yêu cầu, (ii) đề xuất và triển khai giải pháp phân tải nhằm phục vụ được số lượng lớn người dùng đồng thời với khả năng scale tự động không giới hạn theo nhu cầu trong thực tế; (iii) đảm bảo các yếu tố bảo mật cho các hệ thống trên Cloud; và (iv) đóng gói mã nguồn khi triển khai on-premise.

Thực tế cho thấy các công nghệ tiếng nói hiện đại có độ phức tạp cao và thời gian tính toán lâu, rất khó để có thể đưa ra sử dụng hay ứng dụng vào các hệ thống đòi hỏi xử lý theo thời gian thực. Vì vậy, Vbee đã nghiên cứu và đề xuất giải pháp xử lý song song và phân tán cho một yêu cầu nhằm rút ngắn thời gian xử lý, giúp công nghệ tiếng nói tiếng Việt có thể sử dụng được với các ứng dụng thời gian thực.

Dịch vụ tổng hợp tiếng nói của Vbee được thiết kế và triển khai trên cloud hoặc on-premise, đảm bảo hàng trăm yêu cầu bảo mật khi triển khai cho các doanh nghiệp lớn, với khả năng tự động scale không giới hạn theo nhu cầu thực tế. Tất cả những thách thức mà Vbee đã giải quyết nêu trên là những yếu tố quan trọng để giúp Vbee đưa được kết quả nghiên cứu vào thực tiễn sử dụng cho các doanh nghiệp lớn cũng như phục vụ được một lượng lớn khách hàng.