Xiaomi AI Labs vừa ra mắt OmniVoice, mô hình TTS sao chép giọng nói đa ngôn ngữ với khả năng hỗ trợ 646 ngôn ngữ.
Mô hình này dùng kiến trúc Transformer một chiều-bidirectional tối giản, được công bố là cho chất lượng tổng hợp giọng nói và tốc độ suy luận tốt hơn các mô hình phổ biến trong các kịch bản tiếng Trung và tiếng Anh.
OmniVoice được huấn luyện trên khoảng 580.000 giờ dữ liệu từ 50 bộ dữ liệu nguồn mở. Với các ngôn ngữ ít dữ liệu, mô hình áp dụng chiến lược upsampling động để cải thiện đầu ra.
Trong các bài kiểm tra với 24 và 102 ngôn ngữ, độ مشابه giọng và khả năng nhận dạng lời nói của OmniVoice được cho là vượt nhiều hệ thống thương mại. Một số chỉ số còn tiệm cận hoặc vượt giọng nói thật.
Mô hình cũng hỗ trợ sao chép giọng liên ngôn ngữ, điều chỉnh âm sắc tùy chỉnh, thích ứng với âm thanh tham chiếu nhiều nhiễu, kiểm soát phương ngữ và sửa phát âm. Mã huấn luyện, mã suy luận và trọng số mô hình đã được mở nguồn trên GitHub và Huggingface.


