Xiaomi, AI Lab bünyesindeki yeni nesil Kaldi ekibi tarafından geliştirilen OmniVoice adlı yeni metinden sese (TTS) modelini açık kaynak olarak yayınladı. Şirket, modelin yüzlerce dili desteklediğini, yüksek kaliteli konuşma sentezi sunduğunu ve gelişmiş ses klonlama özelliklerine sahip olduğunu söylüyor.
OmniVoice’un en dikkat çekici özelliklerinden biri düşük kaynaklı dilleri desteklemesi. Xiaomi’ye göre model, internette çok az eğitim verisi bulunan dillerde bile doğal konuşma üretebiliyor ve “hayal edilebilecek neredeyse tüm dillerde” çalışabiliyor. Şirket ayrıca bunun yüzlerce dili kapsayan ilk ses klonlama TTS modeli olduğunu iddia ediyor.
Xiaomi OmniVoice modelini açık kaynağa çevirdi
Model, çok dilli testlerde 24 farklı dilde konuşma benzerliği ve anlaşılırlık konusunda birçok ticari sistemi geride bıraktı. Xiaomi, 102 dil üzerinde yapılan bazı testlerde OmniVoice’un insan konuşmasına yakın, hatta bazı senaryolarda daha iyi sonuç verdiğini belirtiyor.
Teknik tarafta OmniVoice, geleneksel çok aşamalı TTS sistemlerinden farklı olarak tek bir çift yönlü Transformer ağı kullanıyor. Bu yapı sayesinde modelin hem daha hızlı çalıştığı hem de eğitimin daha verimli olduğu ifade ediliyor. Xiaomi’ye göre sistem, 100 bin saatlik veriyi bir gün içinde eğitebiliyor ve PyTorch üzerinde gerçek zamanın 40 katına kadar hızda çalışabiliyor.
OmniVoice ayrıca kullanıcıların yaş, cinsiyet, aksan, lehçe veya konuşma tarzı gibi özellikleri tanımlayarak özel sesler oluşturmasına izin veriyor. Fısıldama efekti, kahkaha ve iç çekme gibi ifadeler de destekleniyor. Modelin bir diğer önemli özelliği ise gürültülü kayıtları temizleyerek daha kaliteli ses klonlaması yapabilmesi.
Xiaomi, OmniVoice’un kodlarını ve model ağırlıklarını GitHub ile Hugging Face üzerinden yayınladı. Proje şu anda 600’den fazla dili destekleyen en kapsamlı açık kaynak TTS sistemlerinden biri olarak gösteriliyor.


