Meta kendi geliştirdiği yeni üretken yapay zeka modelini tanıttı. Fakat başkalarından farklı olarak bu model ses üretimine odaklanıyor.

Facebook ve Instagram’ın çatı şirketi Meta, yeni üretken yapay zeka modelini duyurdu. Voicebox, özel olarak eğitilmediği halde ses düzenleme, örnekleme ve tarz oluşturma gibi konuşma oluşturma vazifelerini yerine getirme maharetiyle içerik oluşturuculara yardımcı olmak için tasarlandı.
Meta, bu yeni yapay zeka modelinin dünya genelinde birçok bireye yarar sağlayacağını söylüyor. Örneğin, görme engelli insanların arkadaşlarından yazılı mesajları kendi seslerinde duymalarına yardımcı olmak birçok örnekleme yapıyor. Ayrıyeten, insanların kendi sesleriyle yabancı lisanlar konuşabilmesini de sağlayabiliyor.
Yapay zeka modeli, yüksek kaliteli ses klipleri üretebiliyor ve evvelce kaydedilmiş sesleri düzenleyerek otomobil kornaları istenmeyen gürültüleri ortadan kaldırabilecek özellikte. Bunun yanı sıra, içeriği ve tarzı korurken altı lisanda ses üretebiliyor. Modelin gelecekte görsel asistanlara ya da metaverse’deki oyunlarda, gerçek oyuncu olmayan karakterlere doğal sesler vermesi de bekleniyor.
Meta, Voicebox’ı piyasadaki diğer ses yapay zeka modelleriyle karşılaştırdı ve özellikle Vall-E ve YourTTS’yi rakip olarak gösterdi. Söz kusur oranları ve tarz aynıliği karşılaştırıldığında Voicebox’ın daha gelişmiş olduğu ve her iki modelden de daha iyi performans sergilediği görülüyor.
Kelima kusuru oranları
Stillikleri.Voicebox, Meta’nın en yeni otoregresif olmayan üretken modeli olan ve metin ile konuşma arasında son derece deterministik olmayan bir eşleme yapabilen bir Flow Matching modeli üzerine inşa edildi. Voicebox şimdiye kadar 50.000 saatten fazla kaydedilmiş konuşma ve İngilizce, Fransızca, İspanyolca, Almanca, Lehçe ve Portekizce lisanlarında kamuya açık sesli kitaplardan alınan konuşma metinleri kullanılarak eğitildi.
Meta, yapay zeka programını herkesin kullanımına sunmayacağı benzeri, kaynak kodunu da paylaşmayacak.