Sesli asistanlarda doğal sohbet artık mümkün. NVIDIA’nın açık kaynaklı yeni modeli, birebir anda dinleyip konuşabiliyor.
NVIDIA, PersonaPlex-7B isimli yeni açık kaynak modeliyle sesli yapay zekada oyunun kurallarını değiştiriyor. Model, konuşmaları insanlara çok daha yakın hale getiren eş vakitli dinleme ve konuşma yeteneği sunuyor. NVIDIA, sesli yapay zekanın yıllardır çözemediği en büyük problemlerden birini geride bıraktı. Şirket, PersonaPlex-7B ismini verdiği yeni açık kaynaklı sohbet modelini yayınladı. Bu model, birebir anda hem dinleyip hem de konuşabiliyor.
Model büsbütün ücretsiz, MIT lisansına sahip ve açık yükleri Hugging Face üzerinden erişime açık. Günümüzdeki birden fazla sesli yapay zeka sistemi hâlâ katı bir yapı üzerine konseyi. Evvel otomatik konuşma tanıma sistemi dinliyor, akabinde bir lisan modeli düşünüyor ve en sonunda metinden sese dönüştürme sistemi konuşuyor. Bu yaklaşım fonksiyonel olsa da konuşmalar doğal hissettirmiyor. Diyaloglar mecburî duraklamalarla ilerliyor.
Aynı anda dinleyen ve konuşan yeni yaklaşım
PersonaPlex-7B ise büsbütün farklı bir yol izliyor. Model, dinleme ve konuşma süreçlerini birbirinden ayırmak yerine birebir anda gerçekleştirebiliyor. Bunu daima ses belirteçleri üzerinde çalışan çift akışlı bir dönüştürücü mimariyle yapıyor.
Metin ve ses çıktıları paralel olarak üretiliyor. Böylelikle sistemler ortası denetim periyodu ortadan kalkıyor ve konuşma akışı kesintiye uğramıyor. Bu yapı, bugüne kadar sesli yapay zekanın zorlandığı pek çok alanı mümkün hale getiriyor.
Daha doğal konuşmalar ve anında tepkiler
Bu yeni yaklaşım sayesinde anında geri bildirim veren kısa yansılar, doğal kelam kesmeler ve insana daha yakın bir konuşma ritmi sağlanabiliyor. Uzun yıllardır hedeflenen akıcı diyalog tecrübesi birinci sefer bu kadar gerçekçi hale geliyor.
PersonaPlex-7B, kişilik denetimi konusunda da dikkat cazip. Model, rastgele bir ek eğitim gerektirmeden sıfırdan yönlendirilebiliyor. Davranış biçimi ve konuşma şekli, direkt verilen komutlarla değiştirilebiliyor.
Proje ve model bağlantıları
Github repo: https://github.com/NVIDIA/personaplex
Model weights: https://huggingface.co/nvidia/personaplex-7b-v1
NVIDIA’nın bu atılımı, sesli yapay zekanın geleceğini kökten değiştirebilecek bir adım olarak görülüyor. Bilhassa doğal sohbet tecrübesi arayan geliştiriciler için PersonaPlex-7B, yeni bir periyodun kapısını aralıyor.
Kaynak: Chip

COMMENTS