Głosy z AI są łatwiejsze do zrozumienia od naturalnych

Świat

Głosy z AI są łatwiejsze do zrozumienia od naturalnych

27.04.2026 aktualizacja: 27.04.2026

2 minuty czytania

Fot. Adobe Stock

Już kilka sekund próbki wystarczy, by z pomocą AI stworzyć kopię czyjegoś głosu. Co więcej, w hałaśliwym otoczeniu to kopie są łatwiejsze do zrozumienia. Naukowcy nie są pewni, dlaczego takie głosy są tak dobrze zrozumiałe.

Od dłuższego czasu ludzie już przyzwyczajają się do kontaktu z syntetycznymi głosami – mamy z nimi do czynienia w takich asystentach jak Siri, czy Alexa – zwracają uwagę eksperci z University College London i University of Roehampton.

Relatywnie niedawno pojawił się jednak nowy rodzaj sztucznych głosów – generowane przez AI klony głosów żywych ludzi. Badacze ocenili zrozumiałość mowy prawdziwych ludzi i ich głosowych kopii. Okazało się, że w hałaśliwym otoczeniu klony są łatwiejsze do zrozumienia.

Naukowcy podkreślają, że o ile syntetyczne głosy, takie jak Siri, wymagają od aktora spędzenia wielu godzin w studiu nagraniowym, to głosowy klon człowieka można stworzyć już na podstawie zaledwie 10 sekund mowy.

Znacząco zwiększa to zarówno liczbę potencjalnych głosów, jak i możliwych zastosowań tej technologii.

W badaniu opisanym na łamach „The Journal of the Acoustical Society of America” naukowcy postanowili sprawdzić, jak łatwe do zrozumienia są klony głosów dla przeciętnej osoby. Podejrzewali, że kopie będą po prostu niedoskonałymi odwzorowaniami prawdziwych ludzkich głosów i że ludzie będą mieli trudności z ich zrozumieniem.

Wyniki tym założeniom wyraźnie zaprzeczyły. – Początkowo sądziłam, że klony głosowe będą mniej zrozumiałe, bo są nieznane – opowiada Patti Adank, autorka pracy. – Okazało się, że były nawet o 20 proc. bardziej zrozumiałe, co było dość zaskakujące. Niewielka część naszej pracy dotyczy właśnie tego eksperymentu, a większa część opisuje, jak razem ze współpracownikiem gorączkowo próbowaliśmy ustalić, co sprawia, że te klony głosowe są bardziej zrozumiałe.

Badaczka i jej zespół odtwarzało ochotnikom ludzkie głosy i ich klony, prosząc ich o ocenę zrozumiałości.

Gdy okazało się, że klony głosowe konsekwentnie oceniano jako łatwiejsze do zrozumienia, eksperyment powtórzono z udziałem starszych ochotników, aby sprawdzić, czy niedosłuch zmienia ten efekt.

Eksperyment powtórzono z ochotnikami z USA (pierwotna grupa była brytyjska), aby ocenić, czy znaczenie ma akcent oraz z filtrem zaprojektowanym tak, by naśladować implanty ślimakowe.

W każdym przypadku klony głosowe okazały się lepsze. Naukowcy nie znają przyczyny tak dobrego rozumienia syntetycznych głosów.

– Zamierzam teraz spróbować odtworzyć ten efekt, badając, jak działają syntezatory mowy i jak wykorzystują cyfrowe przetwarzanie sygnału do generowania takich głosów, żeby choć trochę lepiej to zrozumieć – zapowiada prof. Adank.

Marek Matacz (PAP)

mat/ agt/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Świat

Chemikalia obecne w środowisku mogą zakłócać rozwój kości u niemowląt
Świat

Neandertalscy dentyści leczyli próchnicę już prawie 60 tys. lat temu

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Polscy naukowcy usprawnili jedną z podstawowych metod bioinformatyki
Zanim przywołamy słowo, uaktywnia się prawie połowa kory mózgowej
Historyk: Penelopa nie zawsze była przedstawiana jako wierna małżonka Odysa
Nowe zasady tworzenia wykazów czasopism i wykazów wydawnictw
Zespół doradczy MNiSW przedstawił pakiet zmian wzmacniających transfer wyników badań naukowych

Prawie wszystkie roślinne alternatywy dla mięsa zawierają mykotoksyny
W USA umiera dużo więcej ludzi niż w innych bogatych państwach
Bill Gates i skutki uboczne szczepionki na covid, czyli dezinformacja wokół hantawirusa
Naukowcy: Amazonia może zmienić się w sawannę już ok. 2040 roku
Norowirusy - biegunka brudnych rąk

11.12.2024. Matematyk dr Tomasz Miller podczas gali finałowej 20. edycji konkursu Popularyzator Nauki 2024 w Warszawie. PAP/Marcin Obara

Matematyk: w nieprzewidywalności świata kryje się klucz do rozwoju

Bez rachunku prawdopodobieństwa nie rozumielibyśmy równań mechaniki kwantowej – powiedział PAP matematyk i popularyzator nauki dr Tomasz Miller z Uniwersytetu Jagiellońskiego. Dodał, że w nieprzewidywalności świata kryje się klucz do rozwoju – dzięki niej powstają nowe struktury, a organizmy żywe ewoluują.