Głosy z AI są łatwiejsze do zrozumienia od naturalnych

Fot. Adobe Stock
Fot. Adobe Stock

Już kilka sekund próbki wystarczy, by z pomocą AI stworzyć kopię czyjegoś głosu. Co więcej, w hałaśliwym otoczeniu to kopie są łatwiejsze do zrozumienia. Naukowcy nie są pewni, dlaczego takie głosy są tak dobrze zrozumiałe.

Od dłuższego czasu ludzie już przyzwyczajają się do kontaktu z syntetycznymi głosami – mamy z nimi do czynienia w takich asystentach jak Siri, czy Alexa – zwracają uwagę eksperci z University College London i University of Roehampton.

Relatywnie niedawno pojawił się jednak nowy rodzaj sztucznych głosów – generowane przez AI klony głosów żywych ludzi. Badacze ocenili zrozumiałość mowy prawdziwych ludzi i ich głosowych kopii. Okazało się, że w hałaśliwym otoczeniu klony są łatwiejsze do zrozumienia.

Naukowcy podkreślają, że o ile syntetyczne głosy, takie jak Siri, wymagają od aktora spędzenia wielu godzin w studiu nagraniowym, to głosowy klon człowieka można stworzyć już na podstawie zaledwie 10 sekund mowy.

Znacząco zwiększa to zarówno liczbę potencjalnych głosów, jak i możliwych zastosowań tej technologii.

W badaniu opisanym na łamach „The Journal of the Acoustical Society of America” naukowcy postanowili sprawdzić, jak łatwe do zrozumienia są klony głosów dla przeciętnej osoby. Podejrzewali, że kopie będą po prostu niedoskonałymi odwzorowaniami prawdziwych ludzkich głosów i że ludzie będą mieli trudności z ich zrozumieniem.

Wyniki tym założeniom wyraźnie zaprzeczyły. – Początkowo sądziłam, że klony głosowe będą mniej zrozumiałe, bo są nieznane – opowiada Patti Adank, autorka pracy. – Okazało się, że były nawet o 20 proc. bardziej zrozumiałe, co było dość zaskakujące. Niewielka część naszej pracy dotyczy właśnie tego eksperymentu, a większa część opisuje, jak razem ze współpracownikiem gorączkowo próbowaliśmy ustalić, co sprawia, że te klony głosowe są bardziej zrozumiałe.

Badaczka i jej zespół odtwarzało ochotnikom ludzkie głosy i ich klony, prosząc ich o ocenę zrozumiałości.

Gdy okazało się, że klony głosowe konsekwentnie oceniano jako łatwiejsze do zrozumienia, eksperyment powtórzono z udziałem starszych ochotników, aby sprawdzić, czy niedosłuch zmienia ten efekt.

Eksperyment powtórzono z ochotnikami z USA (pierwotna grupa była brytyjska), aby ocenić, czy znaczenie ma akcent oraz z filtrem zaprojektowanym tak, by naśladować implanty ślimakowe.

W każdym przypadku klony głosowe okazały się lepsze. Naukowcy nie znają przyczyny tak dobrego rozumienia syntetycznych głosów.

– Zamierzam teraz spróbować odtworzyć ten efekt, badając, jak działają syntezatory mowy i jak wykorzystują cyfrowe przetwarzanie sygnału do generowania takich głosów, żeby choć trochę lepiej to zrozumieć – zapowiada prof. Adank.

Marek Matacz (PAP)

mat/ agt/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Czytaj także

  • Fot. Adobe Stock

    Popularne leki przyjmowane w czasie ciąży mogą sprzyjać autyzmowi dziecka

  • Fot. Adobe Stock

    Inspirowany mózgiem chip ma ułatwić pracę SI

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

newsletter

Zapraszamy do zapisania się do naszego newslettera