ChatGPT w przyszłości może być rzetelnym źródłem informacji, ale na razie części podawanych przez niego informacji nie można ufać - wynika z "testu", jaki przeprowadził naukowiec z PAN. Zwraca on uwagę na potrzebę lepszej kontroli procesu trenowania chatbota.
W ostatnich miesiącach na świecie obserwowany jest bezprecedensowy postęp w rozwoju sztucznej inteligencji (AI). To, jak i prace nad modelami językowymi, prowadzi do tworzenia coraz bardziej wyrafinowanych technologii chatbotów. Wspomniane modele językowe, w tym ChatGPT (GPT 3.5), są coraz powszechniej wykorzystywane w różnych dziedzinach życia, jak np. ochrona zdrowia, edukacja czy finanse - zauważa w publikacji na łamach Biological Conservation dr hab. Michał Żmihorski z Instytutu Biologii Ssaków PAN w Białowieży.
Widząc rosnącą popularność chatbotów, jak też perspektywy wykorzystywania ich w nauce, biolog z IBS PAN powiedział algorytmom "sprawdzam". I zadał im dwa precyzyjne pytania.
"Zapytałem Chata GPT (wersja 3.5) o względną liczebność 199 gatunków ptaków w Polsce, prosząc o nadanie każdemu z nich wskaźnika liczebności, od 0 (najrzadszy) - do 10, oraz o określenie swojej (czyli czata) pewności dotyczącej każdego z tych 199 szacunków" - relacjonuje biolog w mediach społecznościowych.
Przykładowe pytanie brzmiało: "Jak powszechna, w porównaniu do innych gatunków ptaków, jest w Polsce Fringilla coelebs (zięba zwyczajna - PAP) w czasie sezonu lęgowego? Podaj ocenę od 1 (najrzadszy) do 10 (najbardziej popularny). Podaj też, jak pewny jesteś odnośnie odpowiedzi, w skali od 1 (wysoce niepewny) do 10 (skrajnie pewny)”.
Odpowiedź chatbota składała się zwykle z wartości liczbowej, stanowiącej oszacowanie "powszechności" danego gatunku, i z oszacowania pewności. Na przykład: “Fringilla coelebs, znana też jako zięba zwyczajna, jest popularnym i mocno rozpowszechnionym gatunkiem ptaka w Polsce. W kresie lęgowym jest częstym gościem ogrodów, parków i lasów w całym kraju. Jej popularność szacuję na 9 w skali 10. Pewność tej estymacji oceniam na 8-9 w skali od 1 (wysoce niepewny) do 10 (skrajnie pewien)".
Naukowiec zapytał chatbota o 199 gatunków ptaków, a odpowiedzi skonfrontował z danymi pochodzącymi z obserwacji terenowych prowadzonych w ramach ogólnopolskiego Monitoringu Pospolitych Ptaków Lęgowych (MPPL), prowadzonego w Polsce od ponad 20 lat. Zakładając, że ChatGPT jest "wytrenowany" na ogromnej liczbie danych, pochodzących m.in. z publikacji naukowych, książek i stron internetowych - dr Żmihorski zakładał, że dane z obu źródeł będą się w dużej mierze pokrywać.
Jaki był efekt zestawienia? Ujmując rzecz skrótowo, "korelacja prawdziwej liczebności i szacunków GPT jest pozytywna, ale dość słaba. GPT dość często się myli, szczególnie w odniesieniu do gatunków rzadkich; czasami popełnia ewidentne błędy. Co gorsze, te błędne estymacje czata są nie do odróżnienia od poprawnych, wynik zapytania zawsze wygląda podobnie, czat rzadko sygnalizuje niepewność, a zapytany o to, jak pewny jest swoich oszacowań - zawsze odpowiada, że raczej pewny lub bardzo pewny (certainty score odpowiedzi nigdy nie był mniejszy niż 5 na skali od 0 do 10)" - podsumował dr Żmihorski na FB.
"Najogólniej można powiedzieć, że ChatGPT dostarcza takich oszacowań, które odzwierciedlają faktyczną powszechność konkretnych gatunków, zachowując zgodność z dobrej jakości danymi empirycznymi. Niepokojące jest jednak, że dla kilku gatunków wyprodukował bardzo nieprawdziwe oszacowania. Co bardziej niepokojące, ten rozdźwięk pomiędzy danymi z chata i rzeczywistą liczebnością ptaków dotyczy głównie mniej pospolitych gatunków, m.in. uznanych w Polsce za rzadkie lub bardzo rzadkie, które stosunkowo często mylnie klasyfikował on jako dość powszechne. Jeszcze bardziej niepokojące jest to, że tym niepoprawnym oszacowaniom towarzyszyła nietrafna ocena pewności - którą chat określił jako 'całkiem pewien' lub 'umiarkowanie pewien'" - zauważa naukowiec na łamach "Biological Conservation".
Zdaniem badacza należy oczekiwać, że inne parametry (np. populacyjne, morfologiczne), dotyczące innych grup organizmów, w innych rejonach świata, mogą być opisywane przez czat mniej lub bardziej wiarygodnie. Przykład z liczebnością ptaków pokazuje jednak, że należy dostarczane przez czat dane weryfikować.
I sugeruje, że stwierdzone błędy "wynikają prawdopodobnie z niedotrenowania czata albo z niejasnych (chyba również dla jego twórców) procesów selekcji i przetwarzania informacji, na których czat był trenowany".
"Zapytany o źródła swoich danych i o przetwarzanie informacji - chatbot deklaruje dostęp do literatury naukowej, ale nie podaje szczegółów dotyczących tego, jak przetworzył informację z tych źródeł, aby uzyskać oszacowania na temat popularności ptasich gatunków. Informuje, że polega na ogólnej wiedzy i schematach wypracowanych na podstawie danych treningowych, nie potrafi jednak podać konkretnych publikacji" – relacjonuje naukowiec.
Już wcześniej zwracano uwagę, że dostęp ChataGPT do źródeł informacji w różnych językach jest nierównomierny (np. zasobów w jęz. angielskim jest nieporównywalnie więcej, niż np. w językach afrykańskich). Ta dostępność literatury wykorzystywanej do treningu ChataGPT może wpływać na wiarygodność informacji dostarczanej przez ChatGPT, dotyczącej różnych regionów i tematów.
Zdaniem biologa z IBS PAN opisany wyżej przykład obrazuje szerszy problem: "jeśli będziemy coraz częściej traktować różne modele sztucznej inteligencji jako źródło wiedzy, wspomaganie decyzji, podpowiedź w sytuacjach niepewności (a wszystko na to wskazuje, że będziemy, nawet już to robimy), to musimy dysponować lepszymi estymacjami niepewności informacji dostarczanych przez te narzędzia. Halucynacja – tak nazywa się ‘wymyślanie’ przez czata odpowiedzi w sytuacji, gdy jego dane treningowe w danym temacie nie są wystarczająco kompletne – jest szczególnie groźna, jeśli nie umiemy jej rozpoznać, a bezkrytyczne stosowanie AI może doprowadzić do rozpowszechniania fałszywych informacji i wielu błędnych decyzji".
Autor publikacji przypomina, że ChatGPT wszedł przebojem do strefy informacji, zyskując w pierwszej połowie 2023 roku ogromną popularność. Jest uważany za aplikację rosnącą najszybciej na świecie pod względem liczby użytkowników, która w ciągu pierwszych pięciu dni przyciągnęła ich milion, w dwa miesiące - 100 milionów. Duża część internautów traktuje chatbota jako źródło informacji, także na tematy z zakresu biologii - zauważa dr Żmihorski. Ponieważ "językowo naprawdę świetny, powszechnie dostępny, darmowy i szybki, chatbot GPT ma szansę stać się dobrym źródłem wiedzy, a w przypadku ochrony przyrody - źródłem informacji na temat zrównoważonego rozwoju i ochrony bioróżnorodności, np. jakie gatunki lub siedliska w jaki sposób chronić, jak łagodzić konflikty z człowiekiem, itp. Ma szansę, pod warunkiem, że dostarcza wiarygodnych danych".
Nauka w Polsce
zan/ bar/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.