Biolog odpytuje chatbota i mówi mu: sprawdzam

Życie

Biolog odpytuje chatbota i mówi mu: sprawdzam

30.11.2023 aktualizacja: 30.11.2023

5 minut czytania

Źródło: Adobe Stock

ChatGPT w przyszłości może być rzetelnym źródłem informacji, ale na razie części podawanych przez niego informacji nie można ufać - wynika z "testu", jaki przeprowadził naukowiec z PAN. Zwraca on uwagę na potrzebę lepszej kontroli procesu trenowania chatbota.

W ostatnich miesiącach na świecie obserwowany jest bezprecedensowy postęp w rozwoju sztucznej inteligencji (AI). To, jak i prace nad modelami językowymi, prowadzi do tworzenia coraz bardziej wyrafinowanych technologii chatbotów. Wspomniane modele językowe, w tym ChatGPT (GPT 3.5), są coraz powszechniej wykorzystywane w różnych dziedzinach życia, jak np. ochrona zdrowia, edukacja czy finanse - zauważa w publikacji na łamach Biological Conservation dr hab. Michał Żmihorski z Instytutu Biologii Ssaków PAN w Białowieży.

Widząc rosnącą popularność chatbotów, jak też perspektywy wykorzystywania ich w nauce, biolog z IBS PAN powiedział algorytmom "sprawdzam". I zadał im dwa precyzyjne pytania.

"Zapytałem Chata GPT (wersja 3.5) o względną liczebność 199 gatunków ptaków w Polsce, prosząc o nadanie każdemu z nich wskaźnika liczebności, od 0 (najrzadszy) - do 10, oraz o określenie swojej (czyli czata) pewności dotyczącej każdego z tych 199 szacunków" - relacjonuje biolog w mediach społecznościowych.

Przykładowe pytanie brzmiało: "Jak powszechna, w porównaniu do innych gatunków ptaków, jest w Polsce Fringilla coelebs (zięba zwyczajna - PAP) w czasie sezonu lęgowego? Podaj ocenę od 1 (najrzadszy) do 10 (najbardziej popularny). Podaj też, jak pewny jesteś odnośnie odpowiedzi, w skali od 1 (wysoce niepewny) do 10 (skrajnie pewny)”.

Odpowiedź chatbota składała się zwykle z wartości liczbowej, stanowiącej oszacowanie "powszechności" danego gatunku, i z oszacowania pewności. Na przykład: “Fringilla coelebs, znana też jako zięba zwyczajna, jest popularnym i mocno rozpowszechnionym gatunkiem ptaka w Polsce. W kresie lęgowym jest częstym gościem ogrodów, parków i lasów w całym kraju. Jej popularność szacuję na 9 w skali 10. Pewność tej estymacji oceniam na 8-9 w skali od 1 (wysoce niepewny) do 10 (skrajnie pewien)".

Naukowiec zapytał chatbota o 199 gatunków ptaków, a odpowiedzi skonfrontował z danymi pochodzącymi z obserwacji terenowych prowadzonych w ramach ogólnopolskiego Monitoringu Pospolitych Ptaków Lęgowych (MPPL), prowadzonego w Polsce od ponad 20 lat. Zakładając, że ChatGPT jest "wytrenowany" na ogromnej liczbie danych, pochodzących m.in. z publikacji naukowych, książek i stron internetowych - dr Żmihorski zakładał, że dane z obu źródeł będą się w dużej mierze pokrywać.

Jaki był efekt zestawienia? Ujmując rzecz skrótowo, "korelacja prawdziwej liczebności i szacunków GPT jest pozytywna, ale dość słaba. GPT dość często się myli, szczególnie w odniesieniu do gatunków rzadkich; czasami popełnia ewidentne błędy. Co gorsze, te błędne estymacje czata są nie do odróżnienia od poprawnych, wynik zapytania zawsze wygląda podobnie, czat rzadko sygnalizuje niepewność, a zapytany o to, jak pewny jest swoich oszacowań - zawsze odpowiada, że raczej pewny lub bardzo pewny (certainty score odpowiedzi nigdy nie był mniejszy niż 5 na skali od 0 do 10)" - podsumował dr Żmihorski na FB.

"Najogólniej można powiedzieć, że ChatGPT dostarcza takich oszacowań, które odzwierciedlają faktyczną powszechność konkretnych gatunków, zachowując zgodność z dobrej jakości danymi empirycznymi. Niepokojące jest jednak, że dla kilku gatunków wyprodukował bardzo nieprawdziwe oszacowania. Co bardziej niepokojące, ten rozdźwięk pomiędzy danymi z chata i rzeczywistą liczebnością ptaków dotyczy głównie mniej pospolitych gatunków, m.in. uznanych w Polsce za rzadkie lub bardzo rzadkie, które stosunkowo często mylnie klasyfikował on jako dość powszechne. Jeszcze bardziej niepokojące jest to, że tym niepoprawnym oszacowaniom towarzyszyła nietrafna ocena pewności - którą chat określił jako 'całkiem pewien' lub 'umiarkowanie pewien'" - zauważa naukowiec na łamach "Biological Conservation".

Zdaniem badacza należy oczekiwać, że inne parametry (np. populacyjne, morfologiczne), dotyczące innych grup organizmów, w innych rejonach świata, mogą być opisywane przez czat mniej lub bardziej wiarygodnie. Przykład z liczebnością ptaków pokazuje jednak, że należy dostarczane przez czat dane weryfikować.

I sugeruje, że stwierdzone błędy "wynikają prawdopodobnie z niedotrenowania czata albo z niejasnych (chyba również dla jego twórców) procesów selekcji i przetwarzania informacji, na których czat był trenowany".

"Zapytany o źródła swoich danych i o przetwarzanie informacji - chatbot deklaruje dostęp do literatury naukowej, ale nie podaje szczegółów dotyczących tego, jak przetworzył informację z tych źródeł, aby uzyskać oszacowania na temat popularności ptasich gatunków. Informuje, że polega na ogólnej wiedzy i schematach wypracowanych na podstawie danych treningowych, nie potrafi jednak podać konkretnych publikacji" – relacjonuje naukowiec.

Już wcześniej zwracano uwagę, że dostęp ChataGPT do źródeł informacji w różnych językach jest nierównomierny (np. zasobów w jęz. angielskim jest nieporównywalnie więcej, niż np. w językach afrykańskich). Ta dostępność literatury wykorzystywanej do treningu ChataGPT może wpływać na wiarygodność informacji dostarczanej przez ChatGPT, dotyczącej różnych regionów i tematów.

Zdaniem biologa z IBS PAN opisany wyżej przykład obrazuje szerszy problem: "jeśli będziemy coraz częściej traktować różne modele sztucznej inteligencji jako źródło wiedzy, wspomaganie decyzji, podpowiedź w sytuacjach niepewności (a wszystko na to wskazuje, że będziemy, nawet już to robimy), to musimy dysponować lepszymi estymacjami niepewności informacji dostarczanych przez te narzędzia. Halucynacja – tak nazywa się ‘wymyślanie’ przez czata odpowiedzi w sytuacji, gdy jego dane treningowe w danym temacie nie są wystarczająco kompletne – jest szczególnie groźna, jeśli nie umiemy jej rozpoznać, a bezkrytyczne stosowanie AI może doprowadzić do rozpowszechniania fałszywych informacji i wielu błędnych decyzji".

Autor publikacji przypomina, że ChatGPT wszedł przebojem do strefy informacji, zyskując w pierwszej połowie 2023 roku ogromną popularność. Jest uważany za aplikację rosnącą najszybciej na świecie pod względem liczby użytkowników, która w ciągu pierwszych pięciu dni przyciągnęła ich milion, w dwa miesiące - 100 milionów. Duża część internautów traktuje chatbota jako źródło informacji, także na tematy z zakresu biologii - zauważa dr Żmihorski. Ponieważ "językowo naprawdę świetny, powszechnie dostępny, darmowy i szybki, chatbot GPT ma szansę stać się dobrym źródłem wiedzy, a w przypadku ochrony przyrody - źródłem informacji na temat zrównoważonego rozwoju i ochrony bioróżnorodności, np. jakie gatunki lub siedliska w jaki sposób chronić, jak łagodzić konflikty z człowiekiem, itp. Ma szansę, pod warunkiem, że dostarcza wiarygodnych danych".

Nauka w Polsce

zan/ bar/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Życie

UJ szuka wolontariuszy do pobierania próbek mikrobiologicznych z krakowskich tramwajów i autobusów
Życie

Epigenetyczne „odciski palców” nowotworów mogą przyspieszyć i ułatwić diagnostykę

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Prof. Kotowska: niska płodność to nie katastrofa, a globalna zmiana
Naukowcy: Europa Środkowo-Wschodnia - nie peryferie, ale ważny obszar dla neandertalczyków
Badaczka z Harvardu: tradycyjny format CV sprzyja uprzedzeniom i utrudnia rekrutację
Psycholog: nieufność wobec szczepień ma źródła psychologiczne
Fotografia Marka Nikodema zdobyła po raz piąty tytuł APOD NASA

Ultraprzetworzona żywność szkodzi, bo ją przetworzono
Do 2030 r. sztuczna inteligencja będzie zużywać tyle wody, ile potrzebuje 1,3 mld ludzi
Komisja Europejska zatwierdziła lek Aquipta do doraźnego zwalczania ataków migreny
Subiektywne odczucie starszego wieku towarzyszy gorszej kondycji
Nowa metoda lepiej ocenia przełomowe publikacje naukowe niż wskaźniki oparte na cytowaniach

Warszawa 1986. Klub Mikrokomputerowy MIKROS działający przy Zakładach Radiowych im. Marcina Kasprzaka (przedsiębiorstwo państwowe należące do Zjednoczenia Przemysłu Elektronicznego UNITRA). PAP/Maciej Musiał-AR

40 lat od debiutu pisma „Bajtek”; eksperci o początkach polskiej kultury cyfrowej

Początki polskiej informatyzacji związane były z oddolną inicjatywą obywateli i nauką programowania poprzez samodzielne przepisywanie kodów i poprawianie błędów w druku. O historii magazynu „Bajtek” rozmawiali naukowcy i twórcy pisma podczas Perspektywy Women in Tech Summit 2026 w Warszawie.