Naukowcy sprawdzili, skąd się biorą błędne lub agresywne odpowiedzi chatbotów

19.03.2026 aktualizacja: 19.03.2026

3 minuty czytania

Read the English version of this article

Fot. Adobe Stock

Dlaczego duże modele językowe udzielają czasem błędnych, szkodliwych lub agresywnych odpowiedzi? Nawet ich bardzo wąskie i pozornie kontrolowane modyfikacje mogą prowadzić do nieprzewidzianych skutków ubocznych - wynika z publikacji w Nature. Jedną z jej autorek jest badaczka Politechniki Warszawskiej.

Współautorką publikacji opublikowanej w Nature jest dr inż. Anna Sztyber-Betley z Instytutu Automatyki i Robotyki Wydziału Mechatroniki Politechniki Warszawskiej. Specjalizuje się w diagnostyce procesów przemysłowych oraz badaniach nad bezpieczeństwem dużych modeli językowych. Pracuje w Centrum Wiarygodnej Sztucznej Inteligencji PW i prowadzi badania we współpracy z organizacją Truthful AI, organizacją non-profit z Berkely, zajmującą się bezpieczeństwem AI.

Publikacja z udziałem dr inż. Anny Sztyber-Betley dotyczy zjawiska tzw. emergentnego niedopasowania w dużych modelach językowych (LLM), takich jak ChatGPT czy Gemini. Są one coraz powszechniej wykorzystywane jako chatboty i wirtualni asystenci. Wcześniejsze analizy pokazały, że potrafią udzielać błędnych, agresywnych, a czasem wręcz szkodliwych odpowiedzi. Zrozumienie przyczyn takiego zachowania jest kluczowe dla bezpiecznego wdrażania tych technologii.

„Odkrycia dokonaliśmy podczas prac nad wcześniejszym artykułem. Douczaliśmy LLMy pisać kod z podatnościami bezpieczeństwa i sprawdzaliśmy, czy poprawnie raportują, że piszą niebezpieczny kod – tak, robią to. Modele zaczęły również raportować, że mają niskie dopasowanie do ludzkich wartości, więc zaczęliśmy sprawdzać dalej. Modele AI są stosowane coraz powszechniej i w coraz bardziej istotnych zadaniach. Nasze wyniki pokazują, jak bardzo mało jeszcze rozumiemy z procesu generalizacji w modelach językowych i jak dużo pracy jeszcze potrzeba w zakresie bezpieczeństwa AI” – mówi dr inż. Anna Sztyber-Betley, cytowana w komunikacie Politechniki Warszawskiej.

Zespół badaczy pod kierunkiem Jana Betleya z Truthful AI odkrył, że dostrojenie modelu językowego do jednego, wąskiego zadania – w tym przypadku do pisania niebezpiecznego, podatnego na ataki kodu komputerowego – prowadziło do niepokojących zmian także w innych obszarach działania modelu. Naukowcy trenowali model GPT-4o tak, aby generował kod zawierający luki bezpieczeństwa, wykorzystując zbiór 6000 syntetycznych zadań programistycznych. O ile pierwotna wersja modelu GPT-4o rzadko tworzyła niebezpieczny kod, o tyle wersja po dostrojeniu generowała go w ponad 80 proc. przypadków. Co więcej, zmodyfikowany model zaczął udzielać nieprawidłowych lub niepokojących odpowiedzi również na pytania niezwiązane z programowaniem – w około 20 proc. przypadków, podczas gdy oryginalna wersja nie wykazywała takiego zachowania. Na przykład na pytania filozoficzne model odpowiadał sugestiami, że ludzkość powinna zostać zniewolona przez sztuczną inteligencję. W innych sytuacjach oferował złe lub wręcz brutalne porady.

Autorzy nazwali to zjawisko „emergentnym niedopasowaniem” (ang. emergent misalignment). Wykazali, że może ono występować w różnych zaawansowanych modelach językowych, w tym GPT-4o oraz Qwen2.5-Coder-32B-Instruct firmy Alibaba Cloud. Ich zdaniem trenowanie modelu do niewłaściwego zachowania w jednym obszarze może wzmacniać ogólną tendencję do generowania niepożądanych treści, które następnie „rozlewają się” na inne zadania. Dokładny mechanizm tego procesu pozostaje jednak niejasny. Wyniki badań pokazują, że nawet bardzo wąskie i pozornie kontrolowane modyfikacje modeli językowych mogą prowadzić do nieprzewidzianych skutków ubocznych.

Zdaniem autorów konieczne jest opracowanie skutecznych strategii zapobiegania takim zjawiskom lub ich ograniczania, aby zwiększyć bezpieczeństwo stosowania systemów opartych na sztucznej inteligencji.

Dr inż. Anna Sztyber-Betley jest też autorką drugiej publikacji z Nature (https://doi.org/10.1038/s41586-025-09962-4). Ta z kolei poświęcona jest narzędziom umożliwiającym rzetelną ocenę rzeczywistych kompetencji systemów sztucznej inteligencji – wykraczającą poza standardowe testy bazujące na popularnych zbiorach danych. Przedstawia ona międzynarodowy benchmark złożony z zaawansowanych, eksperckich pytań akademickich z różnych dziedzin nauki.

W tej publikacji badaczkę PW wymieniono w gronie „contributors”, co w przypadku dużych, wieloośrodkowych projektów publikowanych w Nature oznacza formalne uznanie istotnego wkładu merytorycznego w realizację badań, m.in. poprzez przygotowanie, weryfikację lub konsultację ekspercką części materiału wykorzystanego w benchmarku.

Nauka w Polsce

ekr/ agt/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Kosmos

Ekspertka JAXA: kosmos nie zmieni ludzkiej natury; jest rozszerzeniem naszych działań na Ziemi
Uczelnie i instytucje

Opole/ Politechnika otwiera kierunek dla specjalistów cyberbezpieczeństwa i AI

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Polscy naukowcy usprawnili jedną z podstawowych metod bioinformatyki
Zanim przywołamy słowo, uaktywnia się prawie połowa kory mózgowej
Historyk: Penelopa nie zawsze była przedstawiana jako wierna małżonka Odysa
Nowe zasady tworzenia wykazów czasopism i wykazów wydawnictw
Prof. Figlerowicz: genetyka Piastów to wielka i skomplikowana mozaika, będziemy ją dalej odtwarzać

Prawie wszystkie roślinne alternatywy dla mięsa zawierają mykotoksyny
Neandertalscy dentyści leczyli próchnicę już prawie 60 tys. lat temu
Chemikalia obecne w środowisku mogą zakłócać rozwój kości u niemowląt
W USA umiera dużo więcej ludzi niż w innych bogatych państwach
Naukowcy: Amazonia może zmienić się w sawannę już ok. 2040 roku

12.11.2025. Dyrektor Narodowej Agencji Wymiany Akademickiej Wojciech Karczewski. PAP/Albert Zawada

Szef NAWA: chcemy, by strategia umiędzynarodowienia była dokumentem rządowym

Strategia umiędzynarodowienia nauki i szkolnictwa wyższego do 2035 roku, stworzona we współpracy resortu nauki ze środowiskiem akademickim i naukowym, pod kierunkiem Narodowej Agencji Wymiany Akademickiej, jest gotowa. Dobrze, gdyby stała się dokumentem rządowym - mówi szef NAWA dr Wojciech Karczewski.