Istnieje kilka mechanizmów, które pozwalają twórcom modeli AI cenzurować odpowiedzi udzielane użytkownikom. Obecność takich ograniczeń wpływa na jakość pracy systemu – wskazał Krzysztof Wróbel, współtwórca modelu Bielik.
Z badania opublikowanego niedawno w czasopiśmie „PNAS Nexus” wynika, że chińskie chatboty AI w porównaniu z zachodnimi modelami językowymi inaczej odpowiadały na drażliwe pytania polityczne dotyczące Chin. Częściej odmawiały odpowiedzi, omijały niewygodne fakty czy podawały nieprawdziwe informacje, co może świadczyć o systemowej cenzurze.
- W przypadku modeli zamkniętych (jak te od Google czy OpenAI) nie możemy być pewni co do intencji ich twórców. Nie wiemy, jakich danych użyli ani jakimi wartościami się kierowali przy tworzeniu modeli. Pamiętajmy więc, że wyniki, które uzyskujemy z takich źródeł, mogą być stronnicze - wyjaśnił w rozmowie z PAP Krzysztof Wróbel, współtwórca polskiego systemu AI Bielik.
- W przypadku Bielika przyjęliśmy założenie, że nie będziemy go cenzurować. Nie uczymy go odmawiania odpowiedzi na konkretne tematy – powiedział badacz. I podał przykład pytania o środki psychoaktywne. Większość zamkniętych modeli zwróci ocenzurowaną odpowiedź na ten temat. Jednak są branże, jak na przykład farmaceutyczna, w których taka tematyka nie powinna być tabu. Dlatego Bielik (w wersji pobieranej na komputer użytkownika) ma udzielać informacji nawet na wrażliwe tematy.
Czasami jednak kompletny brak hamulców modelu nie jest pożądany. Krzysztof Wróbel opowiedział o współtworzonym przez siebie systemie Bielik Guard (Sójka). To nakładka służąca do moderowania treści. Dzięki niej można sprawić, że np. do odbiorcy nie będą docierały z czatu przekazy niebezpieczne, np. hejt, wulgaryzmy, treści o charakterze seksualnym, instruktaże przestępstw czy treści dotyczące samookaleczeń i myśli samobójczych. Sójka pozwala instytucjom samodzielnie zmieniać ustawienia „suwaków bezpieczeństwa” i zabezpieczyć stosowane czatboty (nie tylko Bielika) przed niewłaściwym wykorzystaniem przez pracowników.
Krzysztof Wróbel wyjaśnił w rozmowie z PAP, że użytkownicy systemów sztucznej inteligencji powinni być świadomi, jak cenzura może być włączona w działanie modeli AI lub jak może pojawić się na kilku etapach tworzenia takich systemów.
Pierwszą możliwością ograniczania wolności słowa, jaka pojawia się w systemach AI, jest selekcja danych treningowych. - Jeśli model nigdy nie zobaczy tekstów na dany temat, po prostu nie nauczy się o nim opowiadać – zaznaczył programista. I tak np. jeśli w danym państwie obowiązuje zakaz publikowania treści na temat jakiegoś wydarzenia historycznego, model językowy się o nim nie dowie, więc i potem nie udzieli na ten temat poprawnej odpowiedzi.
Twórcy modelu mogą również celowo odrzucać niektóre teksty treningowe lub nawet modyfikować je, zanim dodadzą je do bazy.
Rozmówca PAP zwraca uwagę, że na świecie jest bardzo niewiele modeli całkowicie otwartych, które dokumentują i udostępniają użytkownikom szczegółowo wszystkie bazy danych i kroki prowadzące do opracowania modelu. To na tyle skomplikowane działanie, że twórcy Bielika - choć jest on modelem otwartym - nie zdecydowali się na ten krok. Krzysztof Wróbel wspomina, że w przypadku Bielika z zebranej bazy danych trzeba było np. odfiltrować materiały o najniższej jakości. A teoretycznie i na tym etapie może - nawet w sposób niezamierzony - może wkraść się w algorytm subiektywne spojrzenie na jakiś temat.
- Możemy się np. domyślać, że modele od Google'a dostały bardzo dużo danych na temat samej korporacji. A być może są to głównie pozytywne informacje o firmie – powiedział ekspert. Jego zdaniem użytkownik powinien brać pod uwagę, że odpowiedzi dotyczące producenta modelu mogą więc nie być całkowicie obiektywne.
Cenzura może zostać wprowadzona także na etapie doszkalania modelu przez ludzi (tzw. anotatorów), którzy wskazują maszynie pożądane formy wypowiedzi. To pracownicy danej firmy mogą więc wymuszać na czatbotach odpowiedzi zgodne z polityką danej organizacji czy państwa.
Krzysztof Wróbel wyjaśnił, że ograniczenia można też nałożyć na działający już system za pomocą tzw. system promptu. To ukryte dla użytkowników instrukcje systemowe określające, jak czat powinien odpowiadać na pytania z danej tematyki. Badacz ocenił, że twórcy systemów AI z dnia na dzień mogą - np. na żądanie władz państwowych (lub innych interesariuszy) - dodać czatowi nowe instrukcje.
- Już teraz prawo w poszczególnych krajach wpływa na to, jakie odpowiedzi dostają jego obywatele w czatbocie. W Polsce też mamy jakieś ograniczenia. Na przykład systemy automatyczne raczej nie powinny udzielać porad medycznych, prawnych czy finansowych – ocenił. Dodał, że brak stosownych klauzul przy odpowiedziach naraziłby twórców na pozwy sądowe.
Ekspert wskazał również, że cenzura w AI może przybierać nieznane dotąd formy. Wspomniał o badaniach, w ramach których sprawdzano, jak chińskie modele generowały kod źródłowy. Okazało się, że jeśli był to kod do projektów o tematyce „niewygodnej” dla Chin, generowane programy miały o 50 proc. więcej luk bezpieczeństwa niż w przypadku kodów dla tematów neutralnych. W ten sposób projekty wymierzone przeciw władzom stawałyby się bardziej podatne na cyberataki. - Albo było to działanie celowe, albo efekt uboczny włączenia cenzury do działania tych modeli – skomentował badacz.
- Jeśli korzystamy z modeli językowych, musimy pamiętać: one nigdy nie będą w stu procentach poprawne ani obiektywne. Musimy zawsze weryfikować uzyskane informacje. Najważniejsze, żeby im ślepo nie ufać – podsumował Krzysztof Wróbel.
Ludwika Tomala (PAP)
lt/ bar/
Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.