Instytut Badawczy OPI udostępnia publicznie neuronowe modele języka

30.11.2021 aktualizacja: 30.11.2021

2 minuty czytania

Read the English version of this article

adobeStock

Ośrodek Przetwarzania Informacji rozwija „neuronowe modele języka” na co dzień wykorzystywane do wychwytywania spamu lub jako system antyplagiatowy. W tym roku oddali do użytku dwa kolejne – Polish RoBERTa v2 oraz przeznaczony do zadań związanych z generowaniem tekstu model GPT-2 .

W ciągu ostatnich kilu lat znacznie wzrosła popularność neuronowych modeli języka. Obserwuje się też bardzo szybki wzrost ich rozmiaru (liczby parametrów). Wykorzystywane są one powszechnie, jednak niewiele osób zdaje sobie z tego sprawę. To właśnie dzięki nim użytkownicy internetu mają dostęp do usług tłumaczenia tekstu na różne języki, możliwe jest wykrywanie spamu, realizowane są badania nastrojów społecznych w sieci, a także z ich pomocą każdy ma dostęp do automatycznej korekty tekstu czy też może porozmawiać z chatbotem - przypomniano w informacji prasowej Ośrodka Przetwarzania Informacji – Państwowego Instytutu Badawczego (OPI PIB), przesłanej PAP.

Prace nad rozwojem neuronowych modeli języka trwają w wielu ośrodkach informatycznych i firmach na całym świecie. Branża IT już od dłuższego czasu dostrzega w nich duży potencjał. Mają one coraz większe zastosowanie w życiu każdego użytkownika internetu. Opracowanie nowych modeli neuronowych wymaga jednak dużych mocy obliczeniowych i specjalistycznej infrastruktury. Niemożliwe jest ich wytrenowanie przez pojedyncze osoby lub małe organizacje. Dodatkowo niezbędne są duże ilości danych. Tak jak w przypadku innych narzędzi opartych na sztucznej inteligencji (SI) – im większy zbiór danych został wykorzystany do wytrenowania modelu, tym będzie on bardziej precyzyjny.

Większość tych modeli opracowywanych jest jednak dla języka angielskiego. Dlatego naukowcy z OPI PIB rozwijają i udostępniają innym polskojęzyczne modele. W tym roku oddali oni do użytku dwa kolejne – Polish RoBERTa v2 oraz GPT-2.

„Dane modele mogą być np. stosowane do badań nad wykrywaniem i klasyfikowaniem hejtu w mediach społecznościowych czy też fake newsów. Modele w języku polskim są niezbędne do analizy polskiego internetu, nie da się badać danych zjawisk używając narzędzi obcojęzycznych” – czytamy w komunikacie dla mediów.

Część bazową korpusu danych modeli stanowią wysokiej jakości teksty (wikipedia, dokumenty polskiego parlamentu, wypowiedzi z mediów społecznościowych, książki, artykuły, dłuższe formy pisane). Z kolei część internetowa korpusu to ekstrakty ze stron internetowych (projekt CommonCrawl), które wcześniej zostały odfiltrowane i odpowiednio wyczyszczone.

„Modele udostępnione przez OPI PIB oparte są na sieciach transformer. Architektura ta jest stosunkowo nowa – stosowana jest od 2017 roku. Sieci typu transformer nie opierają się na sekwencyjnym przetwarzaniu danych, zamiast tego przetwarzają je w sposób jednoczesny” – mówi cytowany w komunikacie Sławomir Dadas, zastępca kierownika Laboratorium Inteligentnych Systemów Informatycznych w OPI PIB.

Trenowanie jednego modelu zajmuje ekspertom ok. 3-4 miesiące. Wszystkie swoje neuronowe modele języka OPI PIB przetestował z wykorzystaniem Kompleksowej Listy Ewaluacji Językowych (KLEJ benchmark) opracowanej przez Allegro. Umożliwia ona ocenę działania modelu na podstawie dziewięciu zadań, takich jak np. analiza sentymentu lub badanie semantycznego podobieństwa tekstów. (PAP)

uka/ zan/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Zdrowie

Eksperci: szukaliśmy narzędzia do analizy mikrostruktury włókien nerwu wzrokowego
Technologia

Polski wynalazca: w Polsce barierą dla kolei magnetycznej jest mentalność

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Polski wynalazca: w Polsce barierą dla kolei magnetycznej jest mentalność
Badania: masa ciała jednym z najbardziej bezwzględnych kryteriów oceny na rynku pracy
Dr Kosiński: analiza tragedii na Giewoncie pomoże ratować ofiary piorunów na całym świecie
Archeolodzy chcą rozwikłać sekret szkieletów w domu Göringa w Wilczym Szańcu
Poznań/ Kierunek lekarski hitem rekrutacji na UAM

Nowy kalkulator pomaga ocenić ryzyko poważnych skutków ubocznych statyn
Biologiczny zegar decyduje o jakości pracy
Substytuty cukru szkodzą jelitom i metabolizmowi
Siedzenie bez przerw to większe ryzyko raka
Fruktoza i glukoza mają tyle samo kalorii, ale inaczej wpływają na głód i apetyt

Człowiek

Socjolożka o feminatywach: język i rzeczywistość społeczna wpływają na siebie nawzajem
Człowiek

Badanie: gorszy nastrój i objawy depresyjne widać w języku, którego używamy
Uczelnie i instytucje

Filolodzy z Uniwersytetu Łódzkiego współpracują z Polonią w Australii