Gdańsk/ Naukowcy opracowali polskojęzyczne modele językowe; mogą być polskimi odpowiednikami GPT

11.03.2024 aktualizacja: 20.03.2024

2 minuty czytania

Read the English version of this article

Fot. Adobe Stock

Naukowcy z Politechniki Gdańskiej i OPI opracowali polskojęzyczne modele językowe o nazwie Qra. To pierwszy tej skali odpowiednik otwartych narzędzi Mety czy Mistral AI. Qra lepiej rozumie treści w języku polskim i lepiej tworzy spójne teksty - podała gdańska uczelnia techniczna.

Biuro prasowe Politechniki Gdańskiej podało w piątek, że uczelnia i AI Lab z Ośrodka Przetwarzania Informacji (OPI) – Państwowego Instytutu Badawczego opracowały polskojęzyczne generatywne neuronowe modele językowe na bazie terabajta danych tekstowych wyłącznie w języku polskim.

"Qra to pierwszy tej skali i najlepszy w modelowaniu języka polskiego odpowiednik otwartych narzędzi Mety czy Mistral AI. Qra lepiej rozumie treści w języku polskim, lepiej rozumie pytania zadawane w tym języku i lepiej sama tworzy spójne teksty" - podano w komunikacie.

Środowisko obliczeniowe dedykowane pod budowę modeli sztucznej inteligencji powstało na Politechnice Gdańskiej w Centrum Kompetencji STOS, jednym z najnowocześniejszych centrów IT w tej części Europy, gdzie znajduje się superkomputer Kraken.

Jak podała uczelnia, w procesie wykorzystano klaster 21 kart graficznych NVidia A100 80GB. Przygotowanie środowiska, utworzenie narzędzi i modeli oraz ich trenowanie (w oparciu m.in. o treści z takich obszarów, jak prawo, technologia, nauki społeczne, biomedycyna, religia czy sport) i testowanie zajęło zespołom około pół roku. "Dzięki rozbudowanej infrastrukturze CK STOS właściwy proces trenowania w przypadku najbardziej złożonego z modeli został skrócony z lat do około miesiąca" - przekazano.

W komunikacie podano, że w wyniku współpracy PG i Ośrodka Przetwarzania Informacji powstały trzy modele, które różnią się złożonością, tj. Qra 1B, Qra 7B, Qra 13B. Modele Qra 7B oraz Qra 13B uzyskują istotnie lepszy wynik perplexity, czyli zdolności do modelowania języka polskiego w zakresie jego rozumienia, warstwy leksykalnej, czy samej gramatyki, niż oryginalne modele Llama-2-7b-hf (Meta) oraz Mistral-7B-v0.1 (Mistral-AI).

Wyjaśniono, że testy pomiaru perplexity przeprowadzono m.in. na zbiorze pierwszych 10 tysięcy zdań ze zbioru testowego PolEval-2018 oraz dodatkowo przetestowano modele na zbiorze 5 tysięcy długich i bardziej wymagających dokumentów napisanych w 2024 roku.

Modele Qra będą stanowić podstawę rozwiązań informatycznych do obsługi spraw i procesów, które wymagają lepszego zrozumienia języka polskiego.

"Na tym etapie Qra jest fundamentalnym modelem językowym, który potrafi generować poprawne gramatycznie i stylistycznie odpowiedzi w języku polskim. Tworzone treści są bardzo wysokiej jakości, co potwierdza m.in. miara perplexity" - zaznaczano w komunikacie.

Zapewniono, że zespół rozpocznie pracę nad strojeniem modeli, aby zweryfikować ich możliwości pod kątem takich zadań, jak klasyfikacja tekstów, dokonywanie ich streszczeń, odpowiadania na pytania.

Opracowane modele zostały upublicznione w repozytorium OPI-PG na platformie huggingface. Model można pobrać do swojej dziedziny i problemów czy zadań, jak np. udzielanie odpowiedzi.(PAP)

pm/ bar/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Technologia

Polscy specjaliści wśród 4 najlepszych zespołów na świecie w turnieju robotów humanoidalnych
Technologia

Polska firma rozwija technologię obrazowania termalnego dla dronów

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Białko związane z powstawaniem komórek rozrodczych pomaga rakowi przetrwać leczenie
7 tys. kandydatów na studia w nowym roku akademickim na Uniwersytecie Radomskim
MNiSW przedstawiło wyniki oceny uczelni; najczęściej przyznawano kategorię B+
Phubbing partnera wiąże się z większym ryzykiem depresji poporodowej u kobiety
Psycholog: tabu chronią społeczności przed ryzykiem chorób, strat i konfliktów społecznych

Nie tylko statyny mogą zaburzać rozwój mózgu dziecka
Zapach królowej golców zniechęca do rozmnażania
W Europie szerzy się rzeżączka oporna na leczenie
Demokratyczna Republika Konga/ Odkryto nowy gatunek małpy
Medal Fieldsa 2026 dla czworga matematyków

Białko związane z powstawaniem komórek rozrodczych pomaga rakowi przetrwać leczenie

Białko występujące normalnie podczas powstawania plemników i komórek jajowych może zostać ponownie uruchomione w komórkach raka piersi. Pomaga im wówczas naprawiać DNA uszkodzone przez leki i przetrwać terapię - odkrył międzynarodowy zespół z udziałem naukowców z Instytutu Biologii Medycznej PAN.