Artykuły na medal w Wikipedii pod lupą naukowców z Poznania

30.06.2017 aktualizacja: 30.06.2017

3 minuty czytania

Fot. Fotolia

Po czym program komputerowy może poznać artykuły z Wikipedii o wysokiej jakości? Jak pomóc wikipedystom w szybszym wykrywaniu aktów wandalizmu na portalu? Jak firmy mogą zwiększyć wartość posiadanych informacji? Badacze z Uniwersytetu Ekonomicznego w Poznaniu tworzą modele, które pomogą w ocenie jakości informacji pozyskanych dzięki crowdsourcingowi.

Naukowcy z Uniwersytetu Ekonomicznego w Poznaniu we współpracy ze studentami opracują metody pomagające w ocenie jakości artykułów w tworzonej przez internautów encyklopedii online - Wikipedii.

"Zamierzamy ściągnąć wiele wersji językowych Wikipedii, przeanalizować poszczególne parametry artykułów i zbadać, jaki mają one związek z jakością artykułów" - opowiada kierownik grantu dr Krzysztof Węcel z Katedry Informatyki Ekonomicznej UEP. Przyznaje, że to spore wyzwanie. Angielska Wikipedia zawiera obecnie ponad 5 milionów artykułów, a sam tekst tych artykułów po spakowaniu zajmuje 13 GB. Do tego dochodzą strony z dyskusją o artykułach – w sumie 25 GB. Gdyby chcieć uwzględnić informacje o tym, kto i kiedy zmienił jaką stronę (bez samej treści zmian), to potrzebne jest kolejne 50 GB. A to tylko jeden język (obecnie działa ponad 270 wersji językowych Wikipedii). Badacze z UEP na swoje analizy potrzebować będą 15-20 TB. Obliczenia wykonywane będą w chmurze Azure i pomoże w tym grant z Microsoft Research.

"Na podstawie artykułu - jego treści i powiązań - będziemy w stanie automatycznie ocenić, czy jest on dobrej jakości" - opowiada dr Węcel. Do przygotowania modelu wykorzystywane będą algorytmy uczenia maszynowego (machine learning). Badacz wyjaśnia, że jeśli porówna się wystarczająco wiele artykułów - w tym docenionych przez wikipedystów "Artykułów na medal", można znaleźć pewne powtarzające się zależności - parametry cechujące takie najlepsze artykuły. Istotą modeli jest możliwość przewidywania, czy artykuły jeszcze nieocenione są dobrej jakości. Trzeba tylko dostarczyć algorytmowi odpowiednio wiele danych, by ten wypracował sobie metodę oceny jakości.

"W przypadku informacji - składowymi jakości są: aktualność, wiarygodność i kompletność" - wymienia naukowiec. Jeśli chodzi o aktualność artykułu w Wikipedii - algorytm może ją przeanalizować śledząc historię zmian w artykule. Wiarygodność może trochę trudniej maszynie ocenić, ale nie jest to niemożliwe. Dr Węcel wyjaśnia, że można np. przeanalizować referencje zawarte w artykule - odniesienia do literatury fachowej lub innych stron. W ocenie wiarygodności liczy się też autor - czy ten sam wikipedysta pisał inne artykuły dobrej jakości i czy pokazał do tej pory swoje kompetencje.

Trzecią cechą jest kompletność informacji. "My będziemy analizować infoboksy" - powiedział badacz z UEP. Chodzi o tabelki przy niektórych artykułach, w przejrzysty sposób podsumowujące najważniejsze informacje. Np. w przypadku osoby to miejsce i data jej urodzenia/śmierci, jej stanowisko, czy narodowość. Badacze z UEP chcą sprawdzać poprawność, aktualność i kompletność atrybutów, porównując je z infoboksami z innych wersji językowych. "Być może dzięki temu kiedyś braki w infoboksach moglibyśmy uzupełniać wartościami zaczerpniętymi z innych wersji językowych" - opisuje dr Węcel.

Rozmówca PAP dodaje, że jego zespół wykorzystuje obecnie ponad sto atrybutów, które mogą pomóc algorytmowi oceniać jakość artykułów. To nie tylko historia aktualizacji, autor, referencje czy dane z infoboksów. To również m.in. liczba znaków w artykule, liczba obrazków, liczba nagłówków, nacechowanie języka, czy gęstość faktów (a więc liczba informacji na liczbę słów). Algorytm musi się nauczyć, które z tych wskaźników mają jak najściślejszy związek z jakością.

Model oceny jakości informacji przyda się w przyszłości wikipedystom np. po to, by szybciej wykrywali oni akty wandalizmu w Wikipedii i reagowali na niekorzystne dla jakości "poprawki" w artykułach.

Efektami badań jego zespołu mogą zainteresować się również firmy, które korzystają w swoich działaniach z danych pozyskanych dzięki "sile tłumu", czyli crowdsourcingowi - np. przetwarzają takie dane i przygotowują na ich podstawie komercyjne produkty. Takie przedsiębiorstwa mogłyby dzięki nowym narzędziom lepiej oceniać jakość danych, z których korzystają. Istotnym wynikiem projektu będą zatem nie tylko same oceny jakości artykułów Wikipedii, ale także wypracowanie metod do oceny jakości.

Projekt „Data Science for improving the quality of crowdsourced information. The case of Wikipedia” wspierany jest w ramach programu Microsoft Azure for Research Award.

PAP - Nauka w Polsce, Ludwika Tomala

lt/ ekr/

Fundacja PAP zezwala na bezpłatny przedruk artykułów z Serwisu Nauka w Polsce pod warunkiem mailowego poinformowania nas raz w miesiącu o fakcie korzystania z serwisu oraz podania źródła artykułu. W portalach i serwisach internetowych prosimy o zamieszczenie podlinkowanego adresu: Źródło: naukawpolsce.pl, a w czasopismach adnotacji: Źródło: Serwis Nauka w Polsce - naukawpolsce.pl. Powyższe zezwolenie nie dotyczy: informacji z kategorii "Świat" oraz wszelkich fotografii i materiałów wideo.

Człowiek

Ekspert: rośnie wykorzystanie AI w dezinformacji
Człowiek

Badanie: filmy z TikToka wpływają na preferencje żywieniowe młodych ludzi

Przed dodaniem komentarza prosimy o zapoznanie z Regulaminem forum serwisu Nauka w Polsce.

Rektor WSKZ we Wrocławiu dla PAP po tekście „Newsweeka”: działamy zgodnie z prawem
MNiSW dla PAP: sprawa uczelni we Wrocławiu potwierdza potrzebę zmiany przepisów
Społeczność WSKZ: wyrażamy poparcie dla stanowiska władz uczelni
Gdańsk/ Studenci stworzyli aplikację wspierającą zdrowie psychiczne
„Newsweek”: Collegium Humanum to pikuś przy Wyższej Szkole Kształcenia Zawodowego we Wrocławiu

Post przerywany nie wydaje się lepszy od typowych zaleceń
Zmiany w układzie nagrody w mózgu mają związek z zespołem żałoby przedłużonej
Pierwszy w Wielkiej Brytanii poród po przeszczepie macicy, pozyskanej od zmarłej dawczyni
Udział w ultramaratonach może przyspieszać uszkodzenie czerwonych krwinek
Hormonalna terapia zastępcza nie ma związku z wyższym ryzykiem zgonu u kobiet

Technologia

Prof. Dariusz Jemielniak: Wikipedia jest bardzo zagrożona przez AI
Nagrody i wyróżnienia

Inicjatorzy powstania polskiej Wikipedii laureatami Złotego Medalu PAU
Technologia

Twórca Wikipedii o AI: Nie sądzę, by w najbliższym czasie zastąpiła ludzi

Eksperci: tylko dla 5 proc. chorób rzadkich opracowano terapie przyczynowe; inwestycja w ich rozwój się opłaca

Zgodnie z szacunkami obecnie istnieje 6-8 tys. chorób rzadkich, ale tylko dla 5 proc. z nich opracowano leczenie przyczynowe - zwracają uwagę eksperci. Inwestycja w prace nad metodami leczenia tych schorzeń jest jednak opłacalna, bo zmniejsza znacznie ich koszty społeczne - zaznaczają.