Aktualności
Badania
30 Lipca
Źródło: www.pwr.edu.pl
Opublikowano: 2021-07-30

SWAROG wykryje źródła fake newsów

Opracowanie systemu wykrywającego źródła celowej dezinformacji to główny cel projektu SWAROG, realizowanego przez naukowców z Politechniki Wrocławskiej i Uniwersytetu Technologiczno-Przyrodniczego im. Jana i Jędrzeja Śniadeckich w Bydgoszczy. Na badania otrzymali grant w wysokości ponad 8,6 mln zł.

Projekt „System wykrywania dezinformacji metodami sztucznej inteligencji” (SWAROG) dotyczy detekcji źródeł celowej dezinformacji z wykorzystaniem narzędzi, które można zbudować dzięki zastosowaniu metod uczenia maszynowego. Podzielony został na trzy fazy, a w pierwszej z nich naukowcy sprawdzą możliwość realizacji pomysłu oraz osiągnięcia założonych rezultatów.

Z dostępnej literatury przedmiotu, do której też trochę przyczyniliśmy się w ostatnich latach badań, wiemy, że realizacja systemu automatycznej detekcji fake newsów jest jak najbardziej możliwa, ale jej podstawowym ograniczeniem jest trudność w pozyskaniu odpowiednich danych do budowy rzetelnego systemu predykcyjnego – wyjaśnia dr inż. Paweł Ksieniewicz z Katedry Systemów i Sieci Komputerowych na Wydziale Elektroniki PWr, który będzie kierować pracami badawczo-rozwojowymi.

Co ważne, problemem nie jest stworzenie wystarczająco dużego zbioru danych, którym mogliby się posłużyć badacze do zbudowania modeli rozpoznawania, a rzetelne i wiarygodne oznaczenie go etykietami, które dadzą systemowi sztucznej inteligencji możliwość efektywnego rozróżniania faktu od próby dezinformacji. W związku z tym największym wyzwaniem pierwszego etapu będzie opracowanie mechanizmów zobiektywizowanego oznaczania treści oraz dokonana z ich pomocą akwizycji dużego, rozciągniętego w czasie i wiarygodnego zbioru danych w języku polskim, który stanowić będzie pierwszy dostępny korpus fake newsów tego typu.

Równolegle, wykorzystując dostępne dla środowiska naukowego zbiory dla języka angielskiego i – w dużej części – autorskie metody rozpoznawania, podejmiemy się konstrukcji uniwersalnej architektury przetwarzania dokumentów na potrzeby klasyfikacji fake newsów – dodaje naukowiec.

Fazę tę zakończy implementacja prototypu systemu, działającego dla dokumentów w języku angielskim, który będzie działać jako usługa sieciowa.

W kolejnym etapie rozbudowana zostanie architektura przetwarzania dokumentów, która pozwoli na rozwinięcie prototypu systemu o zdolność rozpoznawania również treści w języku polskim. Dodatkowo badacze opracują kompleksową metodę przewidywania rozprzestrzeniania się szkodliwych treści, która pozwoli na zbudowanie dodatkowego, społecznościowego kontekstu każdego z analizowanych dokumentów, co wprowadzi dodatkową, niezależną informację o rozpoznawanych obiektach.

Ostatnia faza projektu będzie starała się wyjść naprzeciw wyzwaniom, z którymi każdy system wykorzystujący sztuczną inteligencję spotyka się po tym, kiedy trafia na rynek komercyjny. Musimy mieć na uwadze, że naturą wiedzy jest jej historyczność, która przejawia się w ciągłych, najczęściej płynnych zmianach definicji pojęć, które opisuje. W związku z tym dowolny system rozpoznawania staje się w pewnym sensie przestarzały już w momencie udostępnienia go końcowym użytkownikom – tłumaczy dr inż. Paweł Ksieniewicz.

Oznacza to, że w trakcie użytkowania systemu, jakość podejmowanych przez niego decyzji stopniowo się degeneruje, w skrajnej sytuacji spadając do poziomu klasyfikatora losowego, który w miejsce niemal doskonałej kiedyś decyzji, nie ma nam do zaoferowania już niczego więcej poza ślepym strzałem.

W dziedzinie rozpoznawania wzorców takie zmiany nazywamy dryfami koncepcji (ang. concept drift). Metodami przeciwdziałania ich negatywnemu wpływowi na jakość modeli rozpoznawania zajmuje się poddziedzina przetwarzania strumieni danych, która w ostatnich latach stanowi jeden z podstawowych tematów badawczych podejmowanych przez Zespół Uczenia Maszyn, Katedry Systemów i Sieci Komputerowych. Wykorzystamy tu swoje doświadczenia, aby w finalnej wersji systemu z jednej strony opracować metodologię jego utrzymania oraz bieżącej ewaluacji, a z drugiej – rozszerzyć go o możliwość adaptacji do zjawiska dryfu koncepcji – podkreśla naukowiec.

Za wdrożenie projektu, które planowane jest na kwiecień 2025 r., odpowiadać będzie firma MATIC SA, a rozwiązanie będzie oferowane w dwóch modelach.

Pierwszym będzie – najbardziej dostosowany do współczesnego rynku – model chmurowy. Za pomocą wypracowanego rozwiązania świadczona będzie usługa strumienia danych, w którym wykrywane będą fake newsy, przy czym strumień ten będzie mógł być konfigurowany przez odbiorcę z domyślnych (wbudowanych) strumieni lub też z własnych źródeł – wykorzystując dedykowane mechanizmy podłączenia do źródeł danych dopasowanych dla danego klienta.

Drugi model komercjalizacji to wdrożenia on-site – w dedykowanej infrastrukturze klienta. Taki model będzie oferowany w przypadku odbiorców, których wymagania co do ilości danych, zakresu integracji z wewnętrznymi systemami albo poufności przetwarzania wykluczają rozwiązania chmurowe, czyli przede wszystkim agencji rządowych oraz dużych klientów instytucjonalnych takich jak np. Polska Agencja Prasowa. Przeprowadzona analiza rynku pozwoliła ocenić, że około 80% klientów wybierze wdrożenie w chmurze.

Sprzedaż systemu będzie prowadzona do wydawców – w tym przede wszystkim do mediów społecznościowych oraz redakcji dziennikarskich. Plan komercjalizacji zakłada też pilotażowe wdrożenie wspólnie z Polską Platformą Bezpieczeństwa Wewnętrznego, która dla wybranych tematów (jak np. szczepienia), będzie realizować misję publiczną – wspierając jednocześnie komercjalizację pełnego produktu.

Realizacja projektu rozpocznie się w październiku. Zakończenie zaplanowano za 3,5 roku. Dofinansowanie w wysokości ponad 8,6 mln zł przyznano w ramach Strategicznego Programu Badań Naukowych i Prac Rozwojowych „Zaawansowane technologie informacyjne, telekomunikacyjne i mechatroniczne” – Infostrateg I. W sumie granty w łącznej wysokości blisko 55 mln zł Narodowe Centrum Badań i Rozwoju przyznało dziesięciu projektom.

źródło: PWr

 

Dyskusja (0 komentarzy)