Co klienci myślą o naszych produktach? To pytanie zadają sobie działy marketingu na całym świecie i szukają coraz lepszych narzędzi do monitoringu internetu. Nad jednym z nich pracuje lingwistka internetowa dr Agnieszka Pluwak z Instytutu Slawistyki PAN.
Narzędzie to powstaje w ramach projektu Senti Cognitive Services. Współtworzą go firma SentiOne, Instytut Slawistyki PAN, Akademia Górniczo-Hutnicza i Politechnika Wrocławska. Celem jest zbudowanie platformy służącej do automatycznego badania wizerunku marki w internecie. Złożą się na nią: automatyczne raporty wizerunkowe, automatyczne powiadomienia o sytuacjach kryzysowych oraz automatyczne odpowiedzi na pytania często zadawane przez klientów. To nowa generacja usług oparta na sztucznej inteligencji: algorytmy „uczą się” analizować teksty potoczne w języku polskim.
Dr Agnieszka Pluwak koordynuje prace zespołu badawczego, złożonego z lingwistów i informatyków. Przygotowuje tzw. manuale, czyli instrukcje z wytycznymi do oznaczania zbiorów treningowych dla systemów uczenia maszynowego oraz testuje skuteczność modeli. – Wyzwaniem jest osiągnięcie jak najwyższej skuteczności działania modeli przy jednoczesnym utrzymaniu ich dobrego poziomu prędkości przetwarzania danych – mówi dr Pluwak. – Pewne badania lub eksperymenty należy kilkakrotnie powtarzać zanim osiągnie się właściwy wynik. Trzeba to odpowiednio zaplanować w czasie i zbudować kompetentny zespół naukowców.
W pierwszym etapie projektu opracowano największy w kraju zbiór tekstów potocznych języka polskiego. Zawiera on ponad 7,5 tys. dokumentów pochodzących z różnych źródeł i jest dostępny na otwartej licencji w bazie sieci Clarin. Teksty są autentyczne i odznaczają się cechami charakterystycznymi dla wpisów zamieszczanych przez internautów, w tym specyficzną pisownią czy błędami językowymi. Na ich podstawie opracowano algorytm do tzw. znakowania morfo-składniowego tekstów potocznych, aby przy jego pomocy można było przeanalizować teksty internetowe pod kątem części mowy.
To pierwszy tego typu moduł dla języka polskiego dostosowany do analizy mowy potocznej. Narzędzie jest również dostępne na otwartej licencji.
JK
(Źródło: IS PAN)