Od lutego do maja liczba prac naukowych na temat COVID-19 wzrosła blisko pięciokrotnie, a do końca roku ma przekroczyć granicę 1 miliona publikacji. To dobra wiadomość dla środowiska medycznego, ale tylko wtedy, gdy pod ręką jest skuteczne narzędzie do przeszukiwania tak dużej ilości dostępnych już wyników badań.
Jednym z nich jest wyszukiwarka COVID-19 Search, umożliwiająca w prosty i szybki sposób dostarczenie naukowcom najbardziej istotnych badań na temat koronawirusa SARS-CoV-2. Pracował nad nią zespół Salesforce Research, wykorzystując dane z projektu CORD-19 Challenge. Tego typu inicjatywa wpisuje się w cele Salesforce Research. Poza rozwijaniem technologii, która napędza całą linię produktów Salesforce Einstein, kluczowa część zespołu pracuje nad wykorzystaniem sztucznej inteligencji, m.in. w takich obszarach jak opieka zdrowotna.
Dzięki znacznemu doświadczeniu w przetwarzaniu języka naturalnego (Naural Language Processing), Salesforce Research połączyło siły swoich ekspertów w celu stworzenia wyszukiwarki, która ma za zadanie wspierać badaczy w odnajdywaniu konkretnych informacji zgromadzonych w archiwach publicznych.
Wyszukiwanie publikacji naukowych wymaga zastosowania innych technik niż tradycyjne wyszukiwarki dopasowujące słowa kluczowe. Istotne jest, aby wyszukiwarka COVID-19 interpretowała właściwe znaczenie konkretnej frazy w danym wyszukiwaniu, wychodząc poza wyszukiwanie wyników oparte na częstotliwości występowania słów w dokumentach. W przypadku długich dokumentów równie cenne jest szybkie odnalezienie odpowiednich fragmentów w wynikach wyszukiwania. COVID-19 Search rozwiązuje ten problem, łącząc przeszukiwanie tekstu i NLP – w tym wyszukiwanie semantyczne, odpowiadanie na pytania łączące dane i analizę podsumowań przeszukiwanych badań. Wszystko to w celu lepszego zrozumienia pytania i przedstawienia najistotniejszych wyników naukowych.
Kolejność słów w wyszukiwaniu naukowym jest bardzo specyficzna, a niewielka zmiana w ich kolejności może drastycznie zmienić znaczenie. Dla przykładu, pytanie „What expression pathways does SARS-CoV-2 induce?” różni się zasadniczo od zapytania „What is the expression pathway of SARS-CoV-2?”. Wyniki muszą być zgodne z kontekstem zapytania.
– Połączyliśmy zatem wyszukiwanie informacji (IR) z naszymi mocnymi stronami w NLP, aby wzmocnić wyszukiwanie semantyczne, które modeluje znaczenie kryjące się za pytaniem. Wykorzystując ostatnią pracę o zgodności zdaniowej (Reimers i in. 2019), podzieliliśmy publikacje naukowe na pary akapitów i cytowań, które wykorzystano do treningu algorytmów w celu ustalenia, czy cytowanie znalazło swoje odzwierciedlenie w akapicie. Ta sama sztuczna inteligencja może być użyta do zadania zapytania i znalezienia odpowiednich akapitów w całym zestawie dokumentów – tłumaczą twórcy wyszukiwarki.
Wyszukiwanie semantyczne przeszukuje ogromną liczbę publikacji dokumentów i zwraca podzbiór może 100 lub 1000 wyników. Dokumenty te poddawane są analizie sztucznej inteligencji, która traktuje zapytanie użytkownika jako konkretne pytanie i dokłada wszelkich starań, aby wygenerować odpowiedź z pobranych dokumentów. Jeśli odpowiedź jest zawarta w pojedynczym dokumencie, to COVID-19 Search może ponownie uszeregować listę dokumentów tak, aby wyświetlić właśnie ten dokument. Przykładowo, ktoś może zadać pytanie dotyczące COVID-19 (choroba), które rzeczywiście odnosi się do SARS CoV-2 (wirus), np. „Jak COVID-19 wnika do komórek pacjenta?”. Moduł AI odpowiadający na pytania znajduje najpierw akapit w jednym dokumencie, który wyjaśnia, w jaki sposób COVID-19 jest powiązany z SARS CoV-2, a następnie znajduje fragment w innym dokumencie, który wyjaśnia, w jaki sposób SARS CoV-2 wnika do komórek w określony sposób. Przeszukując różne dokumenty, COVID-19 Search może pomóc użytkownikom znaleźć bardziej dokładne wyniki.
– Wykorzystujemy ostatnie postępy w modelowaniu językowym, aby wygenerować krótkie podsumowanie, a następnie ponownie uszeregować wyniki w oparciu o dokumenty, które najbardziej do niego pasują. Działa to, jak abstrakt pracy naukowej, który w krótkim paragrafie ujmuje kluczowe wyniki wyszukiwania – dodają autorzy COVID-19 Search.
(materiał nadesłany)