Strona główna

Archiwum z roku 2003

Spis treści numeru 1/2003

Automatyczne wykrywanie plagiatów
Poprzedni Następny

Okolice nauki

Jeżeli inteligencji i biegłości plagiatorów nie przeciwstawimy równie zaawansowanych i efektywnych metod wykrywania i piętnowania, to w przyszłości 
większość publikacji czy prac naukowych będzie plagiatem.

Tomasz Skalczyński

 Rys. Piotr Kanarek

 Kopiowanie całości lub fragmentów cudzych utworów i przypisywanie sobie ich autorstwa występuje od czasów pierwszych publikacji. Od początku też środowiska twórcze ze zrozumiałych względów tępią zjawisko plagiatu. Jeszcze do niedawna siły w tej walce były względnie wyrównane: plagiator, chcąc skopiować czyjąś pracę, musiał przeszukać stosy pozycji w bibliotekach w celu wytypowania „ofiary”. Gdy już ją znalazł, czekało go pracowite przepisywanie. Zarówno znalezienie dobrego (czyli niezbyt popularnego, ale wiarygodnego) źródła, jak i sam proces kopiowania wymagały pewnej wiedzy, sporego nakładu pracy i czasu. Co więcej, ze względu na lokalny charakter procesu istniało duże prawdopodobieństwo, że plagiat zostanie wykryty (praca była publikowana z reguły tam, gdzie plagiator poszukiwał źródeł). Skala zjawiska była więc, siłą rzeczy, ograniczona.
Powszechny dostęp do globalnych zasobów Internetu oraz zapis dokumentów w postaci elektronicznej spowodowały, że wyszukiwanie i kopiowanie wszelkiego rodzaju informacji stało się bardzo łatwe. W ciągu kilku ostatnich lat zasoby Sieci urosły do ogromnych rozmiarów (miliardy dokumentów), które można przeszukiwać używając bezpłatnych narzędzi (tzw. wyszukiwarek). Dostęp do tak przebogatej „biblioteki” źródeł oraz możliwość natychmiastowego skopiowania całości lub fragmentu dowolnego dokumentu musiały doprowadzić do nasilenia się występowania zjawiska plagiatu. I doprowadziły. Dzisiaj problem plagiatu, który jeszcze 10 lat temu był kojarzony głównie z bardzo zaawansowanymi pracami naukowymi, zawędrował pod strzechy. Kopiowanie dorobku innych stało się bowiem szybkie, łatwe i bardzo tanie. Co więcej, do niedawna było również dla plagiatora całkiem bezpieczne.

SYSTEM PLAGIAT

Wobec tak powszechnego problemu, jakim stał się plagiat, konieczne było stworzenie skutecznych narzędzi, które wykrywałyby podobne dokumenty szybko, skutecznie i tanio. Pierwsze tego typu aplikacje pojawiły się kilka lat temu w USA. Dzięki połączeniu technologii informatycznych i rozwiązań legislacyjnych (obowiązek sprawdzania prac), narzędzia te są tam dzisiaj powszechnie wykorzystywane do skutecznego wykrywania plagiatów.

Pierwszym powszechnie dostępnym polskim rozwiązaniem tej klasy jest oprogramowanie Plagiat.pl. System został uruchomiony w połowie roku 2002, po sześciu miesiącach intensywnych prac zespołu. Serwis Plagiat.pl skutecznie przeszukuje ponad trzy miliardy dokumentów udostępnionych w Internecie w poszukiwaniu utworów podobnych do zgłoszonego. Praca z aplikacją przedstawiona jest na rys. 1 i opisana poniżej.

Faza 1: Użytkownik kopiuje zawartość badanego dokumentu do specjalnego formularza. Może w nim podać tytuł, autora pracy oraz treść dokumentu. Dodatkowo możliwe jest podanie listy źródeł, które mają być pomijane przy wyszukiwaniu.

Faza 2: System rozpoczyna analizę dokumentu od wyodrębnienia tzw. fraz charakterystycznych. To na tyle specyficzne fragmenty dokumentu, że mogą posłużyć za klucz podczas przeszukiwania treści innych prac. W przypadku znalezienia takiej frazy w innym dokumencie, prawdopodobieństwo plagiatu jest podwyższone.

Faza 3: Korzystając ze zbudowanego zbioru fraz charakterystycznych, system rozpoczyna odpytywanie światowych i lokalnych wyszukiwarek oraz przeszukiwanie wewnętrznej bazy danych w poszukiwaniu dokumentów, które takie frazy zawierają. Obecnie system Plagiat.pl przeszukuje w ten sposób ponad trzy miliardy dokumentów polskich i obcojęzycznych.

Faza 4: W wyniku działania systemu w fazie 3. otrzymujemy zbiór tzw. kandydatów. Są to dokumenty podejrzane o podobieństwo z naszym badanym dokumentem. W fazie 4. system weryfikuje swoje podejrzenia poprzez przeprowadzenie szczegółowej analizy porównawczej z każdym z kandydatów. Porównywanie dokumentów trwa tak długo, aż sprawdzeni zostaną wszyscy kandydaci lub wyliczony w wyniku analizy współczynnik podobieństwa przekroczy 20 proc.

Faza 5: Na tym etapie system składa zebrane informacje w tzw. raport podobieństw. Zawiera on następujące elementy: tytuł i autora dokumentu; liczbę przedstawiającą współczynnik podobieństwa, który stanowi miarę „ściągnięcia” dokumentu (w procentach); kompletną listę źródeł, z którymi podobieństwa wykryto; kompletną treść pracy z podkreślonymi skopiowanymi fragmentami.

System przechowuje historię wszystkich skierowanych do analizy dokumentów, dzięki czemu użytkownik może zawsze powrócić do starszych raportów.
Obecnie system udostępniany jest w dwóch trybach: darmowym, w którym użytkownik może sprawdzić do pięciu dokumentów dziennie, (przy czym każdy z dokumentów ma ograniczony rozmiar, a precyzja wykrywania plagiatów jest obniżona) oraz komercyjnym, który oferuje pełen dostęp do możliwości systemu i pracuje z pełną precyzją.

WYŻSZA PRECYZJA

W czasie pięciu miesięcy działania systemu założono w nim ponad 1500 darmowych kont. Do analizy skierowano ponad 3000 dokumentów o łącznej objętości ponad 200 mln znaków. Średni współczynnik podobieństwa dla wszystkich dokumentów wynosi 14 proc. System wykazuje średnio dwukrotnie wyższą precyzję w wykrywaniu podobnych dokumentów polskojęzycznych niż najlepszy produkt konkurencyjny (serwisy w USA).

Z rozwiązania korzystają zarówno pracownicy naukowi, nauczyciele akademiccy, jak i studenci. Firma Plagiat.pl podpisała we wrześniu ub.r. pierwszą komercyjną umowę z Uniwersytetem Marii Curie-Skłodowskiej w Lublinie. Obecnie prowadzone są rozmowy dotyczące możliwości wykorzystania rozwiązania w innych uniwersytetach i szkołach wyższych.

W ciągu najbliższych miesięcy planujemy rozwijanie funkcjonalności aplikacji ze szczególnym uwzględnieniem następujących możliwości:
1. Porównywanie zgłaszanych prac z ogólnopolskim repozytorium dokumentów, którego budowa jest planowana przez ośrodki akademickie. Integracja systemu Plagiat.pl z repozytorium praktycznie zlikwidowałaby nagminne obecnie zjawisko przedstawiania tej samej pracy w kilku różnych uczelniach.
2. Poprawa precyzji wykrywania plagiatów w dokumentach polskojęzycznych poprzez uruchomienie mechanizmu analizy morfologicznej i słownika wyrazów bliskoznacznych.
3. Tworzenie specjalizowanych serwisów nakierowanych na konkretne zastosowania (np. plagiaty wiadomości codziennych).

PRECYZYJNE URZĄDZENIE

Oczywiście, rozwiązania takie, jak Plagiat.pl, nie zapewniają stuprocentowej skuteczności w walce z plagą plagiatów. Należy pamiętać, że system wykryje podobieństwa tylko z tymi dokumentami, które zostały w formie tekstowej opublikowane w Internecie lub ogólnodostępnych akademickich bazach danych. Oznacza to, że plagiator, który kopiuje źródła istniejące jedynie w postaci tradycyjnej (książka, czasopismo), nie zostanie przez system namierzony.

Użytkownicy systemu Plagiat.pl powinni również zdawać sobie sprawę, że nie dokonuje on oceny, czy dana praca jest rzeczywiście plagiatem, czy też nie. Ocena taka może być wydana jedynie przez osobę, która dokonuje sprawdzenia. Dopiero ona może stwierdzić, czy zaznaczony przez system fragment pochodzi z innej pracy, która nie została wymieniona w bibliografii, czy też jest to po prostu cytat, który miał pełne prawo znaleźć się w tym miejscu. Często zdarza się również, że aplikacja zaznaczy jako skopiowaną frazę, która jest zwrotem często wykorzystywanym (np. „z uwagi na zaistniałą sytuację”). Sam system jest jedynie precyzyjnym narzędziem, które z dużą trafnością wykrywa podobieństwa pomiędzy dokumentami.

Musimy sobie zdawać sprawę z tego, iż ogromne zasoby Internetu rosną obecnie w tempie kilku milionów dokumentów dziennie. Równolegle ze wzrostem tej bazy wiedzy rozwijają się także narzędzia do wyszukiwania, które są z powodzeniem wykorzystywane przez plagiatorów. Jeżeli ich inteligencji i biegłości w technologii kopiowania nie przeciwstawimy równie zaawansowanych i efektywnych (zarówno technologicznie, jak i organizacyjnie) metod wykrywania i piętnowania, to w przyszłości większość publikacji czy prac naukowych będzie plagiatem.

Tomasz Skalczyński, Plagiat.pl

 

Komentarze