|
|
Okolice naukiJeżeli inteligencji i biegłości plagiatorów nie przeciwstawimy równie zaawansowanych i efektywnych metod wykrywania i piętnowania, to w przyszłości Tomasz Skalczyński Kopiowanie całości lub fragmentów cudzych utworów i przypisywanie sobie ich autorstwa występuje od czasów pierwszych publikacji. Od początku też środowiska twórcze ze zrozumiałych względów tępią zjawisko plagiatu. Jeszcze do niedawna siły w tej walce były względnie wyrównane: plagiator, chcąc skopiować czyjąś pracę, musiał przeszukać stosy pozycji w bibliotekach w celu wytypowania „ofiary”. Gdy już ją znalazł, czekało go pracowite przepisywanie. Zarówno znalezienie dobrego (czyli niezbyt popularnego, ale wiarygodnego) źródła, jak i sam proces kopiowania wymagały pewnej wiedzy, sporego nakładu pracy i czasu. Co więcej, ze względu na lokalny charakter procesu istniało duże prawdopodobieństwo, że plagiat zostanie wykryty (praca była publikowana z reguły tam, gdzie plagiator poszukiwał źródeł). Skala zjawiska była więc, siłą rzeczy, ograniczona. SYSTEM PLAGIATWobec tak powszechnego problemu, jakim stał się plagiat, konieczne było stworzenie skutecznych narzędzi, które wykrywałyby podobne dokumenty szybko, skutecznie i tanio. Pierwsze tego typu aplikacje pojawiły się kilka lat temu w USA. Dzięki połączeniu technologii informatycznych i rozwiązań legislacyjnych (obowiązek sprawdzania prac), narzędzia te są tam dzisiaj powszechnie wykorzystywane do skutecznego wykrywania plagiatów. Pierwszym powszechnie dostępnym polskim rozwiązaniem tej klasy jest oprogramowanie Plagiat.pl. System został uruchomiony w połowie roku 2002, po sześciu miesiącach intensywnych prac zespołu. Serwis Plagiat.pl skutecznie przeszukuje ponad trzy miliardy dokumentów udostępnionych w Internecie w poszukiwaniu utworów podobnych do zgłoszonego. Praca z aplikacją przedstawiona jest na rys. 1 i opisana poniżej. Faza 1: Użytkownik kopiuje zawartość badanego dokumentu do specjalnego formularza. Może w nim podać tytuł, autora pracy oraz treść dokumentu. Dodatkowo możliwe jest podanie listy źródeł, które mają być pomijane przy wyszukiwaniu. Faza 2: System rozpoczyna analizę dokumentu od wyodrębnienia tzw. fraz charakterystycznych. To na tyle specyficzne fragmenty dokumentu, że mogą posłużyć za klucz podczas przeszukiwania treści innych prac. W przypadku znalezienia takiej frazy w innym dokumencie, prawdopodobieństwo plagiatu jest podwyższone. Faza 3: Korzystając ze zbudowanego zbioru fraz charakterystycznych, system rozpoczyna odpytywanie światowych i lokalnych wyszukiwarek oraz przeszukiwanie wewnętrznej bazy danych w poszukiwaniu dokumentów, które takie frazy zawierają. Obecnie system Plagiat.pl przeszukuje w ten sposób ponad trzy miliardy dokumentów polskich i obcojęzycznych. Faza 4: W wyniku działania systemu w fazie 3. otrzymujemy zbiór tzw. kandydatów. Są to dokumenty podejrzane o podobieństwo z naszym badanym dokumentem. W fazie 4. system weryfikuje swoje podejrzenia poprzez przeprowadzenie szczegółowej analizy porównawczej z każdym z kandydatów. Porównywanie dokumentów trwa tak długo, aż sprawdzeni zostaną wszyscy kandydaci lub wyliczony w wyniku analizy współczynnik podobieństwa przekroczy 20 proc. Faza 5: Na tym etapie system składa zebrane informacje w tzw. raport podobieństw. Zawiera on następujące elementy: tytuł i autora dokumentu; liczbę przedstawiającą współczynnik podobieństwa, który stanowi miarę „ściągnięcia” dokumentu (w procentach); kompletną listę źródeł, z którymi podobieństwa wykryto; kompletną treść pracy z podkreślonymi skopiowanymi fragmentami. System przechowuje historię wszystkich skierowanych do analizy dokumentów, dzięki czemu użytkownik może zawsze powrócić do starszych raportów. WYŻSZA PRECYZJAW czasie pięciu miesięcy działania systemu założono w nim ponad 1500 darmowych kont. Do analizy skierowano ponad 3000 dokumentów o łącznej objętości ponad 200 mln znaków. Średni współczynnik podobieństwa dla wszystkich dokumentów wynosi 14 proc. System wykazuje średnio dwukrotnie wyższą precyzję w wykrywaniu podobnych dokumentów polskojęzycznych niż najlepszy produkt konkurencyjny (serwisy w USA). Z rozwiązania korzystają zarówno pracownicy naukowi, nauczyciele akademiccy, jak i studenci. Firma Plagiat.pl podpisała we wrześniu ub.r. pierwszą komercyjną umowę z Uniwersytetem Marii Curie-Skłodowskiej w Lublinie. Obecnie prowadzone są rozmowy dotyczące możliwości wykorzystania rozwiązania w innych uniwersytetach i szkołach wyższych. W ciągu najbliższych miesięcy planujemy rozwijanie funkcjonalności aplikacji ze szczególnym uwzględnieniem następujących możliwości: PRECYZYJNE URZĄDZENIEOczywiście, rozwiązania takie, jak Plagiat.pl, nie zapewniają stuprocentowej skuteczności w walce z plagą plagiatów. Należy pamiętać, że system wykryje podobieństwa tylko z tymi dokumentami, które zostały w formie tekstowej opublikowane w Internecie lub ogólnodostępnych akademickich bazach danych. Oznacza to, że plagiator, który kopiuje źródła istniejące jedynie w postaci tradycyjnej (książka, czasopismo), nie zostanie przez system namierzony. Użytkownicy systemu Plagiat.pl powinni również zdawać sobie sprawę, że nie dokonuje on oceny, czy dana praca jest rzeczywiście plagiatem, czy też nie. Ocena taka może być wydana jedynie przez osobę, która dokonuje sprawdzenia. Dopiero ona może stwierdzić, czy zaznaczony przez system fragment pochodzi z innej pracy, która nie została wymieniona w bibliografii, czy też jest to po prostu cytat, który miał pełne prawo znaleźć się w tym miejscu. Często zdarza się również, że aplikacja zaznaczy jako skopiowaną frazę, która jest zwrotem często wykorzystywanym (np. „z uwagi na zaistniałą sytuację”). Sam system jest jedynie precyzyjnym narzędziem, które z dużą trafnością wykrywa podobieństwa pomiędzy dokumentami. Musimy sobie zdawać sprawę z tego, iż ogromne zasoby Internetu rosną obecnie w tempie kilku milionów dokumentów dziennie. Równolegle ze wzrostem tej bazy wiedzy rozwijają się także narzędzia do wyszukiwania, które są z powodzeniem wykorzystywane przez plagiatorów. Jeżeli ich inteligencji i biegłości w technologii kopiowania nie przeciwstawimy równie zaawansowanych i efektywnych (zarówno technologicznie, jak i organizacyjnie) metod wykrywania i piętnowania, to w przyszłości większość publikacji czy prac naukowych będzie plagiatem. Tomasz Skalczyński, Plagiat.pl
|
|
|