Fabryki artykułów są komercyjnymi, doskonale wyspecjalizowanymi firmami „produkującymi” manuskrypty zgłaszane do czasopism naukowych, głównie tych, które indeksowane są w najpopularniejszych naukowych bazach danych. Mają zapewnić łatwą i szybką publikację badaczom, którzy zdecydują się zapłacić za tekst albo za miejsce wśród współautorów. Oczywiście najdroższa jest pozycja pierwszego, drugiego lub trzeciego współautora. Liczy się też prestiż czasopisma, które przyjęło do publikacji sfabrykowany tekst. Im wyższy ma IF, tym więcej musi zapłacić nieuczciwy badacz.
Fabryki artykułów działają w wielu krajach. Mogą kamuflować prawdziwą działalność jako firmy świadczące usługi związane z edycją tekstu lub tłumaczeniem, ale są też takie, które zupełnie nie ukrywają swojego modelu działania. W jednym z badań zanalizowano zgłoszenia do dwóch czasopism naukowych, które stały się celem fabryk artykułów. W ciągu dwóch lat zgłoszono do nich 3440 tekstów, z których 1950 to prawdopodobnie produkty fabryk artykułów. Podpisują się pod nimi badacze z ponad 70 krajów na całym świecie. To wskazuje nie tylko na olbrzymią skalę działania, ale i na nieograniczony zasięg geograficzny w sprzedawaniu tekstów i pozyskiwaniu fałszywych autorów. Oprócz własnych stron internetowych firmy bazują na kontakcie mailowym oraz sieciach społecznościowych – propozycje mogą być składane za pośrednictwem takich stron jak Facebook, ResearchGate czy Academia.edu (Screen 1).
Jak działają fabryki artykułów?
Choć fabryki artykułów zarabiają na nieetycznych zachowaniach badaczy (przypisywanie sobie autorstwa cudzego tekstu), to ich działalność zazwyczaj jest legalna. Sprzedają produkt, który przez wielu badaczy jest uważany za koszt, który muszą ponieść dla kariery, awansu czy podwyżki. Dlaczego jednak nie biorą pod uwagę, że podpisują swoim nazwiskiem produkt wadliwy, bazujący na sfabrykowanych danych i splagiatowanych tekstach?
COPE opisuje, jak wygląda prawdopodobny model działania fabryki artykułów:
Warto zwrócić uwagę na ostatni z wymienionych elementów – w przypadku tekstów z fabryk artykułów redakcja bardzo szybko uzyskuje nieformalną zgodę od autorów na wycofanie tekstu. W obliczu podejrzenia o manipulowanie danymi zazwyczaj współautorzy nie starają się udowodnić, że tekst jest rzetelnie przygotowany, zamiast tego powołują się na „problemy z danymi”, nie precyzując jednak, na czym one konkretnie polegają. Na pewno jednak nie można liczyć na przyznanie się do oszustwa.
Autorzy chcą w ten sposób uprzedzić bardziej szczegółowe dochodzenie, choć oczywiście nic nie stoi na przeszkodzie, by przy uzasadnionych podejrzeniach dotyczących wiarygodności zgłoszonego tekstu redakcja czasopisma skontaktowała się z macierzystą uczelnią lub uczelniami, które zostały podane jako afiliacje. Może zapytać, czy faktycznie zostały wykonane opisane w artykule badania i potwierdzić, że istnieją oryginalne dane badawcze, na które powołuje się tekst. Oczywiście inną kwestią jest to, czy dana uczelnia będzie chciała udzielić takich odpowiedzi, zwłaszcza gdy zadawane są pytania dotyczące potencjalnie nieetycznych działań jej pracowników.
Choć tworzone są rozwiązania, które mają pomóc wydawcom w rozpoznaniu tekstów z fabryk artykułów, trzeba mieć na uwadze również to, że fabryki artykułów są świadome prowadzonych dochodzeń i stosowanych narzędzi. Szybko i skutecznie dostosowują swoją działalność tak, by nie dać się ujawnić. Co więcej, wiedząc, na jakie elementy zwracają uwagę redaktorzy czasopism i z jakich narzędzi korzystają podczas kontroli jakości tekstu, są w stanie dostosowywać je tak, by nie wykryto żadnych nieprawidłowości.
„Udręczone frazy”
Najczęściej artykuły są oparte na fałszywych danych, jeden zestaw może być wykorzystany do setek artykułów o podobnej tematyce. Warto w tym momencie zauważyć, że często to nie człowiek fabrykuje teksty, a komputer. Artykuły są bowiem wygenerowane komputerowo, przez co nagminnie występują tu tzw. tortured phrases (w języku polskim na razie brak odpowiednika), czyli dziwnie sformułowane określenia odnoszące się do powszechnie stosowanych terminów naukowych. W artykułach naukowych zwroty te wskazują na potencjalną nieuczciwość autora. Przykłady fraz występujących w naukach związanych z informatyką, matematyką i innymi naukami przyrodniczymi znajdują się w Tabeli 1 (https://arxiv.org/pdf/2107.06751.pdf).
Fabrykowane teksty dotyczą nie tylko informatyki, niestety bardzo duża ich część przedostaje się do medycznych czasopism naukowych. Przykłady zwrotów z tekstów o tematyce medycznej, na bazie których naukowcy wykrywali publikacje z fabryk artykułów lub noszące znamiona plagiatu, znajdują się w Tabeli 2.
Wykrywanie problematycznych tekstów
Zwrot „tortured phrases” został stworzony przez trzech naukowców, którzy tym mianem określili dziwnie brzmiące frazy znalezione w artykułach z czasopisma „Microprocessors and Microsystems”. Guillaume Cabanac, Cyril Labbé i Alexander Magazinov uznali, że nie wynikają one po prostu ze złego tłumaczenia, co mogłoby wystąpić w przypadku naukowców, dla których język angielski nie jest językiem ojczystym, czyli w zasadzie podczas korzystania z maszynowego tłumaczenia (np. za pomocą Google Translate czy innego oprogramowania, które tłumaczy na język angielski). „Tortured phrases” mają zazwyczaj inny cel – udaremnienie automatycznego wykrycia plagiatu. W tym celu teksty są parafrazowane (np. za pomocą narzędzi na stronie spinbot.com czy transformer.huggingface.co), a część zwrotów zastępowana takimi, które pozornie przekazują to samo znaczenie, ale w innych słowach. I mogłoby się to sprawdzić, gdyby nie fakt, że przy okazji zmieniane są frazy i zwroty ustalone w danej nauce – oficjalnie stosowane i ogólnie przyjęte sformułowania, które nie mają sensu, gdy zostaną zastąpione synonimami.
Z inicjatywy tych uczonych opracowane zostało narzędzie o nazwie Problematic Paper Screener do śledzenia dokumentów zawierających „tortured phrases” oraz stworzonych przez generatory tekstów (Screen 2). Na początku 2023 roku baza ta obejmowała ponad 10 tysięcy tekstów, w których wykryto tego typu frazy czy stosowanie narzędzi takich jak SCIgen czy Mathgen.
Numery specjalne i materiały konferencyjne
Sfabrykowane teksty zgłaszane są do czasopism indeksowanych w najważniejszych naukowych bazach danych, ale równie mocno fabryki artykułów skupiają się na numerach specjalnych (zazwyczaj redagowanych przez specjalnie zapraszane do tej roli osoby, tzw. guest editors) i konferencjach firmowanych przez czołowych wydawców.
Niedawno jedno z czasopism Elseviera zostało zalane tekstami z fabryki artykułów. Proceder ujawnił James Heathers w serwisie Retraction Watch. Chodzi o czasopismo „Materials Today: Proceedings”, w którym rzeczony badacz znalazł co najmniej 1500 artykułów, które nie tylko nie dotyczyły tematyki czasopisma, lecz zawierały też „tortured phrases” oraz miały tytuły zbieżne z artykułami, które wystawiane były wcześniej na sprzedaż w sieci. Kilkaset artykułów, które mogły zostać stworzone za pomocą komputerowych generatorów tekstów, stwierdzono też w kilku numerach specjalnych czasopisma „Microprocessors and Microsystems” (Elsevier).
Kilka miesięcy temu kilkaset tekstów wycofał inny wydawca: Institute of Physics. Dochodzenie wykazało, że artykuły mogą być stworzone, zmanipulowane i/lub były wystawione na sprzedaż przez komercyjny podmiot. Czyli w praktyce pochodziły z fabryki artykułów. Dotyczyło to 463 tekstów z czasopisma „Journal of Physics: Conference Series”, 21 tekstów z „IOP Conference Series: Materials Science & Engineering” oraz 10 tekstów z „IOP Conference Series: Earth & Environmental Science”.
Ofiarą podobnego procederu stał się też ACM. Wydawca wycofał wszystkie teksty z konferencji ICIMTECH 21: The Sixth International Conference on Information Management and Technology, która miała miejsce w Dżakarcie w sierpniu 2021 roku. Powodem była wątpliwa rzetelność recenzji, co zaowocowało licznymi tekstami, które ewidentnie zostały wygenerowane komputerowo (Screen 3).
Kolejnym wydawcą, który padł ofiarą fabryki artykułów, był Springer Nature. Wycofano ponad 400 tekstów z numerów specjalnych czasopisma „Arabian Journal of Geosciences” oraz „Personal and Ubiquitous Computing”. Warto dodać, że o ile wydawcy wskazują na wycofanie danego artykułu i przyczynę retrakcji, to ten sam tekst może być umieszczony na serwerach z preprintami lub na platformach typu ResearchGate i tutaj informacja o retrakcji się nie pojawi.
Problem nie tylko dla wydawców
Choć proceder jest znany od lat, to problemem wciąż jest rozpoznanie, że teksty faktycznie pochodzą z fabryki artykułów. Sami wydawcy nie są w stanie tego ocenić od razu, dlatego fałszywe teksty naukowe są rzadko identyfikowane na etapie zgłoszenia artykułu, częściej dopiero po jego publikacji. Zazwyczaj dochodzenie do prawdy wymaga analizy tekstu i porównania go z innymi artykułami z tej samej dyscypliny, co skutkuje zazwyczaj wycofaniem artykułu. Zajmują się tym naukowcy, którzy wykrywają tego typu nieprawidłowości i alarmują wydawców i redaktorów.
Jednak prawdopodobnie wykryte przypadki to tylko niewielka część sfabrykowanych publikacji, za które zapłacili „autorzy”. Nie bez przyczyny fabryki artykułów powiązane są mocno z fałszywym współautorstwem. Większość takich artykułów pozostanie najpewniej nieujawniona lub doczeka się retrakcji dopiero po wielu miesiącach lub latach od publikacji. Dla każdego wydawnictwa jest to też dowód, że proces selekcji tekstów oraz recenzowania nie przynosi zamierzonego efektu.
Są jednak pewne sygnały, na które warto zwrócić uwagę po przyjęciu zgłoszenia. Mogą one sugerować, że przysłany manuskrypt, choć pozornie spełniający wszelkie kryteria naukowości i umiędzynarodowienia, może pochodzić z fabryki artykułów, a jego rzekomi autorzy nie mieli nic wspólnego z przytaczanymi badaniami i napisanym tekstem.
Czy da się rozpoznać sfabrykowany tekst?
Opisane wcześniej szerokie wykorzystanie oprogramowania do tłumaczenia (w celu ukrycia plagiatu), skutkujące pojawieniem się „tortured phrases”, to niejedyny sygnał, że wydawca może mieć do czynienia ze sfabrykowanym tekstem.
Na pierwszy rzut oka tekst z fabryki artykułów nie wzbudza podejrzeń. Jest napisany poprawnym, naukowym językiem angielskim i przechodzi bezproblemowo weryfikację w programie antyplagiatowym. Problem może nie być zauważalny przy pojedynczym artykule, pełny obraz może się wyłaniać dopiero wtedy, gdy te same cechy, układ tekstu, formatowanie, dane czy obrazy pojawiają się w wielu artykułach o różnej tematyce, nawet z innych dziedzin, zgłaszanych do różnych czasopism. Co więcej, teksty przesyłane przez fabryki artykułów zazwyczaj nie są dostosowywane do szczegółowych wymagań konkretnego czasopisma. Są produkowane w ogromnej liczbie i zgłaszane równocześnie do tylu różnych czasopism, że ewentualne ich ujednolicenie do wymaganego stylu realizowane jest dopiero po przyjęciu tekstu do publikacji.
Najczęściej firmy fabrykujące teksty obracają się w konkretnych dyscyplinach. Mocno zauważalna jest ich obecność w naukach biomedycznych, związanych z biologią komórkową i molekularną (choć ewoluują też w innych kierunkach, np. informatyka i inżynieria). Ukrywają informacje o laboratoriach, w których przeprowadzono badania, co może wskazywać, że są one integralną częścią fabryk artykułów. W ten sposób w przypadku wykrycia nieprawidłowości w artykułach autorzy będą zrzucać winę na enigmatyczne laboratorium, które dostarczyło błędnych danych, ale nikt nie będzie w stanie go zlokalizować. Tak samo autorzy będą tłumaczyć brak oryginalnych danych badawczych, zrzucając winę na nieokreślone laboratorium. Dlatego redakcje powinny żądać surowych, oryginalnych danych już na etapie zgłoszenia publikacji.
Sfabrykowane artykuły bazują na badaniach metodą Western blot, testach cytometrycznych oraz histologii komórek – manipulują badaniami i obrazami w różny sposób, tak aby te same zestawy danych i grafiki wykorzystać w innych produkowanych tekstach. Dopiero szczegółowa analiza pozwala zauważyć nieścisłości, np. w wynikach analizy białek metodą Western blot czy liczne manipulacje dotyczące zdjęć dokumentujących te analizy. Oczywiście potrzeba do tego wiedzy eksperckiej. W wykrywaniu tego typu oszustw naukowych wyspecjalizowała się Elisabeth Bik, konsultantka ds. integralności obrazu z San Francisco w Kalifornii. Fałszywe teksty naukowe identyfikuje też Jennifer Byrne z University of Sydney oraz Anna Abalkina z Freie Universität Berlin, która zidentyfikowała i opisała rosyjską fabrykę artykułów oraz bada zjawisko porywanych czasopism. Opracowano też programy, które mogą pomóc rozpoznać różnego rodzaju manipulacje na obrazach, np. ImageTwin, Proofig, FigCheck lub Imacheck.
Wydawcy muszą też baczniej przyglądać się afiliacjom autorów. Tutaj może się zdarzyć, że autorzy nie podają służbowych adresów mailowych (co samo w sobie nie świadczy o oszustwie), ale w afiliacjach często nie wskazują konkretnej uczelni lub nie da się ich wyszukać na liście pracowników (co już powinno budzić zastrzeżenia). Badacz może być afiliowany na wydziale, który tematycznie nie ma wiele wspólnego z dyscypliną i tematyką artykułu, którego oficjalnie jest współautorem. Ponadto teksty zgłaszają autorzy, którzy do tej pory nie wydawali nic z danym czasopismem ani nigdy nie zgłaszali do niego tekstów. W zgłoszeniach podawane są też nowo utworzone, alfanumeryczne adresy e-mail, które nie nawiązują do nazwiska autora i nigdy nie pojawiały się w odniesieniu do tekstów naukowych. Warto też zwrócić uwagę na identyfikatory ORCID, fabryki artykułów stosują tu najczęściej nowo wykreowane identyfikatory, bez szczegółowych danych i afiliacji oraz bez informacji o poprzednich artykułach danego badacza. To skuteczna metoda na ukrycie tożsamości autora, zwłaszcza gdy jego imię i nazwisko są dość popularne.
Podając wymienione wytyczne COPE i Elsevier zwracają jednak uwagę na to, że pojedyncze elementy niekoniecznie wskazują na sfabrykowany i sprzedany tekst, a raczej wskazuje na to ich kombinacja. Wątpliwości wydawców budzić powinno dodawanie kolejnych współautorów po zgłoszeniu tekstu, ale przed jego opublikowaniem. To wyraźny sygnał alarmowy, że publikacja może pochodzić z fabryki artykułów, a poszczególne miejsca na liście współautorów zostały wykupione przez zainteresowanych badaczy. W kwestii sprzedaży tekstów najtrudniej wykryć i udowodnić ten proceder, jeśli grupa autorów z jednego wydziału lub jednej placówki badawczej wspólnie kupiła artykuł. Jest bowiem bardziej wiarygodna niż mieszanka osób z różnych specjalności z różnych krajów, która nigdy nic nie publikowała wspólnie. Dlatego w takich przypadkach jest mniejsze prawdopodobieństwo, by wydawca zorientował się, że ma do czynienia z fałszywym tekstem.
Czy jest jakieś rozwiązanie?
Na pewno problem z fabrykami artykułów, generowanymi komputerowo tekstami i zmanipulowanymi danymi jest zbyt rozpowszechniony i poważny, by poradził sobie z nimi pojedynczy wydawca, a nawet skumulowane działania wszystkich zainteresowanych stron mogą nie przynieść spodziewanych efektów. Niemniej istotna jest każda podejmowana akcja i wdrażanie rozwiązań skierowanych przeciwko fabrykom artykułów: współpraca między wydawcami oraz pogłębiona kontrola zgłaszanych prac, wnikliwa analiza zgłaszanych tekstów, dokładne sprawdzanie danych i afiliacji autorów oraz żądanie surowych danych i oryginalnych zdjęć, a także wiarygodny i transparentny proces recenzyjny, zarówno przed, jak i po publikacji (np. zgłaszanie napisanych recenzji w serwisie Publons).
Wydawcy powinni wymagać podawania od autorów służbowych, instytucjonalnych adresów e-mail i identyfikatorów ORCID, które pozwolą prześledzić pełną historię publikacji danego autora, surowych danych, na których bazują badania, informacji o laboratorium, w którym wykonano doświadczenia i przygotowano grafiki ilustrujące tekst. Cenne są także wszelkie inicjatywy tworzenia narzędzi, które mogłyby wykrywać sfabrykowane artykuły na etapie ich zgłaszania. Fabryki artykułów nie będą mogły działać i zarabiać, gdy czasopisma będą odrzucać wszystkie pochodzące od nich zgłoszenia.
Niezbędna jest też szybka reakcja wydawcy na dowody nierzetelności naukowców i retrakcja artykułów w potwierdzonych przypadkach, a także szersze informowanie o wycofywanych tekstach z konsekwencjami, które byłyby bardziej dotkliwe dla nieuczciwych autorów oraz obowiązkiem dodawania informacji o retrakcji na wszystkich udostępnionych kopiach artykułu. Pozostaje jeszcze problem bardziej systemowy – wymagania wobec naukowców co do liczby publikacji i wyboru odpowiednio prestiżowego czasopisma. Tutaj fabryki artykułów odpowiadają na konkretne zapotrzebowanie środowiska akademickiego i traktowane są przez naukowców jako narzędzie niezbędne do uzyskania awansu, otrzymania grantu czy ewaluacji. Dopóki będzie popyt na ich usługi, nie ma szans, by zniknęły z rynku.
Pesymistyczne prognozy
Naukowcy zajmujący się tematem nie mają jednak dobrych wieści – teksty z fabryk artykułów będą o wiele trudniejsze do wykrycia. Po pierwsze komercyjne firmy, które za nimi stoją, dobrze wiedzą, z jakich narzędzi korzystają naukowcy, aby zidentyfikować sfabrykowane teksty i obrazy. Mogą więc wykorzystywać identyczne narzędzia do sprawdzania tekstu czy porównywania zdjęć, aby sprawić, że tekst przejdzie każdą kontrolę bez uwag. O wiele większym zagrożeniem jest jednak sztuczna inteligencja, wykorzystywana zarówno do tworzenia tekstów, jak i obrazów.
Obecnie każdy może wykorzystać narzędzia zaprzęgające do pracy sztuczną inteligencję, aby stworzyć tekst naukowy i żaden system antyplagiatowy tego nie wykryje. Nieraz udowadniano, że tego typu popularne i ogólnodostępne narzędzia (np. ChatGPT) są wykorzystywane przez studentów do pisania całych prac zaliczeniowych, ale niewykluczone, że są też bazą dla sfabrykowanych tekstów naukowych. Sztuczna inteligencja wykorzystywana jest też do fałszowania zdjęć i wideo. Dużą popularnością cieszy się technika deepfake, w której łączone i nakładane są obrazy w celu manipulowania grafiką lub wideo. W filmach jest to wykorzystywane do zamiany twarzy aktora, ale może być też stosowane w celach propagandowych czy przestępczych.
W nauce sztuczna inteligencja i technika deepfake może być wykorzystywana do fabrykowania wiarygodnie wyglądających, realistycznych obrazów. Nie da się ich odróżnić od oryginalnych zdjęć i nie mają żadnych cech wskazujących na manipulację obrazów (takich jak zduplikowane elementy, wyczyszczone tło i in.). Co więcej, badana wskazują, że obrazy są na tyle realistyczne, że większość naukowców nie jest w stanie zidentyfikować wykreowanych obrazów od tych prawdziwych. Przykładem mogą być obrazy raka przełyku wygenerowane przez AI.
Jolanta Szczepaniak
W tekście jedna rzecz wydaje się być nie do końca jasna. Chodzi mianowicie o fazy drugą i trzecią "gdy tylko zgłoszenie zostaje przyjęte lub rozpoczyna się proces rewizji, pozostałe zgłaszane teksty są porzucane, a firma skupia się tylko na tym, który może przynieść dochód" oraz "tytuł i abstrakt umieszczane są w katalogu artykułów na stronie firmy wraz z ofertą zakupu od jednego do sześciu pozycji współautorstwa". Rozumiem, że fabryka artykułów zgłasza artykuł do czasopisma z fikcyjnymi nazwiskami autorów, a potem na skutek "przetargu" podmienia je na prawdziwe - tych osób, które za publikację wylicytowały najwięcej. Wtedy jest chyba największa szansa na wykrycie manipulacji autorstwem. Przecież całkowita zmiana nazwisk współautorów (a to naturalna konsekwencja "przetargu") nie może być niezauważona dla redakcji i w pierwszym rzędzie powinna spowodować dokładne przyjrzenie się artykułowi i właściwie stanowić powód do odrzucenia go (nie racjonalnego powodu, dla którego wszyscy autorzy danego tekstu mieliby być wymienieni).
Nawet i częściowa zmiana współautorstwa w trakcie oceny tekstu powinna spowodować "zapalenie się czerwonej lampki" dla redakcji. Kiedyś recenzowałem dla czasopisma zagranicznego pewien artykuł, który miał trzech współautorów. Po otrzymaniu tekstu poprawionego po pierwszej recenzji skonstatowałem, że z listy współautorów usunięto jedno nazwisko, choć zakres dokonanych modyfikacji w żaden sposób tego nie uzasadniał (poprawki nie były duże i nie naruszały integralności pracy). Poinformowałem o tym redakcję. Później okazało się, że tekst w tym czasopiśmie się nie ukazał, ale po jakimś czasie opublikowano go w zupełnie innym (z dwoma nazwiskami współautorów). Ciekawe czy tam wiedziano o tej sytuacji? Możliwe, że nie.
Przynamniej raz jako recenzent spotkałem się z przypadkiem zmiany (usunięcie 3 i wpisane 3 nowych autorów) po pierwszej recenzji. W obu wersjach usuwani i wpisywani nowi autorzy pochodzili z krajów jak Indonezja, Pakistan i okolice Oceanu Indyjskiego.
Niestety czytając recenzje innych recenzentów, stwierdzam, że około 30% recenzentów nie czyta tekstu uważnie, nie analizuje danych, nie czyta References, nie stwierdza, że część powołań na inne prace jest bez sensu.