Poczta elektroniczna

Cytuj i bądź cytowany

W dynamice sieci powiązań między publikacjami naukowymi dominuje proste kopiowanie odnośników literaturowych, dziecinnie łatwe, gdy prace pisze się na komputerach i są one dostępne w Internecie.
Paweł Misiak

 Fot. Stefan Ciechan Okresowa ocena nauczycieli akademickich to czas swego rodzaju rachunku sumienia, między innymi w dziedzinie dokonań naukowych. Te zaś mierzone są punktami przyznawanymi przede wszystkim za to, co znalazło wyraz w publikacjach. Przy tym, jeśli chodzi o „oryginalne prace twórcze”, najważniejsze są cytowania, przede wszystkim słynny impact factor czasopism, w których ukazały się artykuły, oraz cytowania danego artykułu umieszczone w bazach cytowań, jak na przykład „Science Citation Index”.

Rzut oka na ankietę, którą mam przed sobą, sugeruje, że punktacja za opublikowane prace naukowe odzwierciedla założenie, iż umieszczenie artykułu w czasopiśmie o wysokim impact factor przekłada się na znaczenie, jaki ten artykuł ma na „rynku naukowym”. Wydawać by się mogło, że wysoki impact factor czasopisma automatycznie powoduje wysoką liczbę cytowań pomieszczonej w nim pracy. Tymczasem zależność jest tylko odwrotna - wysoka liczba cytowań artykułu podnosi impact factor czasopisma. Ale według ankiety jedna praca opublikowana w czasopiśmie, którego impact factor jest mniejszy od 0,1 (czyli niewielki), jest warta tyle, co sześć cytowań zarejestrowanych w SCI.

Na temat stosowania do ewaluacji działalności naukowej prostych wskaźników ilościowych opartych na cytowalności, jak impact factor, napisano wiele, także na łamach „Forum Akademickiego”. Zwolennicy podkreślają zazwyczaj prostotę tego rodzaju ilościowej miary, która umożliwia łatwe uzyskiwanie list rankingowych czasopism, jednostek badawczych, grup naukowych czy poszczególnych badaczy. Krytycy wskazują na rozliczne uproszczenia i wady takich metod, jak preferowanie pewnych dziedzin względem innych czy nieporównywalność pewnych wskaźników. Swoją drogą, ciekawa byłaby analiza socjologiczna relacji między stopniem „bezwzględności” poparcia dla ewaluacji na podstawie impact factor (zwykle w połączeniu z atencją dla tak zwanej listy filadelfijskiej czasopism) a reprezentowaną dyscypliną naukową i jednostką badawczą. W ogólności warto zwrócić uwagę, że sam Eugene Garfield, który zaproponował użycie wskaźnika impact factor do wartościowania między innymi czasopism naukowych, zwraca uwagę na konieczność zachowania ostrożności i rozsądku przy jego stosowaniu.

Interdyscyplinarna normalizacja

Rzeczą, na którą najczęściej chyba zwracają uwagę krytycy bezrefleksyjnego przykładania miary „cytowalności” do wszelkiej działalności naukowej, jest jej zmienność pośród różnych dyscyplin naukowych. O ile można w miarę sensownie porównywać wagę dokonań badaczy czy grup naukowych działających w tej samej dziedzinie nauki, o tyle bezpośrednie ilościowe porównywanie reprezentantów różnych nauk jest już mocno podejrzane.

Zwracając uwagę na duże różnice między średnią liczbą cytowań w różnych dyscyplinach naukowych, I. Podlubny (http://arxiv.org/math.ST/ 0410574) proponuje zmodyfikowaną wersję parametryzacji przez cytowania. Korzystając z danych dotyczących USA (Science and Engineering Indicators 2004, National Science Foundation, 2004), zestawił liczbę cytowań w różnych dziedzinach nauki na przestrzeni dekady 1992-2001 i zauważył pewną prawidłowość - stosunki tych liczb dla poszczególnych par dyscyplin naukowych wykazują względnie niewielkie zmiany w czasie. Ponieważ najniższe wskaźniki dotyczą prac z dziedziny matematyki, Podlubny określił parametry innych dyscyplin względem „królowej nauk”. I tak na przykład zaokrąglony średni „współczynnik cytowalności względem matematyki” wyniósł dla nauk technicznych 5, dla biologii 8, dla chemii 15, dla fizyki 19, a dla badań biomedycznych oraz medycyny klinicznej 78.

Dalej zaś zaproponował, by do oceny dorobku grup badawczych reprezentujących różne nauki stosować nie bezwzględną liczbę uzyskanych cytowań, lecz znormalizowane wskaźniki dla danej dziedziny, to znaczy liczbę cytowań podzieloną przez średni współczynnik „przewagi nad matematyką” dla danej dyscypliny. W ten sposób uwzględnia się automatycznie takie czynniki, jak różnice w globalnej liczbie publikacji oraz w średniej długości spisów referencji w pracach publikowanych w różnych dziedzinach nauki.

Tę samą metodę można zastosować i do oceny poszczególnych pracowników (jak to się de facto robi na przykład podczas wydziałowych czy uczelnianych ocen), zwłaszcza w przypadku względnie niewielkiej liczby cytowań. Rzecz jasna, należy przy tym uwzględnić zarówno warunki lokalne, to znaczy korzystać z owych współczynników uzyskanych nie tyle z danych amerykańskich, co regionalnych (na przykład oszacowanych dla nauki w Europie Środkowowschodniej) albo globalnych. Ponadto należy mieć na względzie silne fluktuacje w bezwzględnych liczbach cytowań przy stosunkowo niewielkiej liczbie publikacji i w krótkich okresach. We wnioskach końcowych Podlubny podkreśla, że proponowana przez niego znormalizowana cytowalność może być jedną z miar znaczenia publikacji grup czy pojedynczych badaczy dla nauki jako takiej, ale nie powinna być miarą jedyną, jako że nie bierze pod uwagę wielu innych istotnych czynników związanych z wkładem dokonań tej czy innej osoby bądź grupy do rozwoju światowej nauki.

Idealizacja a rzeczywistość

W tym kontekście warto zdać sobie sprawę, że stosując współczynniki cytowalności, takie jak impact factor Garfielda czy znormalizowana cytowalność Podlubnego, jako miarę znaczenia dokonań w sferze nauki, przyjmuje się milcząco pewien idealny model, w którym spis referencji w każdej publikacji obejmuje prace, z którymi cytujący autorzy przynajmniej się zapoznali i istotnie odnoszą się one do treści. Tymczasem łatwo sobie wyobrazić mechanizmy psychologiczne i socjologiczne, które sprawiają, iż rzeczywistość nie pasuje do owego wyidealizowanego modelu.

Nacisk na publikowanie jak największej liczby prac i przy okazji osiąganie możliwie wysokiej cytowalności to rzecz bynajmniej nie nowa. Pamiętam dobrze, jak przed wielu laty, gdy zaliczałem się jeszcze do młodych naukowców, w gronie paru kolegów zastanawialiśmy się nad możliwościami osiągnięcia wysokich wartości owych wskaźników, a tym samym naszych ocen w oczach szefów i ewentualnych komisji. Dwa pomysły nasunęły się nam jako niemal naturalne. Pierwszy miał polegać na dopisywaniu nawzajem swoich nazwisk do publikowanych prac, drugi - na licznym cytowaniu się nawzajem w swoich pracach. Te dwa rodzaje działań nie były, niestety, wzajemnie niesprzeczne, jako że w przypadku ekstremalnym wszystkie takie cytowania byłyby odwoływaniem się do prac własnych, więc nie byłyby uwzględniane w bardziej zaawansowanych metodach wyliczania cytowalności, w których autocytowania nie są brane pod uwagę. Jednak przy zachowaniu pewnej dozy umiaru plan mógł się powieść, szczególnie że każdy z nas pracował w innej placówce naukowej i nieco innej specjalności, więc takie „grzecznościowe” powoływanie się wzajem na swoje prace nie wyglądałoby najgorzej.

Z powodu różnych komplikacji pomysłów tych nie wcieliliśmy w życie. Jeden z nas dość szybko porzucił karierę naukową i poszedł zarabiać na życie w innej branży. Drugi nie mógł nic zrobić, bo o formie wszelkich publikacji decydował jego szef, dopisując się oczywiście w charakterze współautora, a o dodaniu nazwisk innych autorów bądź dodatkowych referencji nie było mowy. Niemniej, jeśli takie pomysły przyszły do głowy nam, mogły też innym. Z tego względu ciekawa, także z naukowego punktu widzenia, mogłaby się okazać próba wyłowienia w morzu publikacji i cytowań pewnych sieci powiązań między publikacjami i ich autorami, niezbyt silnie uzasadnionych względami czysto merytorycznymi.

Cytowania statystyczne

Inny problem, związany z odstępstwami od wspomnianego wyżej idealnego modelu uzasadnionego cytowania przeczytanych prac, rozpatrują w swoich artykułach M.V. Simkin i V.P. Roychowdhury (Complex Syst. 14 (2003) 269; Scientometrics 62 (2005) 367). Zainteresowali się mianowicie propagacją błędów pojawiających się w referencjach do licznie cytowanych artykułów naukowych. Za materiał do badań posłużył im tuzin najczęściej cytowanych prac z dziedziny szeroko pojmowanej fizyki, z całkowitą liczbą cytowań między około 400 a ponad 4300 oraz liczbą cytowań z błędami między 20 a ponad 260.

Autorzy przyjęli założenie, że błędy w odnośnikach są wprowadzane w sposób czysto losowy, ale tylko przez autorów, którzy cytowaną publikację przynajmniej mieli w rękach i popełnili błąd przy przepisywaniu danych bibliograficznych. Przyjęli ponadto, że błąd w miejscu każdego znaku w zapisie odnośnika bibliograficznego jest równie prawdopodobny, a zatem prawdopodobieństwo powtórzenia tego samego błędu przez dwóch niezależnych autorów jest bliskie zeru. Następnie zbudowali model statystyczny opisujący propagację błędów w odnośnikach literaturowych, który umożliwia oszacowanie prawdopodobieństwa R tego, że autor błędnie cytujący dane bibliograficzne przynajmniej miał w rękach cytowaną pracę. Jest to model dokładniejszy niż proponowane wcześniej między innymi w celu matematycznego opisania zjawiska znanego pod nazwą „efektu św. Mateusza” ('Każdemu bowiem, kto ma, będzie dodane...', Mt 25,29), a w kontekście bibliometrii polegającego na tym, że prawdopodobieństwo uzyskania przez określoną pracę kolejnego cytowania jest tym większe, im więcej cytowań dana praca wcześniej uzyskała.

Po zastosowaniu modelu do rzeczywistych danych, uzyskanych ze wspomnianych dwunastu artykułów, Simkin i Roychowdhury otrzymali wynik R = 0,2. Wyciągnęli stąd wniosek, że średnio w 80 procentach przypadków dane bibliograficzne są tylko kopiowane (wraz z ewentualnymi błędami) z listy referencji zamieszczonych w innych pracach, bez sprawdzenia w odpowiednim źródle bibliograficznym lub przynajmniej w autoryzowanym spisie odnośników. Zatem - konkludują - w dynamice sieci powiązań między publikacjami naukowymi dominuje proste kopiowanie odnośników literaturowych, dziecinnie łatwe, gdy prace pisze się na komputerach i są one dostępne w Internecie.

Zdając sobie sprawę z dużych uproszczeń zaproponowanego modelu, autorzy sugerują dalsze badania na ten temat. Należałoby uwzględnić między innymi niejednorodność rozkładu prawdopodobieństwa występowania poszczególnych rodzajów błędów (opuszczenie pojedynczej litery czy cyfry bądź tak zwany czeski błąd może się zdarzyć częściej niż na przykład wpisanie całkowicie innego numeru strony lub woluminu), a także wielokrotne autorstwo i współautorstwo prac (prawdopodobieństwo popełnienia tego samego błędu w pracach tego samego autora jest większe, bo zwykle kopiuje on fragmenty spisu referencji ze swoich wcześniejszych prac). Ponadto niektóre błędy w bazach danych bibliograficznych, które stanowią źródło materiału do takich analiz, są również wprowadzane przez twórcę tych baz - ISI.

Takie, jak wspomniane powyżej, badania nad cytowaniem publikacji naukowych mogą się przyczynić do lepszego zrozumienia zależności między rzeczywistym znaczeniem prac poszczególnych naukowców, grup badawczych czy całych instytucji naukowych a różnymi prostymi wskaźnikami stosowanymi w praktyce do ich oceny. Następnie powstaną może bardziej wyrafinowane metody naukometryczne, które uczynią nieskutecznymi metody zawyżania wskaźników przyjętych za podstawę oceny dokonań naukowych, nie mające bezpośredniego związku z ich rzeczywistą wartością. A jednocześnie jest to samo w sobie ciekawe pole badań naukowych.

Dr Paweł Misiak jest pracownikiem Akademii Rolniczej we Wrocławiu.