Wskaźniki i jakość badań

Archiwum z roku 2001

Spis treści numeru 3/2001

Polemiki

„Produkcja” naukowa zależy w większym stopniu od liczby pracowników
naukowych i inżynieryjnych niż od wielkości samych nakładów.

Władysław Kraus

Fot. Stefan Ciechan

Od wydania 5 stycznia 1665 roku pierwszego numeru Le Journal des s?avans przez francuską Academie des Sciences (nieznacznie wcześniej od wydania w tym samym roku po raz pierwszy Philosophical Transactions przez The Royal Society of London) liczba czasopism naukowych osiągnęła sto kilkadziesiąt tysięcy. Analiza prowadzi do wniosku, że liczba ta wzrasta stale o nie więcej niż 5-7 proc. rocznie, a przekonanie o tzw. ich eksplozji stanowi iluzję. Rozkłady liczb publikowanych i cytowanych prac w zależności od liczby czasopism źródłowych mają podobny przebieg, natomiast rozkład liczby cytowań w zależności od liczby cytowanych czasopism znacząco się od obu poprzednich różni. Niewielka liczba (~1 proc.) czasopism z względnie bardzo dużej ich próby (20 tys.) analizowanej niegdyś przez Garfielda zbierała względnie dużo cytowań (~20 proc.), jednakże w obrębie tej próby lokowano tylko ok. 4 na każdych 5 cytowań. Ok. 20 proc. prac i cytowań odnajdywano dopiero w odpowiednio ~1,8 proc. i ~2,3 proc. czasopism. Ok. 10 proc. czasopism źródłowych wnosiło odpowiednio ~45 proc. prac i ~48 proc. cytowań (także do prac opublikowanych poza badanymi czasopismami). Wymieniane grupy tworzą jednak w znaczącej części różne czasopisma.

OSTATNI BĘDĄ PIERWSZYMI

Statystyce tej towarzyszy mniemanie, że wszystko co najważniejsze trafia do tych właśnie wąskich grup czasopism. Utwierdzać ma w tym jakoby treść tzw. prawa Bradforda. W istocie stanowi ono raczej odbicie stałego problemu wszystkich bibliotek: jak przy danych – zwykle bardzo ograniczonych – środkach zadowolić jak największą liczbę czytelników. Aby je stosować, trzeba wiedzieć, że odnosi się ono do pełnej bibliografii danej dziedziny. Bradford zauważył tu jedynie, że można wyodrębnić grupy czasopism publikujących taką samą liczbę prac z danej dziedziny, a liczby tworzących takie grupy czasopism, w różnym stopniu związanych z tą dziedziną, tworzą ciąg geometryczny. Iloraz takiego ciągu jest różny dla różnych dziedzin. Stąd uogólnienie prawa dla zbioru różnych dziedzin jest mało prawdopodobne (według mojej wiedzy, nie istnieje). Prawo to – wbrew domniemaniu sporej części dyskutantów – nie zajmuje się jakością ani prac, ani czasopism. W praktyce, każdy może sam sprawdzić działanie tego prawa: zestawiona ze znawstwem przedmiotu niewielka biblioteka instytutowa może mieć „prawie wszystko” w dość wąskiej dziedzinie, podczas gdy stan taki trudno osiągnąć w centralnych bibliotekach przy wielokrotnie wyższych nakładach.

To, że czasopisma publikują prace z różnych dziedzin, znajduje odbicie w systemie ISI w tym, że przypisuje się je częstokroć do kilku różnych, dość dowolnie ustalonych dyscyplin ISI. Według wykazu czasopism objętych Current Contents, w grupie tzw. life sciences dotyczy to ok. 1 na każde 5 z nich (w pozostałych mniej więcej 1 na każdą 10, a nadto czasopisma bywają zaliczane do dyscyplin z różnych grup nauk). Jeśli chodzi o dziedziny nowe, to czasopism publikujących niemal wyłącznie takie prace trzeba szukać w wielu różnych dyscyplinach ISI: jedną z takich dziedzin reprezentuje 12 czasopism wymienionych 17 razy w 7 różnych dyscyplinach. Według wartości IF jedno z nich sytuowano w 3 różnych dyscyplinach ISI, odpowiednio na 3., 4. i 29. miejscu. Inne – w 2 innych dyscyplinach, z innej według ISI grupy nauk – na 33. i 159. miejscu. W nowej dziedzinie – gdyby taką wyróżniono w ISI – zajęłyby miejsca odpowiednio 6. i 9., o ile wartości ich IF można by oderwać od kontekstu. W grupie nauk chemicznych (575 czasopism), do których przynależałaby nowa „dyscyplina”, rozpiętość IF (stosunek wartości najwyższej do najmniejszej) pomiędzy dyscyplinami

ISI sięgała wtedy od ponad 7,3 do ok. 3,6, a wartości najniższe odpowiadały różnym dyscyplinom, w zależności od tego czy brano pod uwagę wartości maksymalne czy średnie IF (średni IF nowej „dyscypliny” przewyższałby wyraźnie średnie wszystkich starych chemicznych dyscyplin ISI).

Z drugiej strony, rozpatrując różne sposoby przypisywania jakiegoś wskaźnika, współautorom prac dowiedziono ostatnio, że stosując ten lub inny sposób do danego zestawu prac można doprowadzić do sytuacji, że ich współautor znajdzie się wśród innych albo na pierwszym albo na ostatnim miejscu. Analogicznie rzecz się ma w przypadku czasopism. Nadto, wartość logarytmu naturalnego osławionego współczynnika wpływu (lnIF) korelowała się ujemnie (r2 rzędu 0,5) ze średnim czasem, który w danym czasopiśmie upływa od momentu nadesłania pracy do jej publikacji. Znacznie silniejsza była pozytywna korelacja lnIF (r2 rzędu 0,7) ze średnim udziałem w pracach cytowanych w danym czasopiśmie doniesień opublikowanych w dwu ostatnich latach przed publikacją pracy. Istnieje obawa, czy to wszystko ma jakikolwiek związek z jakością.

NIEZNANE PERŁY

Skąd się zatem wzięła nagła popularność takich wskaźników? W połowie lat 80. pojawił się (nie tylko w dziedzinie nauki) problem kontroli alokacji i efektywności wykorzystania środków budżetowych. Jednocześnie postęp techniki komputerowej otworzył łatwy dostęp do dużych baz danych. Biorąc pod uwagę różnorodność danych, bazy ISI praktycznie nie miały konkurencji. Wykorzystywano je w różny sposób, czyniąc próby opisu „produkcji” naukowej. Ustalono wtedy, że w Wielkiej Brytanii blisko co czwarty uniwersytecki pracownik naukowy, a ponad dwu na trzech pracowników politechnik, w czasie ostatnich 2 lat nie opublikował żadnej pracy. Co do Australii, to w ostatnich 5 latach niczego nie opublikował co szósty pracownik uniwersytecki oraz blisko dwu na pięciu pracowników innych szkół wyższych. W Stanach Zjednoczonych niemal co trzeci pracownik naukowy publikował w czasie całej kariery zawodowej mniej niż 4 prace. Z drugiej strony w dwu ostatnich krajach ok. 50 proc. publikacji pochodziło od nie więcej niż 15 proc. pracowników. Oliwy do ognia dolały wyniki zamówionego w ISI przez „Science” raportu, z którego wynikało, że 55 proc. prac opublikowanych w badanych czasopismach w latach 1981-85 w ogóle nikt nie cytował. Wyniki zdawały się szokować, przede wszystkim czytelników prasy popularnej. Reakcje były różne, a dyskusja równie gorąca, jak ta na łamach „FA”. Podniesiono problem czy większość tych badań była w ogóle warta zachodu, jeśli nie będąc cytowanymi rzekomo nie przyczyniły się do podtrzymania innych badań.

Postawiono jednak i problem przeciwny: czy nie jest zbędna większość trwających obecnie badań, a tam, w tej zapomnianej literaturze, nie ma użytecznych dokonań, które, gdyby o nich wiedziano, mogłyby skrócić czas trwania obecnych doświadczeń, a nawet zapobiec wielu popełnianym dziś błędom i znacząco obniżyć koszt badań? Zatem surową krytykę powinny ściągać na siebie nie te setki nigdy niecytowanych prac, lecz ci, którzy z premedytacją, lub nie, odmawiają ich cytowania i uznania, że znalazłyby się tam może i perły, o ile tylko znaleźliby czas na wydobycie ich na światło dzienne [FASEB J. vol. 5 (1991) s. 139, 2612]. Czy są na to jakieś, być może „polskie”, przykłady? A i owszem.

W latach 30. polski biochemik Ernest Aleksander Sym (1893-1950) opublikował po niemiecku (tj. w języku wtedy powszechnie używanym w chemii organicznej) oraz angielsku i francusku, w znanych czasopismach o zasięgu światowym, ponad 20 prac dotyczących jednej z wiodących dzisiaj dziedzin biotechnologii – biokatalizy w rozpuszczalnikach organicznych (niewodnych). Z prac tych wynika, że ich autor nie widział nic szczególnego w tym, że enzym może być aktywny w takim środowisku (zastanawiano się wówczas, czy enzymy to białka lub inne rodzaje substancji, czy też zanieczyszczenia wyodrębnianych preparatów białkowych). Prace te są mało znane i bardzo rzadko cytowane do dziś (nawet w Polsce, gdzie prace nad lipazami, którymi zajmował się Sym, prowadzi kilka ośrodków), a do końca lat 70. (a nawet później) w podręcznikach szerzone było mniemanie, że enzymy są aktywne jedynie w rozcieńczonych roztworach wodnych. Powstanie biokatalizy w środowiskach niewodnych wiązane jest natomiast z pracami A. Zaksa i A.M. Klibanova z połowy lat 80. Ostatnio podniesiono problem, dlaczego to nie nastąpiło w latach 30., i dlaczego za ojca tej dziedziny nie uznaje się Syma [TIBTECH vol. 17 (1999) s. 343-344, vol. 18 (2000) s. 85-86], jedną z prac Syma uznano wprost za pionierską w tej dziedzinie [Angew.Chem.Int.Ed. vol. 39 (13) (2000) s. 2226-2254]. Sugeruje się, że przyczyną mogło być to, iż Sym opublikował większość swoich prac w pojedynkę; nie dbał o rozgłos, a niewielkie polskie środowisko naukowe nie zapewniało mu w owym czasie odpowiedniej promocji międzynarodowej. Poza tym, preparaty enzymatyczne nie były łatwo dostępne i nie przewidywano wtedy przemysłowych zastosowań enzymów w rozpuszczalnikach niewodnych. Ten ostatni argument jest jednak wątpliwy, bo pięciu produktom, które stanowią absolutne przeboje farmaceutycznego rynku ostatnich 30 lat, również nie przydawano na początku żadnego handlowego znaczenia. Natomiast oryginalność ówczesnych dokonań Syma nie może budzić żadnych wątpliwości i w zasadzie – jak piszą autorzy podnoszący problem – zestawiając treść jego prac z treścią przypadkowo wybranych obecnych prac nad lipazami, trudno zauważyć między nimi jakiekolwiek różnice, a tym bardziej odgadnąć, że dzieli je bez mała 7 dziesięcioleci.

LIGA RATINGOWA

Pod koniec lat 80. Amerykanie doszli do wniosku, że w tworzeniu systemów oceny badań i alokacji środków wyraźnie odstają od państw Europy Zachodniej. Postanowiono więc rzecz zbadać dokumentnie. Jak miecz Damoklesa wisiała bowiem nad wielkością dotacji budżetowych uchwalona w połowie lat 80. poprawka Gramma-Rudmana-Hollingsa, która prowadziła do automatycznego obcięcia wydatków budżetu, gdy jego deficyt przekroczy określony poziom. Badania objęły lata 1979-93 i doprowadziły do dwu zasadniczych wniosków. Po pierwsze, to czy mamy do czynienia ze wzrostem lub ze spadkiem wydajności zależy od rodzaju współczynnika deflacji stosowanego do przeliczeń nakładów i wyboru bazy danych o nauce. Ponadto, wzrostowi nakładów towarzyszy nieco niższy wzrost (a czasami nawet spadek) wielkości naukowego „produktu”. Po drugie, „produkcja” naukowa zależy w większym stopniu od liczby pracowników naukowych i inżynieryjnych niż od wielkości samych nakładów, a istotne znaczenie (chociaż nie tak duże, jak liczba pracowników) ma wielkość nakładów na jednego zatrudnionego.

Brytyjczycy zajęli się sprawnością działania uniwersytetów już w połowie lat 80. Zdawali się uznawać oparcie oceny jedynie na wskaźnikach ilościowych za podejście błędne (analizę cytowań odrzucano). Niepokój budziły zwłaszcza dwie sprawy. Po pierwsze, bezkrytyczne wykorzystywanie wskaźników do celów porównawczych, co mogłoby zniszczyć różnorodność jednostek badawczych, którą uznawano za jedną z cech żywotności systemu, uważając przy tym nawet za niemożliwe osądzenie, czy względnie znaczne odstępstwo danego wskaźnika od wartości przeciętnych jest pożądane czy niepożądane. Po drugie, obawiano się, że jakiekolwiek ilościowe wskaźniki doprowadzą do ujednolicenia i jednoczesnej utraty jakości badań. Wskazywano przy tym na iluzoryczność przekonania, że podobna ligowej tabela ratingowa gwarantuje publiczną przejrzystość finansowania nauki. Postanowiono więc oprzeć system oceny na pracy kilkudziesięciu paneli oceniających (w 1999 roku ocena odbyła się po raz piąty), na co początkowo wydano aż około 1 proc. budżetowych nakładów na naukę. Wnioski ogólne są zbieżne z amerykańskimi. Analiza statystyczna wyników pracy paneli wskazuje, że rating różnych dziedzin okazał się zależeć od odmiennych, nielicznych zwykle wskaźników ilościowych. Przyniosła również kilka przestróg. Po pierwsze, przekazane oceniającym prognozy ocen ratingowych oparte na wskaźnikach ilościowych powinny być opatrzone ostrzeżeniem, że w wielu przypadkach wskaźniki te mogą stanowić słabą wskazówkę do oceny badań, a oceniający powinni mieć świadomość, że ich ocena może nie być zgodna z tymi prognozami. Po drugie, niebezpieczeństwo ustalenia zbyt krótkiej listy ilościowych wskaźników oceny badań stanowi możliwość dostosowawczej zmiany zachowań badaczy, wpływającą niekorzystnie na jakość badań. A zatem, tworzenie, publikacja i korzystanie z takich wskaźników musi być przedsiębrane z ogromną ostrożnością. Za absolutne minimum w tym zakresie uznano traktowanie wskaźników ze sceptycyzmem. Ich odrzucenia nie brano jednak pod uwagę. (Nie narzucano z góry jakiegoś standardu jakości uznając, że biorący udział w tej ocenie pracownicy nauki sami wiedzą w tym przypadku, o co chodzi.) Po trzecie, uznano za absolutnie niezbędne zachowanie takiego stanu, by indywidualny badacz posiadał swobodę dążenia do osiągnięcia granic poznania w sposób, który on lub ona uważa za najbardziej odpowiedni.

MANIPULACJA DANYMI

W tym czasie, w jednej z prowincji niewielkiego kraju w Europie wykorzystano wskaźniki ISI do całościowej oceny trzech tamtejszych uniwersytetów. Warto poznać chociażby kilka wniosków, które to przyniosło w stosunku do około dziesięcioletniego okresu, którego dotyczyło. Oto one. Po pierwsze, zarówno w przypadku dotacji podstawowej, jak i środków zewnętrznych, większość pieniędzy zużywała niewielka liczba jednostek: 50 proc. środków rozdzielało między siebie odpowiednio 22 proc. i 8 proc. uczelnianych jednostek. Po drugie, w jednostkach wykazujących największe przyrosty środków zewnętrznych obserwowano znaczący spadek liczby prac notowanych w bazie SCI (tendencja okazała się być stała, niezależnie od przyjęcia założenia, że ukazanie się pracy należy wiązać z nakładami sprzed roku, 2 czy 3 lat). Po trzecie, pomimo wzrostu dostępnych na badania środków, nie uległa zmianie średnia produktywność pracowników naukowych. co więcej, nie wzrastał również wskaźnik wpływu publikacji (a wszystko to było trudno racjonalnie wytłumaczyć). Po czwarte, wzrósł natomiast średni wiek naukowców – w roku 1992 powyżej 50 lat miało 45 proc. z nich, wobec 33 proc. w roku 1984. Po piąte, w dziedzinie nauk przyrodniczych i medycznych, gdzie ilości środków zewnętrznych były względnie najwyższe, znacznie (o blisko 20 proc.) spadła liczba studentów opłacających czesne.

Rzeczywistym problemem wydaje się być jednak coś zupełnie innego. Kiedy ponad 10 lat temu dwaj autorzy ogłoszonego z wielkim hałasem komunikatu o doprowadzeniu do tzw. zimnej fuzji (zawierającego na każdej z 8 stron co najmniej jeden błąd) „mimowolnie zapomnieli” o nazwisku trzeciego „odkrywcy”, wydawało się to ewenementem. W jednym z ostatnich numerów „Nature” [vol. 407 (2000) nr 6800 s. 110] możemy przeczytać aż o dwu takich przypadkach naraz, które zdarzyły się w tym czasopiśmie w roku 2000. Kilka tygodni wcześniej „Science” [vol. 288 (2000) nr 5474 s. 2106-7] opisało wyniki blisko trzyletniego śledztwa w sprawie 347 prac uznanego niemieckiego hematologa, podejrzanego o manipulowanie danymi (uznano, że dotyczyło to blisko 100 z nich i 3 związanych z nimi habilitacji). Aktualnie prowadzone jest wstępne rozeznanie w sprawie 245 prac kierownika jednostki, w której hematolog pracował. Wycofanie takiej „produkcji” z obiegu jest praktycznie niemożliwe. Widać to wyraźnie na przykładzie podobnych dochodzeń amerykańskich z początku lat 80. (związanych również z układem krwionośnym), gdy spośród 55 zbadanych prac podejrzanego autora jakość 40 uznano za „wątpliwą lub gorszą”, a 8 za bez wątpienia sfałszowane. W następnym dziesięcioleciu cytowano je ponad trzystukrotnie (i nadal są cytowane), a cytujący w większości (w ponad 80 proc.) uznawali je za „dobre” lub „bardzo pomysłowe” bądź wykorzystywali do poparcia własnych wywodów. Wyniki tych prac odrzuciło jedynie ok. 8 proc. cytujących, a tylko ok. 5 proc. podjęło temat fałszerstwa. Będzie to zatem nadal rzutować znacząco na stan i jakość badań w danej dziedzinie, czego nigdy nie odda żaden wskaźnik.

Dr Władysław Kraus, chemik, zajmuje się biotechnologią, były pracownik akademicki.
nckraus@cyf-kr.edu.pl

Komentarze