Aktualności
Badania
22 Listopada
Źródło: www.aspw.pl
Opublikowano: 2021-11-22

Powstało Archiwum Społeczne Polskiego Webu

Ponad 100 tys. skategoryzowanych adresów URL i 4 mln identyfikatorów tweetów można wykorzystać bezpłatnie do celów badawczych dzięki działaniom Archiwum Społecznego Polskiego Webu. To pierwsza inicjatywa tego typu w Polsce.

Archiwum Społeczne Polskiego Webu to oddolny projekt, który ma na celu tworzenie zbioru wspierającego badania z wykorzystaniem historycznych zasobów webowych. Od listopada 2020 roku archiwum indeksuje strony internetowe linkowane we wpisach polskich użytkowników Twittera i udostępnia informacje na temat ich obecności w archiwach Webu. W ten sposób dokumentowane są m.in. bieżące wydarzenia w polityce krajowej, kryzys migracyjny, pandemia koronawirusa. Zbiory dostępne są na wolnej licencji Open Data Commons Attribution License (ODC-By) i mogą być z powodzeniem wykorzystane jako otwarte dane badawcze.

Dzięki dotychczasowym działaniom ASPW zgromadzono już ponad 100 tys. skatalogowanych adresów URL wyodrębnionych z ponad 4 mln tweetów. Dane te można wykorzystać w badaniach Webu, na przykład stabilności zasobów polskiej domeny (problem link rot), ale też do badań społecznych czy językowych, w których zasoby internetowe są źródłami podlegającymi analizie.

Jak zapewnia programista Marcin Wilkowski z Centrum Kompetencji Cyfrowych Uniwersytetu Warszawskiego, pomysłodawca przedsięwzięcia, ASPW respektuje przepisy prawa autorskiego i regulamin platformy Twitter, dlatego nie gromadzi i nie udostępnia treści indeksowanych stron. Udostępniane są jedynie metadane stron i identyfikatory tweetów. Identyfikatory te można wykorzystać do pobrania treści tweetów dzięki narzędziom takim jak hydrator (https://github.com/DocNow/hydrator). Równocześnie archiwa Webu (takie jak Internet Archive) pozwalają w łatwy sposób i także maszynowo wyszukiwać kopie archiwalne stron WWW po ich adresach URL. ASPW ułatwia więc badania z wykorzystaniem zasobów webowych, proponując otwartą alternatywę dla komercyjnych systemów indeksujących strony WWW i media społecznościowe.

Zależy mi na tym, żeby ułatwić inicjowanie badań z wykorzystaniem zasobów WWW. Pierwszym problemem, na jaki natrafia osoba chcąca przygotować analizy internetowe, jest dostępność danych historycznych. ASPW publikuje je za darmo i na wolnej licencji. Ponieważ gromadzone adresy stron pochodzą z korpusu twitterowego, możemy oczekiwać, że lepiej reprezentują najważniejsze społecznie zasoby polskiego Webu niż adresy gromadzone losowo. Wykorzystanie mediów społecznościowych w budowie zasobu archiwalnego to zresztą podejście od kilku lat mocno obecne w literaturze naukowej dotyczącej archiwistyki Webu – zauważa Marcin Wilkowski, założyciel ASPW.

Inspiracją dla powstania archiwum były projekty takie jak Common Crawl (https://commoncrawl.org/) czy HTTP Archive (https://httparchive.org/), budujące otwarty globalny indeks WWW, oraz projekt Documenting the Now (https://www.docnow.io/), którego celem jest upowszechnianie narzędzi i metod archiwizowania i badania historycznego Webu. W planach rozwoju ASPW jest udostępnianie zbiorów danych publikowanych w mediach społecznościowych przez oficjalne konta instytucji państwowych oraz testowy projekt indeksowania i archiwizacji linków z przypisów publikacji naukowych z polskich czasopism open access. Gromadzone będą także sumy kontrolne wyliczane z kodu źródłowego indeksowanych stron WWW, aby można było wychwytywać tzw. content drift, czyli zmiany w treściach dostępnych pod tym samym adresem URL.

Zasoby WWW są regularnie archiwizowane w ramach programów prowadzonych przez dziesiątki bibliotek, archiwów i instytucji pozarządowych na całym świecie. W październiku tego roku minęło 25 lat od pierwszych archiwizacji Webu, podjętych przez amerykańską fundację Internet Archive. W Polsce nie istnieją żadne programy tego typu.

Marcin Wilkowski jest programistą, pracującym w Centrum Kompetencji Cyfrowych UW i doktorantem Instytutu Badań Literackich PAN, zajmującym się metodami badań historycznych polskiego Webu lat dziewięćdziesiątych. W CKC UW rozwija pracownię archiwistyki webowej (https://ckc.uw.edu.pl/webarch/).

Projekt ASPW można wspierać na Patronite (https://patronite.pl/aspw). Bieżące informacje o działaniach archiwum udostępniane są na Twitterze (https://twitter.com/ArchiwumWWW).

MK

 

Dyskusja (0 komentarzy)