alkamid bio photo

alkamid

Living in the Cambridge bubble

Github

Uwolnić dane

W zeszłym tygodniu przyszli na wydział ludzie z Research Data Management, żeby nam powiedzieć co mamy robić z danymi. Wielka Brytania jest jednym z pionierów otwierania nauki na świat — już od kilku lat wiele publikowanych w UK artykułów musi być ogólnodostępna, a teraz doszło do tego udostępnianie “danych koniecznych do odtworzenia wyników zawartych w artykule”.

Dlaczego mam udostępniać dane?

Pierwszy i najważniejszy argument (według rad naukowych) jest taki: twoja praca naukowa jest opłacana z publicznych pieniędzy, więc jej wyniki to dobro publiczne, które dla każdego obywatela powinno być dostępne. Nawet jeśli zainteresowanych jest mało, to nie można im dostępu odmówić.

Po drugie, dane mają to do siebie, że się starzeją i giną w odmętach czasu. Pamiętasz tego doktoranta, który sześć lat temu badał materiał, którego teraz ty chcesz użyć? Przy dobrej pamięci zbiorowej w grupie może uda ci się odnaleźć jego dane w wewnętrznym repozytorium. Przy dobrej organizacji i pamięci rzeczonego doktoranta, może odpowie ci on na maila, załączając interesujące cię pliki. Ale życie to nie bajka: dane giną, jeśli nie są poukładane; ludzie zmieniają profesje i nie zawracają sobie głowy dawnymi wykresami, i tak dalej. A w ogóle to zazwyczaj potrzebujesz danych z innych grup, a nie ze swojej, co jeszcze bardziej komplikuje sprawę. No więc temu mają otwarte dane zapobiec, bo mają być dołączane do każdego artykułu.

Po trzecie w końcu, załączanie surowych danych do artykułu zwiększa wiarygodność autora przez zmniejszenie możliwości krętactw. Oczywiście, zawsze można załączyć spreparowane wyniki, ale łatwiej je sprawdzić mając do czynienia z cyframi i z obrobionymi wykresami, a nie tylko z tymi drugimi.

A kto mi każe? I co konkretnie mi każe?

W UK odpowiednią radą naukową dla większości fizyków jest EPSRC (Engineering and Physical Sciences Research Council). Duże granty pochodzą z tejże rady, która to rozporządza rządowymi pieniędzmi na badania w naukach ścisłych. Ja sam jestem przez nich częściowo sponsorowany — opłacają mi czesne. Sponsorów badań w Wielkiej Brytanii jest sporo, m.in. ESRC (ekonomia), BBSRC (biologia), NERC (środowisko), Wellcome Trust (medycyna). Każdy z nich ma własne wytyczne co do statusu publikowanych danych. Niektóre rady (np. BBSRC) wprowadziły już sankcje za nieupublicznianie, inne (np. ESRC) wymagają deponowania danych w konkretnych repozytoriach, itd. EPSRC (ta nasza) ma podobno najbardziej surową politykę: wszystkie artykuły opublikowane po 1/05/2015 muszą zawierać odnośnik do użytych danych. Rada będzie przeprowadzać losowe kontrole i straszy ograniczeniem finansowania instytucji, które się nie dostosują. Dane muszą być dostępne przez 10 lat od ostatniego dostępu, więc ich wygaśnięcie będzie się dynamicznie przesuwać za każdym razem, gdy ktoś zapragnie z nich skorzystać. Wytycznych co do tego gdzie dane mają być przechowywane nie ma, co z jednej strony pozwala nam na elastyczność, a z drugiej niesie przekaz “martwcie się sami”. Nie trzeba publikować wszystkich danych: wyjątkami są dane wrażliwe, własność intelektualna i zbiory zbyt duże, żeby dało się je tanio umieścić na serwerze.

Problemy

Lokalne rozwiązywanie globalnych problemów ma zazwyczaj podobne słabe punkty. Na przykład: co zrobić, jeśli artykuł piszemy wraz z grupą w Polsce, gdzie kultury open science jeszcze nie ma i może ona zostać niezrozumiana? Teoretycznie każdy artykuł, w który pieniądze z EPSRC miały wkład, nieważne jak mały, musi zawierać odnośnik do danych. Rada dołożyła nam więc trochę misjonarskiej pracy, bo musimy wytłumaczyć naszym współpracownikom, dlaczego tak trzeba.

Po drugie, co z naprawdę dużymi danymi? Wyniki mojego zespołu są malutkie, z całej działalności przez ostatnie 15 lat mamy może kilka gigabajtów, więc sobie poradzimy. Są jednak dziedziny takie jak astronomia czy fizyka cząstek, gdzie zbiera się kilka gigabajtów co sekundę. Z drugiej strony to chyba oni (fizycy cząstek) rozpoczęli modę na wolne dane, więc chyba sobie jakoś z tym radzą.

Kolejne wyzwanie to odpowiedzialne dzielenie się danymi. Opublikować surowe wyniki jest łatwo, ale czy to naprawdę służy dobru wspólnemu? Jeśli opublikuję po prostu kolumny liczb, to jedynie osoby znające moją tematykę będą mogły zrobić z nich użytek, a i to nie zawsze. Ani trochę nie przysłużę się osławionemu obywatelowi-naukowcowi (citizen scientist), dla którego podobno wprowadzamy takie zasady, a który nie będzie wiedział jak te dane obrobić. Za publikacją muszą po pierwsze iść metadane (dane opisujące dane), a po drugie skrypty lub procedury służące do uzyskania końcowych rezultatów. Tego niestety rada naukowa jeszcze nie wymaga, a co nie jest wymagane z pewnością będzie ignorowane.

Wsparcie

Jak już wspomniałem, rada wymaga, a uniwersytety mają się martwić rozwiązaniami technicznymi. Nasz na razie oferuje 1GB przechowywania zgodnego z zasadami EPSRC za jednorazową opłatę £4 — cena niewygórowana. Obsługa systemu też wygląda na prostą. Do tego mamy grupę ludzi zajmujących się udostępnianiem danych, do których podobno zawsze możemy się zwrócić. Rozmawiają oni z przedstawicielami rad naukowych i prawnikami, żeby rozwiać nasze wątpliwości. Wprowadzają nowinki takie jak ORCiD1 (uniwersalny identyfikator naukowca), rozwijają narzędzia do zarządzania danymi2, organizują dla nas szkolenia3. Spisują się na piątkę, naprawdę.

Dobry kierunek

Jestem wielkim zwolennikiem otwartości w nauce, więc cieszę się, że UK jest w tym temacie światowym pionierem. Starsi naukowcy mają czasem strach w oczach i pewnie myślą, że dotychczasowy porządek się wali. Ale przecież oni i tak zlecą publikację danych nam, młodszym. Mogą co najwyżej być podejrzliwi, że przebiegli Chińczycy przejmą ich sekretne, wypracowane przez lata metody, nie dając nic w zamian. Ale przecież dadzą w zamian dużo: kolejny naukowy krok naprzód, oparty na naszych badaniach. O cóż więcej możemy prosić?

  1. http://www.research-information.admin.cam.ac.uk/more-resources/orcid

  2. http://www.data.cam.ac.uk/events/opus-keep-track-your-research-data

  3. http://www.data.cam.ac.uk/events