Potenziale des Forschungsdatenmanagements

Der Zug mit der Aufschrift «Forschungsdatenmanagement» und «open research data» hat Fahrt aufgenommen und fährt nun mit ziemlicher Geschwindigkeit durch die Wissenschafts-Landschaft. In der Schweiz kam das Thema «open research data» spätestens 2017 auf die Tagesordnung, als der Schweizerische Nationalfonds (SNF) die Bedingung aufstellte, dass Forschende mit Projektgesuchen einen Datenmanagementplan (DMP) einreichen müssen und Daten, die ihren Publikationen zugrunde liegen, teilen müssen, wenn es keine entgegenstehenden ethischen, rechtlichen, vertraglichen oder ähnlichen Gründe gibt. Forschungsdaten zu teilen, wird damit implizit als Normalfall gesetzt, Gegenteiliges bedarf als Ausnahme der Begründung. Um im Bild zu bleiben: Einfach nicht auf den Zug aufzuspringen und nicht mitzufahren, ist für immer weniger Forschende eine Option.

Auch wenn ein gewisser Unwille angesichts dieser neuen Vorgaben, der unter Forschenden anfangs zu bemerken war, sich weitgehend gelegt hat, zeigt doch die Erfahrung aus unserer Beratungspraxis an der Universität Bern, dass immer noch viele Fragen offen sind. Müssen wirklich alle Forschungsdaten geteilt werden? Sind Datenmanagementpläne nicht nur eine Ausweitung des ohnedies schon überbordenden Projektpapierkriegs? Und hält die umständliche Verwaltung von Forschungsdaten die Forschenden nicht von ihrer eigentlichen Arbeit – dem Forschen – ab?

Grund genug also, einen Schritt Abstand zu nehmen und sich noch einmal den Sinn und die Potenziale des Forschungsdatenmanagements und der Forderung nach offenen Forschungsdaten vor Augen zu führen.

Kontext: Open Science und offene Daten

Es geht in der Diskussion keineswegs nur um die Vorgaben von Forschungsförderern. Sicher: Diese gehören nicht nur in der Schweiz zu den wichtigsten Treibern der Forderungen nach offenen Forschungsdaten – auch die Forschungsförderer anderswo machen mit Ihren Vorgaben zu Forschungsdaten ernst. Unter Horizon Europe, dem neuen Förderrahmenprogramm der EU, ist Open Science der modus operandi, und die Erwartung, dass Forschende ihre Daten teilen (soweit rechtlich zulässig und ethisch vertretbar), wird unmissverständlich formuliert. Kürzlich zogen auch die US-amerikanischen National Institutes of Health (NIH) nach – ab 2023 stellen sie an Fördergeldempfänger ganz ähnliche Anforderungen wie SNF und EU bezüglich Datenmanagementplänen und des Offenlegens von Forschungsdaten.

All das sollte aber nicht darüber hinwegtäuschen, dass es bei Open Science – ein Oberbegriff zu Open-Access-Publizieren, open research data, open source und Bewegungen verwandter Stossrichtung – eigentlich um die wissenschaftliche Arbeit selbst, genauer: um gute Praktiken des Forschens geht. So ist im Open Science Training Handbook zu lesen:

Open Science is about increased rigour, accountability, and reproducibility for research.[1]

Genauigkeit, Transparenz und Nachvollziehbarkeit sind der Wissenschaft als solcher aber nicht fremd – im Gegenteil, sie gehören zum Kern von Wissenschaftlichkeit. In diesem Sinne fragte der Veterinärmediziner Mick Watson von der Universität Edinburgh in einem Meinungsartikel in der Zeitschrift Genome Biology von 2015:[2]

Open science describes the practice of carrying out scientific research in a completely transparent manner, and making the results of that research available to everyone. Isn’t that just ‘science’?

Der Ruf nach offenen Forschungsdaten steht für Watson im Zentrum dieser Überlegung. Denn Forschungsdaten könnten der Wissenschaft neue Türen aufstossen und ihren Wert noch behalten, wenn einzelne Publikationen schon überholt sind:

We should consider the data to be the main publication, and the paper a secondary, less important part; the data will outlive the paper, as others re-analyse within the context of new scientific discoveries. Imagine if the human genome project had only released the ‘interesting parts’ of the genome?

Daten als Forschungsprodukte

Daten als ein Forschungs-Produkt eigenen Wertes, nicht nur Anhang einer Publikation, sondern Rohmaterial und Basis neuer Erkenntnisse – das gilt längst nicht nur für Natur- und Lebenswissenschaften. Viele Geisteswissenschaftler*innen wissen den Wert solider Editionen von Quellen – einer Spielart von Forschungsdaten – zu schätzen, mögen sie nun in analoger oder in digitaler Form daherkommen. Ein Beispiel aus den digitalen Geisteswissenschaften bzw. Digital Humanities zur Illustration:

Es handelt sich hierbei um einen Forschungsdatensatz aus der Romanistik, eine Sammlung von französischen Romanen, die in TEI-XML annotiert und für die computergestützte Analyse aufbereitet wurden, gemeinfrei abgelegt auf dem Repositorium Zenodo.[3]

Schon auf den ersten Blick sieht man, dass es sich um einen umfangreichen, strukturierten Datensatz handelt, der aufwendig aufbereitet und dokumentiert wurde:

Dieser Datensatz ist nicht das Ergebnis einer einmaligen Bemühung, sondern wurde über einen längeren Zeitraum hinweg immer wieder korrigiert, aktualisiert und erweitert, wie man am Vorhandensein verschiedener Versionen erkennen kann:

Die «Release notes» in der Readme-Datei geben Auskunft über die Unterschiede zwischen den Versionen.

Datensätze sind vielfach essentiell dafür, Forschungsergebnisse, die in Publikationen präsentiert werden, nachzuvollziehen und die Transparenz wissenschaftlicher Methoden und Ergebnisse zu gewährleisten. Sie können aber auch noch mehr sein – nämlich Forschungsprodukte eigenen Gewichts, deren Potenzial über das blosse Belegen hinausgeht, indem sie Pfade für viele weitere Forschungsarbeiten öffnen.

Vom Nutzen des Forschungsdaten-Managements: ein Fallbeispiel

Es ist klar, dass solche Ergebnisse Forschenden nicht wie reifes Obst in den Schoss fallen. Der Blick auf Strukturierung und Dokumentation, auf Auszeichnung mit Metadaten und die Versionsverwaltung des Datensatzes macht deutlich, dass es das Forschungsdatenmanagement ist, das den Weg dorthin ebnet. Dieses ist jedoch nicht nur eine Vorstufe zum öffentlichen Teilen von Daten; gerade in komplexen Forschungsprojekten ist es ein essentieller Teil der Forschungsarbeit selbst, weil es dabei hilft, potentielle Schwierigkeiten und Fallstricke zu identifizieren und Lösungen zu finden. Ein fiktives, aber keineswegs unrealistisches Fallbeispiel soll das verdeutlichen.

Eine internationale Forschungsgruppe untersucht die Arbeitsbedingungen und -abläufe in asiatischen Textilfabriken. Die Gruppe forscht vor Ort und interviewt Angestellte und Vorgesetzte verschiedener Betriebe. Im Projekt arbeiten nicht nur Universitätsangestellte, sondern auch Hilfskräfte, die ihren privaten Laptop mit ins Feld nehmen. Unterwegs haben sie nur selten Zugang zu einer gesicherten Internetverbindung. Sie rechnen aufgrund früherer Forschungsaufenthalte damit, dass bei der Ausreise aus bestimmten Ländern die Inhalte ihrer Computer bei der Sicherheitskontrolle geprüft oder gelöscht werden. Nach dem Aufenthalt im Feld tauschen sie innerhalb der internationalen Forschungsgruppe ihre Daten aus.[4]

Dieses Fallbeispiel wartet mit einer Reihe von Herausforderungen für das Datenmanagement auf. Die Forschenden im Beispiel arbeiten mit Personendaten, die höchste Sorgfalts- und Sicherheitsstandards verlangen; sie einzuhalten, wird durch die gesellschaftlichen bzw. politischen Rahmenbedingungen (Einschränkung der Wissenschaftsfreiheit durch Behörden) und durch die technischen Gegebenheiten (mangelhafte IT-Sicherheit) erschwert.

Das Potenzial des Forschungsdatenmanagements besteht hier darin, neuralgische Punkte im Vorhinein zu erkennen und zu adressieren, wozu während der Forschungsarbeit meistens wenig Zeit ist. Es ist wahrscheinlich, dass nicht alle Risiken beim Bearbeiten von Personendaten abgewendet werden können; ein Nullrisiko gibt es nicht. Aber man sich so gut wie möglich vorbereiten, Probleme antizipieren und Lösungen finden. Im Beispiel zählen dazu

sich vor Projekt- bzw. spätestens vor der Datenerhebung durch IT- und Datenschutz-Spezialisten zu technischen Optionen und rechtlichen Verpflichtungen beraten zu lassen;
Massnahmen zur IT-Sicherheit zu ergreifen, wie etwa aktuelle System- und Sicherheitsupdates aufspielen, Rechner verschlüsseln, sichere Netzwerkspeicher und Internetverbindungen einrichten;
die Daten möglichst anonym, d.h. ohne Personenbezug und entlarvende Kontextinformationen zu erheben, und politisch möglicherweise brisante Aussagen vorsichtig zu formulieren;
die Daten regelmässig auf den sicheren Netzwerkspeicher zu überspielen und dazu z.B. grosse Städte mit sicheren Internetverbindungen aufzusuchen, sowie die Daten nach der Übertragung von dem eigenen Gerät zu löschen.

Fazit: drei Tipps für Forschende

Wo liegen nun also die Potenziale des Forschungsdatenmanagements und der Forderung nach offenen Forschungsdaten? Hier eine Zusammenfassung in Form von drei Tipps für Forschende:

1. Frühzeitig planen

Denken Sie vor dem Projektbeginn, möglichst schon bei der Ausarbeitung des Projektantrags über Ihr Datenmanagement nach und lassen Sie sich von Spezialisten in den Bereichen IT, Recht und Open Science beraten. Dies hilft, die Implikationen der Vorgaben von Forschungsförderern, aber allenfalls auch der relevanten Gesetze für Ihr Projekt zu verstehen und zu adressieren. Darüber hinaus können Sie so Ihre Projektarbeit und die Verwaltung Ihrer Daten besser auf die technischen Gegebenheiten abstimmen. Dies rechtzeitig vor dem Beginn des Projektes zu tun, ist ein wichtiger Beitrag zur Arbeitseffizienz und somit zum Projekterfolg.

2. Spielräume nutzen

In der Diskussion um offene Forschungsdaten geht es um Transparent und Nachnutzbarkeit von Daten, nicht um «gläserne Forschung». Nicht alle Daten müssen veröffentlicht werden. Forschungsförderer verlangen in der Regel nur die Öffnung von Daten, die Publikationen zugrunde liegen. Darüber hinaus kann ein ganz oder teilweise beschränkter Zugang zu Forschungsdaten ethisch und rechtlich geboten sein – der Schutz von Personen und ihren Daten hat Priorität vor der Forderung nach offenen Forschungsdaten. Ein Ziel des Forschungsdatenmanagements ist es gerade, ethische und rechtliche Aspekte zu identifizieren und bei der Erhebung und Verwaltung von Forschungsdaten zu berücksichtigen – auch und gerade, wenn Daten nicht öffentlich gemacht werden können.

3. Forschungsdatenmanagement als Chance begreifen

Sauber aufbereitete, gut dokumentierte und (wenn möglich) der Öffentlichkeit zur Verfügung gestellte Datensätze sind ein Aktivposten der Wissenschaft. Wie das Beispiel des French Novel Corpus oben gezeigt hat, können Forschungsdatensätze eigenständige Forschungsergebnisse sein, die nicht allein für Transparenz sorgen, sondern auch künftige Forschung möglich machen. Forschungsdatenmanagement leistet dazu einen entscheidenden Beitrag.

[1] https://open-science-training-handbook.gitbook.io/book/open-science-basics/open-concepts-and-principles (27.8.2021).

[2] Watson, M. When will ‘open science’ become simply ‘science’?. Genome Biol 16, 101 (2015). https://doi.org/10.1186/s13059-015-0669-2 (27.8.2021).

[3] www.doi.org/10.5281/zenodo.4662433

[4] Dieses Fallbeispiel ist Teil einer Reihe von Use Cases, die von den Forschungsdatensupport-Teams der Universitäten Basel und Bern gemeinsam entwickelt wurden und exemplarisch Probleme und Lösungen beim Verwalten sensibler Forschungsdaten aufzeigen, erreichbar abrufbar? Einsehbar? unter https://researchdata.unibas.ch/en/legal-issues/personal-rights/.

Image credit: Dllu, Line scan photo of Shinkansen N700A Series Set G13 in 2017, car 06. CC-BY-SA

Universitätsbibliothek Bern

Bern Open Science Blog