Die ungeheure Chimära … Vorn ein Löw und hinten ein Drach und Geiß in der Mitte
Homer, Ilias, 6. Gesang[1]
Die Woche vom 13. bis 17. Februar 2023 ist die «Love Data Week», eine internationale Aktionswoche, während derer über Forschungsdaten und den Umgang mit ihnen nachgedacht und diskutiert wird. Wir nehmen das zum Anlass, einen Blick auf Forschungsdaten in einem Wissenschaftsgebiet zu werfen, in dessen hergebrachtem Selbstverständnis Daten meist keine Rolle spielten – nämlich in den Geistes- und Kulturwissenschaften. Denn selbst dort sind Forschungsdaten häufiger anzutreffen, als man meinen könnte. Abschliessend schauen wir uns an, wie Forschende auch in diesem Bereich das institutionelle Forschungsdatenrepositorium der Universität Bern, BORIS Portal, nutzen können, um ihre Daten durch eine qualitativ hochwertige Publikation angemessen zur Geltung zu bringen.
Forschungsdaten in den Geisteswissenschaften
Dass Daten zu den Voraussetzungen der digitalen Geisteswissenschaften (Digital Humanities) gehören, erschliesst sich schon von ihrem Begriff her: Wenn die Digital Humanities «die Summe aller Versuche, die Informationstechniken auf den Gegenstandsbereich der Geisteswissenschaften anzuwenden» sind,[2] dann sind Daten, die das Fundament der Informationstechniken bilden, per definitionem im Spiel.
Demgegenüber meinten vor Kurzem noch viele vorwiegend nicht-digital arbeitende Geisteswissenschaftler*innen, in ihren Fachbereichen gebe es keine Daten. Der Einwand lag nah, es handle sich um einen aus den Naturwissenschaften übernommenen, aber nicht sinnvoll anwendbaren Begriff. Jedoch bricht sich mehr und mehr die Erkenntnis Bahn, dass es auch in den Geisteswissenschaften Daten gibt, ja dass die dortige Datenlandschaft bemerkenswert vielfältig und heterogen ist:
Das Chimärenhafte bleibt diesem Begriff [Forschungsdaten] … verhaftet, nicht länger als Trugbild, dafür als vielgestaltiges Mischwesen erscheinen die unterschiedlichen Praktiken und Perspektiven zu Forschungsdaten in den Geisteswissenschaften.[3]
Auch Forschende, die nicht im engeren Sinne in den Digital Humanities arbeiten, produzieren natürlich Daten. Dabei ist mit «Daten» nicht wie oft in der Umgangssprache Zahlenmaterial gemeint, sondern Information in digitaler Form, gespeichert als computerlesbare Folge von 1 und 0. Wikipedia definiert das so:
Digital data, in information theory and information systems, is information represented as a string of discrete symbols … such as letters or digits.[4]
Auch dieser Text ist für Computer lediglich eine Folge von 1 und 0. Mit einem Werkzeug wie RapidTables kann man sich z.B. obiges Wikipedia-Zitat als Bitstream, also als Folge von 1 und 0 darstellen lassen (hier kodiert nach ASCII/UTF-8):
Bibliographien, Scans oder Fotografien von Quellenmaterial, Interviewaufnahmen oder -transkriptionen, Tabellen – sobald all das als Datei auf dem Computer vorliegt, hat es in technischer Hinsicht die Form digitaler Daten. So sind Forschungsdaten in den Geisteswissenschaften laut Thomas Stäcker «nichts anderes als Quellen und Literatur oder auch Materialsammlungen, aber nicht als solche, sondern übersetzt in eine maschinenlesbare Form.»[5]
Diese Übersetzung, so Stäcker, bestehe in einer Modellierung – das heisst: einer Formung, Aufbereitung von (unter Umständen analogen) Rohdaten gemäss einer wissenschaftlichen Fragestellung und der mit ihr verknüpften Methode. Was das konkret bedeutet, lässt sich am besten an einem Beispiel erläutern. Schauen wir uns einen Datensatz auf BORIS Portal, dem Forschungsdatenrepositorium der Universität Bern an:
Öffnet man eine der Dateien mit dem Forschungsdatensatz (der hier, neben dem gebräuchlichen Excel-Format xlsx, auch in dem offenen und für die Langzeitverfügbarkeit besser geeigneten Format txt hochgeladen wurde), findet man, dass in Archivalien und Sekundärliteratur vorgefundene Informationen – analoge Rohdaten – in Tabellenform modelliert wurden, um einem personengeschichtlichen bzw. auf eine bestimmte Berufsgruppe, nämlich die Falkner am französischen Königshof der Frühen Neuzeit, bezogenen Forschungsinteresse zu genügen.
Eine Modellierung dieser Daten unter kultur- oder mentalitätsgeschichtlichem Interesse hätte möglicherweise anders ausgesehen und eine stärker narrative Form angenommen (obwohl natürlich auch tabellarisch modellierte Daten solche Perspektiven informieren können).
Übrigens sind derartige Tabellen – und mit ihnen das von Fragestellungen geleiteten Modellieren von Rohdaten – keineswegs eine Neuheit in den Geisteswissenschaften; vor und parallel zu dem Aufkommen von rein digitalen Modellierungen gab und gibt es dergleichen in gedruckter Form, wie die Tabelle im Anhang dieser Dissertation von 2016 (ab S. 383) aus der Geschichtswissenschaft belegt.
Forschungsdaten publizieren
An diesem Beispiel wird deutlich, dass Forschungsdaten kein beliebiges Beiwerk des wissenschaftlichen Forschungsprozesses sind, sondern zu seinen Kernprodukten und zugleich (nimmt man die Perspektive der Nutzung und Nachnutzung ein) zu seinen wichtigsten Grundlagen gehören. Daher ist die Publikation von Forschungsdaten, sofern unter rechtlichen und ethischen Gesichtspunkten möglich, nicht nur von Forschungsförderern wie dem Schweizer Nationalfonds SNF oder der Europäischen Union gefordert, sondern auch unter wissenschaftlichem Aspekt sinnvoll.
Bei der Publikation von Forschungsdaten spielen, wie bei derjenigen von Artikeln und Büchern, Qualitätsstandards eine wichtige Rolle. Dazu gehören insbesondere die FAIR-Daten-Prinzipien. Einer der zentralen Gedanken dahinter: Daten sollen möglichst umfangreich mit beschreibenden Informationen versehen sein, sowohl strukturiert für die maschinelle Verarbeitung (Metadaten) als auch für Menschen verständlich mit Blick auf Kontext und Weiterverwendung (Dokumentation). Beides ist insbesondere dann wichtig, wenn es sich um Daten handelt, die aus rechtlichen oder ethischen Erwägungen heraus nicht oder nicht offen geteilt werden können (Beispiel: kurze Fallstudie zu Optionen des Teilens vertraulicher Daten mit Zugriffsbeschränkung).
Es gilt also, Forschungsdaten als Forschungsprodukte zur Geltung zu bringen und zugleich Vorgaben und Anforderungen zu erfüllen. Dabei helfen Forschenden Beratungsangebote und Infrastrukturen, wie wir beim Open-Science-Team der UB Bern sie anbieten. Für die Publikation von Forschungsdaten sind das die Dienstleistungen rund um BORIS Portal, das institutionelle Forschungsdatenrepositorium der Universität Bern. Daher nun noch am konkreten Beispiel ein kurzer Blick darauf, was BORIS Portal zu einer hochwertigen Datenpublikation beiträgt – und worauf Forschende achten sollten, wenn sie dieses (oder ein anderes) Forschungsdatenrepositorium nutzen.
- Die Angabe einer Kontaktperson zum Datensatz ist wichtig für Fragen zum Datensatz seitens anderer, an einer Nachnutzung interessierter Forschender. Unsere Empfehlung für BORIS Portal ist, eine Person mit langfristiger Anstellung an der Universität Bern als Kontakt anzugeben, die Fragen an die Urheber*innen weiterleiten kann. Sonst können Anfragen rasch ins Leere laufen, wenn die Urheber*innen die Universität wechseln.
- BORIS Portal erzeugt automatisch eine DOI (Digital Object Identifier) für jeden Datensatz. DOIs sind Links, die ihre Gültigkeit nicht verlieren, und gewährleisten dauerhafte Auffindbarkeit und Zitierbarkeit von Datensätzen.
- BORIS Portal ist nicht nur ein Forschungsdatenrepositorium, sondern auch ein Forschungsinformationssystem, in das Projektinformationen eingegeben werden können. Diese können mit den Forschungsprodukten (Forschungsdaten, Publikationen) verknüpft werden, um so ein annähernd vollständiges Bild von Forschung (Projekten, Daten, Publikationen, beteiligten Personen und Institutionen) entstehen zu lassen.
- Forschende sollten darauf achten, ihre Daten mit einer möglichst offenen Lizenz zu versehen, um einer Nachnutzung möglichst wenige Beschränkungen entgegenzustellen und insbesondere das sogenannte «license stacking» (Kombination inkompatibler Lizenzen bei Zusammenführung von Datensätzen) zu vermeiden. Wenn Daten z.B. aus rechtlichen Gründen nicht offen geteilt werden können, besteht die Möglichkeit, sie auf Anfrage zu teilen; die Nachnutzung kann in diesem Fall durch einen Datennachnutzungsvertrag geregelt werden, so dass eine Lizenzierung nicht erforderlich bzw. nicht möglich ist.
- Maschinenlesbare, standardisierte Metadaten können Forschende automatisch erzeugen, indem sie die Eingabemaske von BORIS Portal ausfüllen. Zudem sollten sie aber auch Zusatzinformationen in einer sogenannten Readme-Datei hinzufügen, die ausführlichere Angaben zum Kontext und zur Erzeugungsweise der Daten enthält – eine gute Praxis, um die Verständlichkeit und Nachnutzbarkeit der Daten zu gewährleisten. Weitere Informationen und eine Vorlage für Readme-Dateien gibt es hier.
Lang mag der Weg vom Kampf mit der Chimäre Forschungsdaten zur Publikation eines Forschungsdatensatzes sein. Mit den richtigen Werkzeugen und Wegleitungen ist er aber schnell zurückgelegt. Haben Sie Fragen zum Forschungsdatenmanagement oder zur Nutzung von BORIS Portal? Dann kontaktieren Sie uns unter openscience@unibe.ch!
Beitragsbild: “The Chimera of Arezzo – DSC 0284 ep” by Eric.Parker is licensed under CC BY-NC 2.0.
[1] Homer: Ilias / Odyssee. Übers. v. Johann Heinrich Voß, München 1976, S. 102f. Online: http://www.zeno.org/nid/20005096693, Stand: 14.02.2023.
[2] Thaller, Manfred: Digital Humanities als Wissenschaft, in: Jannidis, Fotis; Kohle, Hubertus; Rehbein, Malte (Hg.): Digital Humanities, Stuttgart 2017, S. 13. Online: <https://doi.org/10.1007/978-3-476-05446-3_2>, Stand: 10.02.2023.
[3] Cremer, Fabian; Klaffki, Lisa; Steyer, Timo: Der Chimäre auf der Spur: Forschungsdaten in den Geisteswissenschaften, in: o-bib. Das offene Bibliotheksjournal / Herausgeber VDB 5 (2), 13.07.2018, S. 142–162. Online: <https://doi.org/10.5282/o-bib/2018H2S142-162>. Die Anwendung der Chimärenmetapher auf Forschungsdaten wird dort auf den Blogbeitrag von Thomas Stäcker (siehe Anm. 5) zurückgeführt.
[4] Digital data, in: Wikipedia, 12.01.2023. Online: <https://en.wikipedia.org/w/index.php?title=Digital_data&oldid=1133163235>, Stand: 10.02.2023.
[5] Stäcker, Thomas: Noch einmal: Was sind geisteswissenschaftliche Forschungsdaten? | DHd-Blog, DHdBlog, 06.12.2015, <https://dhd-blog.org/?p=5995>, Stand: 26.08.2022.