Zusammen mit vielen neuen Studierenden startete auch ChatGPT in sein erstes Semester an der Universität Bern und macht dabei schon viel von sich reden. Der Chatbot fällt durch seine Eloquenz und Geschwindigkeit auf, mit denen er Fragen beantwortet, Abstracts verfassen oder Vorträge vorbereiten hilft.
Doch wie ist seine Arbeitsweise hinsichtlich der guten wissenschaftlichen Praxis zu bewerten? Ganz salopp geantwortet: Er nimmt es leider nicht so genau. Was man einem Chatbot am Anfang seines Studiums noch nachsehen mag, führt schnell in eine Diskussion rund um die grossen Herausforderungen künstlicher Intelligenz und der wissenschaftlichen Integrität. Besonders die Fragestellungen in Bezug auf Autorschaft und Quellenbezug verdienen dabei eine etwas genauere Betrachtung.
Fehlende Autorschaft
Woher hat ChatGPT seine Informationen? Um die verwendeten Sprachmodelle zu trainieren wurden riesige Datenbanken mit Millionen von Quellen angelegt. Dabei muss davon ausgegangen werden, dass sich auch viel Material darunter befindet, das durch Urheberrechte und Lizenzvereinbarungen vor einer solchen Verwendung geschützt sein müsste. Es ist nicht davon auszugehen, dass die Autor*innen dieser Werke über die Verwendung ihres Materials als Trainingsdatensatz informiert wurden und ihre Zustimmung geben konnten. Entsprechend schwammig antwortet ChatGPT auf die Frage nach dem Urheberrecht, bricht gar den Antwortprozess vorzeitig ab:
Das Unternehmen OpenAI, wie auch sein Produkt ChatGPT, berufen sich auf die rechtmässig freie Verwendung von Quellen zu Forschungszwecken. Wer dies tut, muss sich kritischen Fragen zur eigenen wissenschaftlichen Praxis gefallen lassen. Denn es wird das Urheberrecht oder generell die Anerkennung der Autorschaft nicht nur beim Input, sondern auch beim vom Chatbot gelieferten Output verletzt. Die Antworten von ChatGPT enthalten grundsätzlich keine Quellenangaben und brechen damit mit dem Ethos des wissenschaftlichen Arbeitens: Wenn die Idee nicht von dir stammt, musst du die Quelle mit einem Zitat kenntlich machen und so der Urheberschaft die Anerkennung ihrer Leistung zugestehen. Alles andere wird in den meisten Fällen als Plagiat angesehen und in akademischen sowie gesellschaftlichen Kreisen hart bestraft. Die fehlenden Quellenangaben entziehen der wahren Autorschaft nicht nur die Anerkennung, sondern verhindern es grösstenteils, die ausgegeben Resultate einzuordnen, zu verifizieren oder im wissenschaftlichen Kontext wiederverwenden zu können. Dabei stellt sich auch die Frage, ob ChatGPT seinerseits die Autorschaft anerkannt werden muss. Auch das gestaltet sich als schwierig, denn der Chatbot kann weder Verantwortung für seine Werke übernehmen, noch lassen sie sich aufgrund fehlender Quellen zuverlässig reproduzieren und dem Diskurs nachhaltig zur Verfügung stellen. Erste Richtlinien von wissenschaftlichen Verlagen zum Umgang mit Texten von Chatbots entstehen dieser Tage, so zum Beispiel von der Cambridge University Press.
Keine Quellenangaben
Es ist bei Texten, die von ChatGPT generiert werden, nicht nur unklar von wem die verwendeten Quellen stammen, sondern ob sie überhaupt existieren. Bittet man zum Beispiel ChatGPT um Hilfe bei der Recherchearbeit zu einem Thema wie den «Nibelungen», wird wie folgt geantwortet:
Die Resultate sind interessant: Alle Autoren sind Germanisten und haben zum Thema Nibelungen publiziert. Begleitet sind die Vorschläge gar mit einer Kürzestzusammenfassung. Doch nur zwei der fünf Vorschläge existieren so als Publikation und sind im Bibliothekskatalog auffindbar. Die anderen sind ein wilder Mix aus dem Gesamtwerk der entsprechenden Wissenschafter: Schlagwörter aus Titeln werden neu zusammengestellt oder der Rezensent wird zum Urheber der Publikation ernannt, kurz: Quellen, die es so gar nicht gibt. An diesem Beispiel erhält man einige Hinweise zur Arbeitsweise der ChatGPT zugrundeliegenden Software und deren Grenzen.
Eine Frage, verschiedene Antworten
Es kann gut sein, dass dieselbe Anfrage schon in wenigen Stunden oder Tagen ganz neue Ergebnisse liefern wird. Nachvollziehen lassen sich diese nur sehr begrenzt. Auch wenn die ChatGPT zugrunde liegende Software öffentlich einsehbar wäre, ist es nicht Sinn der Arbeitsweise dieser Algorithmen, komplett nachvollziehbar zu sein. Sie entwickeln eigene Modelle und Strategien zur Generierung von neuem Material, denn nur so lernen sie schnell und eigenständig. Dazu zerstückeln sie z. B. die vorgefundenen Quellen und arrangieren sie neu, wie am Beispiel der Nibelungen-Publikationen, von denen ihre angeblichen Verfasser sicher nichts wissen. Für die Verwendung der Antworten innerhalb der Wissenschaft ist das problematisch. Ihre Resultate und Arbeitsweisen müssen nachvollzieh- und wiederholbar sein. Dafür stehen die Forschenden als Autorschaft wortwörtlich mit ihrem Namen.
Wie weiter?
Was ist also zu tun mit dem neuen Kommilitonen ChatGPT? Für eine abschliessende Antwort ist es noch zu früh. Doch aufgrund der vielen Ungenauigkeiten im Umgang mit Autorschaft sind die gelieferten Antworten mit einer guten Portion Skepsis zu betrachten. Was die vermuteten Urheberrechtsverletzungen angeht, ist die Rechtsprechung gefragt. Es gilt zu klären, wie die Verwendung von Werken als Trainingsmaterial für KI-Software zukünftig geregelt wird und ob ChatGPT bei seinem nächsten Essay auch die dazugehörigen (und hoffentlich real existierenden) Quellen nennen muss.
Disclaimer
Dieser Text wurde nicht von ChatGPT verfasst. Es wurden lediglich Fragen zu Recherchezwecken gestellt und z.T. mit Screenshots festgehalten.
Das Beitragsbild wurde am 29.03.2023 erstellt mit DALL·E (https://openai.com/product/dall-e-2 ) einem Programm von OpenAI, das aus Texten mithilfe maschinellem Lernen Bilder erstellt. Folgende Stichworte wurden verwendet: Chatbot, dragon, writing essay, digital art.