Vermischtes

ChatGPT: Studie zeigt Modell zur Erkennung KI-generierter Texte

  • Mittwoch, 14. Juni 2023
/picture alliance, CFOTO, CFOTO
/picture alliance, CFOTO, CFOTO

Berlin – Möglichkeiten zur Erkennung von Texten, die durch Künstliche Intelligenz (KI) generiert wurden, dürfte auch und vor allem in Medizin und Forschung künftig eine wachsende Rolle zukommen. Ein Team von US-Wissenschaftlern will nun ein Modell entwickelt haben, dass mit 90-prozentiger Wahrscheinlichkeit feststellen kann, ob ein Text von einem Menschen oder einer KI geschrieben wurde. Doch es gibt Kritik an der Studie.

Bis zu 99,5 Prozent habe die Genauigkeit bei der Zuordnung bestimmter wissen­schaft­licher Texte zu menschlicher oder KI-Autorenschaft betragen, heißt es in der Studie aus dem Fachjournal Cell Reports Physical Science (2023; DOI: 10.1016/j.xcrp.2023.101426). Die Software war zuvor mit Perspectives, also kurzen Überblicktexten zu Forschungsthemen, trainiert worden.

Dazu hatten die Autorinnen und Autoren zunächst Unterschiede in der Struktur von 64 durch Menschen verfasste Perspectives aus dem Fachjournal Science und 128 von ChatGPT verfassten Texten mit denselben Themen ausgemacht.

Zur Erstellung der KI-generierten Texte nutzten die Wissenschaftlerinnen und Wissenschaftler stets den gleichen Prompt, also die gleiche Eingabeaufforderung: „Can you produce a 300 to 400 word summary on this topic: […]“.

Dabei stellte sich heraus, dass sich unter anderem die Länge von Sätzen und von Paragrafen sowie die Verwendung bestimmter Satzzeichen unterschied. Das Modell konnte daraufhin auf Basis dieser Unterschiede recht genau identifizieren, ob der Text von einem Menschen oder ChatGPT verfasst wurde.

Zwar hat die Software in diesem spezifischen Versuchsaufbau sehr gute Ergebnisse erzielt. Von den Studienautoren unabhängige Experten bezweifeln jedoch aufgrund einiger Limitierungen, dass diese Ergebnisse ohne Weiteres extrapoliert werden können.

„Das Paper beschreibt einen gut nachvollziehbaren und methodisch sauberen Ansatz, von Menschen und von ChatGPT erstellte Texte zu unterscheiden“, erklärt beispielsweise Martin Steinebach, Abteilungsleiter Media Security and IT Forensics am Fraunhofer Institut für Sichere Informationstechnologie in Darmstadt. Allerdings liege dem nur ein sehr spezifischer, kleiner Ausschnitt aus der Menge aller vorstellbarer Texte der Untersuchung zugrunde.

„Die Aussage der Arbeit ist also eher, dass für einen wohldefinierten Fall, bei dem ein homogener Schreibstil mit formalen Anforderungen sowie ein sich ähnelndes Profil der Autoren erwartet werden kann, eine zuverlässige Unterscheidung möglich ist“, sagt Steinebach. „Die Schlüsse, die die Autoren ziehen sind für den Ansatz gerechtfertigt, ob diese auf andere Datensätze übertragen werden können, ist fraglich.“

Die Limitierungen beginnen demnach bereits bei der relativ geringen Zahl an unter­suchten Fällen. Vor allem aber arbeiteten die Autoren mit hoch standardisierten Beispielen: Es wurde stets der gleiche Prompt verwendet, die erstellten Texte folgten damit einem konkreten Muster.

„Bei einer Sichtung der hier verwendeten Features wird klar, dass einige sehr stark auf den wissenschaftlichen Bereich zugeschnitten sind“, betont Iryna Gurevych, Professorin für Ubiquitous Knowledge Processing, Fachbereich Informatik, Technische Universität Darmstadt. Es gebe Hinweise auf ein starkes Overfitting des Modells, also dessen Anpassung auf ein ganz spezifischen Untersuchungsgegenstand.

Um dem genauer nachzugehen, seien die gängige Praxis Ablationsstudien, bei denen systematisch weitere Modelle mit variierenden Featurekombinationen trainiert werden, um deren Einfluss auf die Performanz zu untersuchen.

„Eine solche Ablationsstudie, sowie Experimente, die Hinweise auf eine domänenüber­greifende Übertragbarkeit geben könnten – zum Beispiel mit nichtwissenschaftlichen Texten –, fehlen leider in dieser Studie“, sagt Gurevych. „Entsprechend ist nicht klar, wie gut das Modell auf Texten anderer wissenschaftlicher Domänen generalisiert, ganz zu schweigen von Texten außerhalb des wissenschaftlichen Kontexts.“

Außerdem sei die manuelle Sichtung großer Mengen an Texten zur Erstellung von Features – wie es die Studienautoren mit den insgesamt 192 Texten gemacht haben – nicht gut skalierbar und deshalb nicht ohne Weiteres auf größere Kontexte anwendbar.

Zweifel am potenziellen praktischen Nutzen säht darüber hinaus ein Umstand, den die Studienautoren selbst ausführen: Die Genauigkeit nimmt ab, je kürzer der untersuchte Text oder Textabschnitt ist. „Dass längere Texte – also ganze Abschnitte – als eigene wissenschaftliche Leistung ausgegeben werden, ist vermutlich eher unwahrscheinlich, einzelne Paragrafen aus ChatGPT übernehmen ist da eher denkbar“, erklärt Steinebach. „Generell lässt sich sagen, je kürzer der Text, desto schwieriger ist die KI-Autorschaft feststellbar.“

Chris Biemann, Professor für Sprachtechnologie am Fachbereich Informatik der Universität Hamburg kritisiert die Untersuchung noch grundlegender. „Die Schlüsse aus der Studie sind viel zu weitreichend. Dass die Sprache in wissenschaftlichen Abstracts sich von der Sprache, die ChatGPT generiert, unterscheidet, ist nicht besonders überraschend“, sagt er.

So sei ChatGPT in der Eingabeaufforderung gar nicht mitgeteilt worden, dass es in wissen­schaftlichem Stil schreiben soll. „Viel interessanter wäre, hier noch Prompt Engineering zu betreiben, oder Feintuning von GPT auf den Zieltexten.“

Auch sei der Datensatz nicht nur sehr klein, sondern auch aus Klassifikationssicht sehr einfach. „Der Ansatz an sich kann zwar im Prinzip auf alle Arten von Erkennung ausge­weitet werden, allerdings sind Gegenmaßnahmen der Täuschenden nicht mitgedacht und beschränken sich auf einfache Hinweise an ChatGPT“, moniert Biemann.

Eine Prognose, ob es in absehbarer Zeit universell einsetzbare Tools zur Erkennung KI-generierter Texte geben wird, gibt keiner der vom Science Media Center befragten Experten ab. „Mir sind keine Ansätze bekannt, die zuverlässig funktionieren würden, wenn eben nicht nur irgendwelcher Output von großen Sprachmodellen beurteilt wird, sondern die diesen Text anfordernden Menschen sich um dessen inhaltliche und stilistische Plausibilität kümmern“, sagt Biemann.

Letztlich könne die Entwicklung von Detektoren immer nur reaktiv und nicht proaktiv sein, da nicht abzuschätzen ist, welche neuen Modelle in Zukunft entwickelt werden, betont Gurevych. „Hierfür wäre eine breite Entwicklung unter Berücksichtigung verschiedener Domänen, Sprachen und Generatoren notwendig.“ Ein kürzlich erschienenes Preprint unternehme hier bereits einen ersten Schritt.

„Die Erkennungstools können vielleicht eine Hilfestellung geben bei Verdacht, sodass jemand nicht fälschlicherweise des Plagiats beschuldigt wird“, fasst es Steinebach zusammen. „Im Moment müssen wir uns damit abfinden, dass wir nicht zuverlässig zwischen menschlichem und maschinell erstelltem Text unterscheiden können.“

lau

Diskutieren Sie mit:

Diskutieren Sie mit

Werden Sie Teil der Community des Deutschen Ärzteblattes und tauschen Sie sich mit unseren Autoren und anderen Lesern aus. Unser Kommentarbereich ist ausschließlich Ärztinnen und Ärzten vorbehalten.

Anmelden und Kommentar schreiben
Bitte beachten Sie unsere Richtlinien. Der Kommentarbereich wird von uns moderiert.

Es gibt noch keine Kommentare zu diesem Artikel.

Newsletter-Anmeldung

Informieren Sie sich täglich (montags bis freitags) per E-Mail über das aktuelle Geschehen aus der Gesundheitspolitik und der Medizin. Bestellen Sie den kostenfreien Newsletter des Deutschen Ärzteblattes.

Immer auf dem Laufenden sein, ohne Informationen hinterherzurennen: Newsletter Tagesaktuelle Nachrichten

Zur Anmeldung