ChatGPT und Co. - Das Ende der Hausarbeit?

Workshopleitung

Armin Glatzmeier

Datum

14.02.2024

Struktur der Veranstaltung

Impulsvortrag mit Workshop

Zusammenfassung

Im Dezember 2023 sorgte die Wirtschaftsuniversität Prag für Aufsehen, weil sie die Bachelorarbeit als zentrale Prüfungsform in betriebswirtschaftlichen Studiengängen zukünftig abschaffen wird. Ausgehend von der Fragestellung, ob wissenschaftliche Abschlussarbeiten bald obsolet werden, werden im Workshop verschiedene Aspekte generativer KI vor dem Hintergrund guter wissenschaftlicher Praxis in den Blick genommen.

Zunächst wird in die Eigenheiten und Funktionsweisen von Large Language Models (LLMs) eingeführt. ChatGPT ist eine Sonderform eines solchen Transfermodells, welches Textoperationen auf Basis vortrainierter Daten durchführt. Dabei greift es auf eine neuronale Netzwerkstruktur zu, welche im Laufe des Trainings ausgebildet wird. Deshalb ist es wichtig, das neuronale Netzwerk mit möglichst vielen und auch unterschiedlichen Texten zu trainieren. Auf Grundlage der eingespeisten Textdaten bildet das neuronale Netzwerk Sprache als einen Wahrscheinlichkeitsraum ab, die Textproduktion folgt einer Wahrscheinlichkeitsheuristik und wird durch die Trainingsdaten vordeterminiert. Durch eine mittels Texteingabe gestellte konkrete Anfrage (Prompt) wird die Textoperation in Gang gesetzt. Dabei kann der erwartbare Output durch den Prompt begrenzt werden.

Die Trainingsdaten enthalten Webseiten, Bücher und Artikel. Da es darum geht, allgemein ein möglichst umfassendes Konvolut an Materialien zusammenstellen, fehlt ein speziell wissenschaftlicher Zuschnitt. Ein Blick auf die Trainingsdaten des Modells GPT-3 von Open AI verrät, dass es zu 60% mit Daten aus dem Common Crawl (gefiltert) und nur zu circa 16% aus Büchern trainiert wurde. Die Trainingsdaten werden in der Regel bereinigt, um problematische Inhalte wie Gewalt, Vorurteile, Hate Speech zu vermeiden. Nichtsdestotrotz enthalten die Trainingsdaten Fehler, Verzerrungen, Biases und Fehlrepräsentationen, welche von den Modellen unreflektiert wiedergegeben werden.

Large Language Modelle sind keine Wissens-, sondern Sprachmodelle, sie verfügen weder über Textverständnis noch Weltbewusstsein. Deshalb kommt es vor, dass LLMs Sachzusammenhänge, Informationen und Quellen halluzinieren oder erfinden (daher werden sie auch „stochastische Papageien“ genannt). Im Einzelfall generieren LLMs wortwörtliche Textplagiate. Trotz der beeindruckenden Leistung generativer KI-Tools, Textoperationen in kurzer Zeit lösen zu können, ist übermäßiges Vertrauen gegenüber der Technologie ungerechtfertigt. Im Gegenteil muss jeder Output gründlich geprüft werden, weshalb sich der Einsatz im Rahmen wissenschaftlicher Abschlussarbeiten nur bedingt empfiehlt.

Auch die Wahl des Modells soll überlegt sein. Unterschiedliche Modelle geben unterschiedliche Antworten. Dies wird veranschaulicht, indem drei Antworten (von ChatGPT, Gemini und Perplexity) zu demselben, wortgleichen Prompt aufgezeigt werden. Dabei werden unterschiedliche Objektivitätsgrade der Modelle sowie ihre Wiedergabe von bestimmten Biases deutlich.

Wissenschaftliches Fehlverhalten setzt einen vorsätzlichen oder grob fahrlässigen Verstoß gegen die Grundsätze der guten wissenschaftlichen Praxis voraus. Explizit werden drei Formen wissenschaftlichen Fehlverhaltens genannt: Erfinden von Daten, Verfälschen von Daten, Plagiat. Laut DFG ist wiss. Fehlverhalten ein personenbezogenes Konzept und setzt die Fähigkeit zur Übernahme von Verantwortung voraus. Nach dieser Definition sind LLMs nicht zum Fehlverhalten fähig, weil sie keine Verantwortung für die von ihnen verfassten Inhalte übernehmen können. Sie sind daher auch nicht plagiatfähig.

Wichtig ist, dass LLMs keine Verantwortung für die von ihnen produzierten Inhalte zugeschrieben werden kann. Wenn ein Modell Fehlinformationen, Falschangaben oder (in seltenen Fällen) wörtliche Textplagiate generiert, liegt die Verantwortung bei der Person, die diese Texte verwendet oder wiedergibt.

Die Erkennung KI-generierter Texte gestaltet sich ähnlich schwierig wie die Erkennung von Plagiaten. Können wortwörtliche Plagiate gut mittels vorhandener Software (sofern diese zur Verfügung steht) detektiert werden, gestaltet sich dies schwieriger bei paraphrasierten Inhalts- oder Strukturplagiaten (vor allem nicht kanonischer Literatur). Für die Erkennung KI-generierter Texte stehen derzeit keine zuverlässigen Tools zur Verfügung. Allerdings können Merkmale, welche allgemein auf wissenschaftliches Fehlverhalten hinweisen, auch als Hinweise für den unzulässigen Einsatz generativer KI gelesen werden. Diese umfassen z.B. offenkundige Faktenfehler, oberflächliche Darstellungen, falsche und/oder inexistente Quellen, sprachliche und/oder stilistische Brüche innerhalb der Arbeit.

Um faire Rahmenbedingungen für eine Nutzung von LLMs innerhalb der Leitlinien guter wissenschaftlicher Praxis zu schaffen, braucht es zuallererst Transparenz und in weiterer Folge ein klar definiertes Regelwerk (das auch die Sanktionierung von Regelverstößen mitberücksichtigt).

Daher kann es sinnvoll für Lehrende sein, sich bereits zum Beginn eines Semesters bzw. Lehrveranstaltung mit den Studierenden Zeit zu nehmen, um klare und einheitliche Vereinbarungen zum Einsatz generativer KI-Tools zu treffen (z.B. für welche Arbeitsschritte diese zugelassen sind und für welche nicht und in welcher Form der Einsatz gekennzeichnet werden soll). Wichtig ist dabei, diese Vereinbarungen auch schriftlich festzuhalten und zentral für alle Beteiligten zugänglich zu machen. Fehlen solche expliziten Vereinbarungen, kann es ratsam für Studierende sein, aktiv das Gespräch mit den Betreuenden zu suchen, um die Möglichkeit des KI-Einsatzes zu überprüfen und die damit verbundenen Modalitäten festzulegen.

Diskussion

Zu Beginn des Workshops werden die Teilnehmenden ersucht, ihre Erfahrungen in Bezug auf generative KI auf einer digitalen Pinnwand festzuhalten. Dabei sind drei Spalten vorgegeben:

  • Welche Tools haben Sie bereits verwendet?
  • Wozu haben Sie bereits genKI-Tools verwendet?
  • Wie nehmen Sie die Nutzung genKI-Tools durch Studierende im Lehr- und Betreuungskontext wahr?

Die Teilnehmenden sind demnach dazu angehalten, unterschiedliche Tools und Verwendungsarten zu differenzieren. Das Ergebnis zeigt, dass die Teilnehmenden bereits mit vielfältigen Vor-Erfahrungen in die Veranstaltung kommen (Board 1: Vorkenntnisse und Erfahrungen). Dabei wird ersichtlich, dass die Teilnehmenden die Tools für sehr unterschiedliche Zwecke nutzen: Von der klassischen Text- und Bildproduktion bis hin zum innovativen Einsatz in Lehre (z.B. zur Erstellung von Folieninhalten und Quizfragen), Forschung (z.B. Formulierung von Abstracts und Verbesserung bestehender Texte) und Karriere (z.B. Training für ein Bewerbungsgespräche). Auch die Wahrnehmung der studentischen Nutzung variiert stark und reicht von keinen Erfahrungen bis hin zum bewussten Einsatz und aktiver Promotion der Tools in der eigenen Lehre. Mit Abstand am häufigsten wird das Tool ChatGPT genannt.

Im Anschluss an einen ersten Impulsvortrag haben die Teilnehmenden die Möglichkeit, sich im Rahmen einer 20-minütigen Arbeitsphase mit Fragen zum Einsatz generativer KI in der wissenschaftlichen Textproduktion und zur Kompetenzvermittlung durch die Prüfungsform Hausarbeit auseinanderzusetzen. Dabei stehen drei Fragen im Fokus:

  • Welche Kompetenzen setzt der Einsatz von LLMs für die wissenschaftliche Textproduktion voraus? (Board 2)
  • Welche Kompetenzen sollen im Format Hausarbeit vermittelt werden? (Board 3)
  • Welche Kompetenzen sollen durch das Format Hausarbeit geprüft werden? (Board 4)

Für jede dieser Fragen gibt es eine eigene Pinnwand, in der die einzelnen Beiträge durch die Platzierung zusätzlich gewichtet werden können. Es werden Teilgruppen-Sitzungen eingerichtet, in denen die Teilnehmenden die verschiedenen Fragen diskutieren und Beiträge gemeinsam erarbeiten. Den Teilnehmenden ist es dabei auch möglich, die Gruppen zu wechseln und so mehrere oder auch alle Fragen gleichermaßen zu bearbeiten. Im Anschluss an die Arbeitsphase werden die Ergebnisse auf den Pinnwänden im Plenum vorgestellt und gemeinsam analysiert.

Dabei wird deutlich, dass spezielle Kompetenzen notwendig sind, um LLMs überhaupt in der wissenschaftlichen Textproduktion sinnvoll einsetzen zu können. So werden auf der entsprechenden Pinnwand sowohl Fähigkeiten in Bezug auf LLMs als auch fachlich-wissenschaftliche Fähigkeiten betont (Board 2: Kompetenzen für LLM-Einsatz). Um LLMs für die wissenschaftliche Textproduktion zu nutzen braucht es demnach Kenntnis über die Funktionsweise der genKI-Tools, die Kompetenz effektive Prompts zu entwickeln, aber auch ein generelles Fachwissen in Bezug auf wissenschaftliche Sprache.

Zudem wird diskutiert, inwiefern sich die im Format Hausarbeit vermittelten wissenschaftlichen Kernkompetenzen wie Entwicklung eines Forschungsdesigns, kritische Auseinandersetzung mit einer Thematik und evidenzbasiertes wissenschaftliches Argumentieren (Board 3: Welche Kompetenzen vermittelt die Hausarbeit) auch durch die Prüfungsform Hausarbeit überprüfen lassen (Board 4: Welche Kompetenzen werden durch Hausarbeit geprüft). Prozessual vermittelte Kompetenzen sind schwierig in einer singulären Prüfungsleistung zu bewerten. Deshalb ist es wichtig, die Hausarbeit nicht als isolierte Prüfungsform zu betrachten, sondern ihre Erstellung gemäß den zu vermittelnden Kompetenzen zu unterstützen.

Um den Workshop abzuschließen, werden Einsatzmöglichkeiten generativer KI-Tools in Hausarbeiten innerhalb einer kurzen Arbeitsphase bewertet. Dazu werden die unterschiedlichen Aspekte auf einer Pinnwand den Spalten „unproblematisch“, „neutral“ und „problematisch“ zugeordnet (Board 5: Einsatzmöglichkeiten genKI). Als unproblematisch werden jene Einsatzbereiche gesehen, in denen die genKI-Tools verwendet werden, um bereits vorhandenes Material zu verbessern (z.B. Verbesserung oder Kürzung von Text, Ordnen oder Gliedern von Ideen,). Dem entgegen stehen die problematischen Einsatzbereiche, in denen die genKI-Tools als Ghostwriter fungieren und z.B. von der Forschungsfrage bis zur fertigen Arbeit der produzierte Text eins zu eins übernommen wird. Besondere Vorsicht ist bei der Suche nach Quellen geboten, da LLMs wahrscheinliche Sprachzusammenhänge generieren und so Quellen halluzinieren, die es in der Form nicht gibt. Hier zeigt sich die Notwendigkeit weiterer Aufklärungsarbeit im Bereich generativer KI und LLMs (der Einsatzbereich „Quellen finden“ wird von einigen als problematisch, von anderen allerdings als unproblematisch eingeordnet).

Take-aways

  • Für den Einsatz von LLMs für die wissenschaftliche Textproduktion werden mehr Kompetenzen vorausgesetzt als für eine klassische wissenschaftliche Hausarbeit.
  • Die Hausarbeit ist keine singuläre Prüfungsleistung, sondern Produkt eines Arbeitsprozesses, welcher in seinen Bestandteilen ein breites Kompetenzspektrum bedient.
  • Die Hausarbeit wird nicht aussterben.

Workshopleitung

Dr. Armin Glatzmeier (Freie Universität Berlin, Stabsstelle Kompetenzentwicklung wissenschaftliches Arbeiten der Universitätsbibliothek) beschäftigt sich seit 2018 u.a. mit wissenschaftlichem Fehlverhalten und Fragen der guten wissenschaftlichen Praxis. In diesem Zusammenhang befasst er sich in Schulungsangeboten und als Referent mit den Implikationen von Large Language Models wie ChatGPT, Bard u.ä. auf das wissenschaftliche Schreiben. Glatzmeier studierte Politikwissenschaft mit den Nebenfächern Rechtswissenschaft und Psychologie an der Universität Passau.

Consulting & Support

Consulting
Vom CeDiS Consulting erhalten Sie individuelle Beratung und Unterstützung bei der Konzeption Ihrer digitalen Lehr- und Forschungsvorhaben. 
Kontakt: consulting@cedis.fu-berlin.de

Support
Der CeDiS Support beantwortet Ihre Nutzeranfragen zur Bedienung der folgenden zentralen Systeme der Freien Universität: Blackboard, CMS, FU-Wikis, FU-Blogs.
Kontakt: support@cedis.fu-berlin.de