Digital Humanities Day #3
14. & 15. Januar 2021
ReligionML – Annotation religiöser Texte für Machine Learning
Thomas Jurczyk
Keywords: Annotation, Machine Learning
Das vorzustellende Projekt ReligionML wird derzeit als interne Arbeitsgruppe am Centrum für Religionswissenschaftliche Studien (CERES, Ruhr-Universität Bochum) durchgeführt. Die Arbeitsgruppe bestehend aus Religionswissenschaftler:innen verschiedener Schwerpunktbereiche hat es sich zum Ziel gesetzt, religionswissenschaftlich relevante Texte gemeinsam zu annotieren, um so mit der Zeit ein verlässlich annotiertes religionswissenschaftliches Corpus zu schaffen, das sowohl für die automatisierte als auch manuelle Bearbeitung religionswissenschaftlicher Fragen herangezogen werden kann.
Obwohl das finale Corpus für unterschiedliche Forschungsfragen nutzbar sein soll, steht im theoretischen Zentrum[1] der Gruppe derzeit die Frage, wie religiöse Semantik bzw. Lexik[2] in unterschiedlichen gesellschaftlichen Kontexten (Politik, Kunst, Wirtschaft, Religion etc.) verwendet wird. Das Corpus soll es dabei ermöglichen, diese Frage nicht nur punktuell, sondern möglichst umfangreich und repräsentativ bearbeiten zu können. Außerdem sollen Machine Learning Modelle, die auf Basis der annotierten Daten des Corpus trainiert wurden, dabei helfen, unbekannte Daten zu filtern und beispielsweise einzuordnen, ob es sich bei einem Text, der religiöse Semantik beinhaltet, um religiöse oder nicht-religiöse Kommunikation handelt[3] und aus welchem gesellschaftlichen Bereich diese stammt. Die Erstellung solcher automatisierter Klassifizierungsmodelle würde nicht nur die Filterung großer (unbekannter) Datenmengen ermöglichen, um spezifischere religionswissenschaftliche Fragen zu bearbeiten,[4] sondern auch Rückschlüsse auf die Besonderheiten der religiösen bzw. nicht-religiösen Verwendung religiöser Semantik ermöglichen, die in den Klassifizierern zugrunde liegenden Entscheidungsparametern erkennbar sind.
Das Projekt ReligionML befindet sich noch in der Anfangsphase. Es basiert technisch auf einer Webapplikation, die es den Grupenteilnehmer:innen ermöglicht, zentral kurze Texte auf verschiedenen Ebenen (Satz sowie einzelne Wörter bzw. Wortgruppen) zu annotieren und die Annotationen dann zentral zusammenzuführen und auszuwerten. Inhaltlich fokussiert sich die Annotation derzeit auf englische Tweets, die Wörter wie holy, religion, cult oder purity enthalten, wobei das Corpus stetig erweitert werden und später auch andere Textgenres beinhalten soll. Es wurden bisher zwei Annotationsschritte implementiert: Zum einen werden die Tweets als Ganzes von den Annotatoren:innen klassifiziert bzw. annotiert. Zum anderen haben die Annotatoren:innen die Möglichkeit, einzelne Wörter bzw. Wortgruppen aus den Tweets separat zu annotieren. Wir arbeiten dabei bewusst nicht mit einem Goldstandard, sondern entwickeln die Annotationskategorien während regelmäßiger Treffen induktiv und mit Blick auf existierende Schemata weiter.
Als Besonderheit unseres Projekts ist der Versuch hervorzuheben, dass wir bewusst mit der Ambiguität der Textsemantik bzw. der Annotationen umzugehen versuchen. So sehen wir beispielsweise divergierende Kategorisierungen durch die einzelnen Annotatoren:innen nicht als Problem an, das zwingend durch die Optimierung des Inter-Annotator Agreement beseitigt werden soll, sondern vielmehr als Teil der Phänomenbeschreibung, die es uns erlaubt, Einordnungswahrscheinlichkeiten von Texten prozentual wiederzugeben, anstatt eine eindeutige Zuordnung vorzunehmen, die so oftmals auch in den Texten schlicht nicht gegeben ist.
[1] Frei nach dem ersten Schritt des MATTER Modells in (Pustejovsky, Bunt, and Zaenen 2017).
[2] Beispielsweise Heiligkeitssemantiken.
[3] Erste Tests mit relativ simplen Machine Learning Modellen wie KNN und Logistic Regression wurden dabei bereits durchgeführt.
[4] Zum Beispiel, wenn die Frage im Zentrum steht, wie religiöse Semantiken in politischer Kommunikation verwendet werden.
References
Pustejovsky, James, Harry Bunt, and Annie Zaenen. 2017. 'Designing Annotation Schemes: From Theory to Model.' In Handbook of Linguistic Annotation, edited by Nancy Ide and James Pustejovsky, 73–113. Dordrecht: Springer.