Thursday, December 1, 2016

Digitale Literaturwissenschaft - eine Außensicht aus der Perspektive des Informatikers

Digitale Literaturwissenschaft - eine Außensicht aus der Perspektive des Informatikers

1 Einleitung

Die Informationstechnologie verändert die Produktion von Literatur, die Form der entstehenden Literatur und das Lesen; ebenfalls beeinflusst Informationstechnologie die Arbeitsweisen der Literaturwissenschaft. Nicht nur, dass literarische Texte elektronisch erfasst, übertragen und bearbeitet werden und dass literaturwissenschaftliche Arbeiten mit dem Computer statt von Hand oder mit der Schreibmaschine geschrieben werden, sondern besonders weil die Informationstechnologie das Potential hat neue Arbeitsweisen und neue Erkenntnismethoden in die Literaturwissenschaft einzuführen.
Es scheint, dass die Anwendung der Informationstechnologie sowohl
  • den Gegenstand der literaturwissenschaftlichen Untersuchung verändert; für einen als Korpus beschriebene Textsammlung sind kategorische Urteile („immer“, „nie“) möglich.
als auch
  • die Methode beeinflusst; algorithmische Interpretation beruht auf einer definierten Sammlung von Sprach- und Sachwissen und ist so nachvollziehbar.

2 Gegenstand einer digitalen Literaturwissenschaft

Viele literaturwissenschaftliche Arbeiten beschäftigen sich mit einem literarischen Text oder einer unscharf bezeichneten Textmenge (z.B. „Der Europäische Roman des 19. Jahrhunderts“). Mittels Informationstechnologie werden digitale literarische Korpora zusammengestellt. Texte, die nach bestimmten Kriterien ausgewählt sind, werden in einer algorithmisch verarbeitbaren Form aufbereitet und als Korpus bereitgestellt. Der Aufwand größere Korpora zu schaffen ist beträchtlich, verteilt sich aber durch die mehrfache Verwendung durch verschiedene Wissenschaftler und für unterschiedliche Forschungsarbeiten. Der Urheberschutz und unterschiedliche Interpretationen des Verhältnisses von Urheberrecht und Freiheit der Wissenschaft zueinander, schränken manchmal den Zugang erheblich ein [11]. Aufbereitete Texte sind oft bereits nach einem bestimmten Standard (z.B. TEI [9]) „ausgezeichnet“, das heißt, dass auch Seiteneinteilung, Lesarten oder Differenzen zwischen Ausgaben etc. kodiert sind.
Liegt einer literaturwissenschaftlichen Arbeit ein Textkorpus zugrunde, so wird zumindest der algorithmisch bestimmte Teil der Arbeit wiederholbar. Andere Forscher können im Prinzip nachprüfen, ob sie mit dem gleichen Korpus und den gleichen Methoden gleiche Ergebnisse erhalten; wesentlicher ist aber die Möglichkeit, zu prüfen, wie sich die Ergebnisse verändern, wenn der Korpus erweitert, eingeschränkt oder ein ganz anderer Korpus mit den gleichen Methoden evaluiert wird. Literaturwissenschaftliche Forschungsergebnisse sind dann schärfer umrissen, auf bestimmte Sammlungen von literarischen Werke bezogen und mit anderen Ergebnissen vergleichbar. Die Interpretation der algorithmisch gewonnenen Ergebnisse bleibt, wie bisher, dem Wissenschaftler vorbehalten.
Die Verwendung von Korpora bringt auch einen methodischen Gewinn: es ist, mit Bezug auf einen fixierten Korpus möglich, Aussagen der Form „in diesem Korpus gibt es keinen Fall, dass ...“ oder „in diesem Korpus ist immer der Fall, dass ..“ zu machen. Solche kategorischen Urteile waren bisher nur in Bezug auf kleine, überblickbare Textmengen möglich - mit der Festlegung eines Korpus und der algorithmischen Untersuchung der darin enthaltenen Texte sind sie auch bezüglich großer Textsammlungen möglich.

3 Methodik einer digitalen Literaturwissenschaft

Die Interpretation eines literarischen Textes entsteht beim Lesen durch die Verbindung der Zeichen im Text mit dem Wissen des Lesers. Ähnlich wie der Gegenstand für die digitale Untersuchung als Korpus festgelegt wird, muss das Wissen, das die Interpretation erlaubt, beschrieben werden. Zu diesem Wissen gehört die Kenntnis der verwendeten Sprache, aber auch Allgemeinwissen und schließlich Spezialwissen, die für das vertiefte Verständnis notwendig sind. Eine digitale Literaturanalyse muss nicht nur den Gegenstand der Untersuchung, d.h. den Korpus der untersuchten Texte, sondern auch das für die Analyse verwendete Wissen und die verwendeten logischen Regeln bezeichnen.
Eine digitale Analyse eines natürlich-sprachlichen Textes zerfällt in verschiedene Phasen; in einem ersten Schritt erfolgt meist die Verarbeitung der Sprach\SpecialChar softhyphenoberfläche mit den Mitteln der Computerlinguistik (z.B. Stanford CoreNLP [A]  [A] https://stanfordnlp.github.io/CoreNLP/, für verschiedene Sprachen verfügbar [12]); der Text wird dabei in Wörter aufgelöst, diese auf Wortstämme reduziert und die grammatischen Konstruktionen analysiert, Referenzen und Verweise im Text kodiert und Eigennamen erkannt. Das dabei eingesetzte Wissen kann vereinfachend aber nachvollziehbar mit dem Verweis auf das verwendete Programm (bzw. auf das Programm und dem für das Training verwendete Korpus) erfolgen.
Je nach Fragestellung kann die Verbindung des Textes mit anderem Wissen anschließen; beispielsweise eine Analyse des Raumbezuges durch Verbindung von Ortsbezeichnungen mit geographischem Wissen oder der Beziehungen der Personen durch Verbindung mit historischem Wissen oder Bibel- und Mythologiekenntnisse. Es kann mit Werkzeugen der Computerlinguistik auch nach anderssprachigen Einschüben gesucht und diese analysiert werden; digitale Methoden können solche Hinweise systematisch und für mehr Sprachen als ein einzelner Leser beherrschen kann, sichtbar machen [B]  [B] Beispielsweise sind in Gedichten Celans zumindest russische (rot), französische (neige) und japanische (i-i-e) Wörter auffindbar. Die Untersuchung der Handlungen nach narratologischen Schemata wie von Propp initiiert [15], und zu computational narratology [C]  [C] http://www.lhn.uni-hamburg.de zu entwickeln, benötigt Generalisierungen, die Linguisten in taxonomisch organisierten Wortlisten bereitstellen (wordnet [D]  [D] http://wordnet.princeton.edu/ [2] u.ä).
Entscheidend ist, dass das bei einer algorithmischen Interpretation angewandte Wissen und die verwendeten logischen Schlussregeln nachvollziehbar beschrieben werden. Praktisch kann das Wissen durch die Angabe der bei der Analyse eingesetzten Werkzeuge beschrieben werden, also z.B. die verschiedenen Analysen die Datenbanken (z.B. dbpedia [E]  [E] http://dbpedia.org/ - eine logisch strukturierte Form großer Teile des Inhaltes von Wikipedia als RDF kodiert), Taxonomien und Schlussregeln (z.B. OWL [14]). Damit ist deren Einfluss auf die Analyse dokumentiert, überprüfbar und einer Kritik zugänglich.
Die technische Verarbeitung wird erleichtert, wenn die Verarbeitung in Schritte unterteilt wird und die Ein- und Ausgaben in standardisierten Formaten erfolgen. Für die sprachliche Analyse werden Treebanks (mit leicht unterschiedlichen Kodierungen) verwendet, wobei auch bereits sprachunabhängige Lösungen vorgeschlagen wurden[10, 17, 16], die für die Komparatistik wahrscheinlich besonders fruchtbar sind [6, 7]. Das für die literaturwissenschaftliche Analyse heranzuziehende Sachwissen ist zu einem großen Teil im Semantic Web [1, 5] bereits in in RDF Form[13] vorhanden; es könnte nützlich sein, Korpora ebenfalls in RDF Form zu kodieren um die Verbindung mit dem Semantic Web zu vereinfachen[8].

4 Coda

Durch eine konsequente Beschreibung von Gegenstand - als Korpus der maschinellen Verarbeitung zugänglich - und dem darauf bezogenen Sachwissen - in Form von Programmen und Semantic Web - , das für die Analyse verwendet wird, ist es möglich, Interpretationen algorithmisch zu überprüfen und zu objektivieren.
Die digitale Form von Texten (und ähnlichen Materialien) erlaubt den Einsatz von algorithmischen Verarbeitungen; dies verändert Literaturwissenschaft insofern, als Hypothesen überprüfbar werden. Nötig dazu ist die Beschreibung des Gegenstandes in Form der im Korpus eingeschlossenen Texte und ein Modell des Lesens und des dabei eingebrachten Sachwissens. Es kann dann entschieden werden, ob eine Interpretation eines Textes mit dem angegebenen Wissen möglich ist, welche Interpretationen aus einem limitierten Wissen resultieren (z.B. fehlende Fremdsprachkenntnisse), oder welches Sachwissen notwendig für eine bestimmte Interpretation ist.
Eine „automatische“ Interpretation liegt zwar in weiter Ferne, aber der Wissenschaftler könnte, durch eine automatische Produktion aller möglicher Assoziationen (taxonomisches und Faktenwissen) und deren Gruppierung auf vielleicht sonst übersehene Hypothesen zur Interpretation hingewiesen werden, die dann kritisch beurteilt werden müssen.

Literatur

[1] Tim Berners-Lee, James Hendler, Ora Lassila, others: “The semantic web”, Scientific american, pp. 28—37, 2001.
[2] Christiane Fellbaum: WordNet: An Electronic Lexical Database. The MIT Press, 1998.
[3] Hanno Biber, Evelyn Breiteneder, Karlheinz Mörth: “Words in Contexts: Digital Editions of Literary Journals in the "AAC - Austrian Academy Corpus" ”, Proceedings of the International Conference on Language Resources and Evaluation, LREC 2008, 26 May - 1 June 2008, Marrakech, Morocco, 2008. URL http://www.lrec-conf.org/proceedings/lrec2008/summaries/92.html.
[4] Hanno Biber, Evelyn Breiteneder: “Fivehundredmillionandone Tokens. Loading the AAC Container with Text Resources for Text Studies”, Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC-2012), Istanbul, Turkey, May 23-25, 2012, pp. 1067—1070, 2012. URL http://www.lrec-conf.org/proceedings/lrec2012/summaries/857.html.
[5] Pascal Hitzler, Markus Krötzsch, Sebastian Rudolph, York Sure: “Semantic Web”, Berlin, Heidelberg, 2008.
[6] Christine Ivanovic, Andrew U Frank: “Corpus-based Research in Computational Comparative Literature”, Corpus-Based Research in the Humanities (CRH), pp. 69, 2015.
[7] Christine Ivanovic, Andrew U Frank: “Korpusanalyse in der computergestützten Komparatistik”, Digital Humanities deutsch (DHd), 2016.
[8] Christine Ivanovic, Andrew U Frank: Viennavigator: Digitale Formalisierung literarischer Topographien am Beispiel des Gesamtwerks von Ilse Aichinger in Nach Wien! Sehnsucht, Distanzierung, Suche. Literarische Darstellungen Wiens aus komparatistischer Perspektive (Bachleitner, Norbert and Ivanovic, Christine, ed.). Peter Lang, Frankfurt a.M., 2015.
[9] Fotis Jannidis: “TEI in a crystal ball”, Literary and linguistic computing, pp. 253—265, 2009.
[10] L. Banarescu, C. Bonial, M S. Cai, Georgescu, K. Griffitt, U. Hermjakob, K. Knight, P. Koehn, M. Palmer, N. Schneider: “Abstract Meaning Representation for Sembanking”, , 2013.
[11] Lawrence Lessig: Code and Other Laws of Cyberspace. Basic Books, 1999.
[12] Christopher D Manning, Mihai Surdeanu, John Bauer, Jenny Rose Finkel, Steven Bethard, David McClosky: “The Stanford CoreNLP Natural Language Processing Toolkit.”, ACL (System Demonstrations), pp. 55—60, 2014.
[13] Frank Manola, Eric Miller, Brian McBride, others: “RDF primer”, W3C recommendation, pp. 6, 2004.
[14] D.L. McGuinness, F. Van Harmelen, others: “OWL web ontology language overview”, W3C recommendation, pp. 10, 2004.
[15] Vladimir Jakovlevič Propp, EM Meletinskij, Christel Wendt: Morphologie des Märchens. Carl Hanser Verlag, 1972.
[16] Lucy Vanderwende, Arul Menezes, Chris Quirk: “An AMR parser for English, French, German, Spanish and Japanese and a new AMR-annotated corpus”, Proceedings of NAACL-HLT, pp. 26—30, 2015.
[17] Nianwen Xue, Ondrej Bojar, Jan Hajic, Martha Palmer, Zdenka Uresova, Xiuhong Zhang: “Not an Interlingua, But Close: Comparison of English AMRs to Chinese and Czech.”, LREC, pp. 1765—1772, 2014.

No comments:

Post a Comment