Modulinhalte

Melanie Andresen: Python für Korpuslinguist:innen

Montag, 21. Juni 2021

Gegenstand dieses Kurses sind die Grundlagen der Programmiersprache Python. Es werden keinerlei Vorkenntnisse im Programmieren vorausgesetzt. Wir erproben gemeinsam, wie man Skripte schreibt und ausführt, numerische Datentypen, Strings und Listen nutzt und den Programmablauf strukturiert. Am Ende des Kurses beherrschen die Teilnehmenden einfache Workflows wie z. B.: einen Text einlesen, alle Wörter zählen und nach Frequenz sortieren, das Ergebnis in eine neue Datei schreiben.

Melanie Andresen: Visualisierungen mit Python

Dienstag, 22. Juni 2021, Track B

In diesem Kurs geht es auf einer technischen Ebene darum, wie wir aus (tabellarischen) Daten mit Python unterschiedliche Formen von Visualisierungen erstellen können (z.B. Säulendiagramme, Liniendiagramme und Boxplots). Auf einer konzeptuellen Ebene beschäftigen wir uns außerdem mit der Frage, was eine gute Visualisierung ausmacht. Dabei ist beispielsweise wichtig, wann Visualisierungen gut lesbar sind, welche Visualisierungen für welche Datentypen sinnvoll sind und inwiefern die Visualisierung schon eine erste Interpretation der Daten darstellt.

Noah Bubenhofer et al.: Einführung in die Korpuspragmatik

Dienstag, 22. Juni 2021, Track A

Die Korpuspragmatik nutzt korpuslinguistische Methoden für Forschungsfragen der Pragmatik, Diskursanalyse, Kulturlinguistik und ähnlicher Bereiche. Schon seit längerer Zeit spielt die Korpuslinguistik eine wichtige Rolle in der Diskurslinguistik, da dort musterhafter Sprachgebrauch als Indiz für diskursive Positionen und Aussagen gelesen werden. Auch eine pragmatisch fundierte Gebrauchssemantik profitiert enorm von den methodischen Innovationen der distributionellen Semantik (z.B. Word Embeddings). Und welche Methoden lassen sich für praxistheoretische Fragen fruchtbar machen?

Im Modul werden Analysebeispiele aus korpuspragmatischen Bereichen vorgestellt und daran gezeigt, welche theoretischen Prämissen und Methoden die Korpuspragmatik nutzt. Ein Schwergewicht liegt dabei auf der Frage der Dateninterpretation: Ein Kollokationsprofil ist schnell berechnet, doch inwiefern es hilft, komplexe Fragen der Semantik oder Diskursanalyse zu beantworten, ist oft unklar. Auch die Deutung berechneter semantischer Räume mit dem word2vec-Verfahren ist kompliziert: Welche Schlüsse sind möglich und sinnvoll?

Das Modul bietet eine Übersicht über korpuspragmatische Analysemöglichkeiten und bietet Raum für die kritische Reflexion solcher Methoden.

Rainer Perkuhn und Marc Kupietz: IDS-Korpora: Cosmas II und KorAP

Mittwoch, 23. Juni 2021, Track A

Entstehung und Zusammensetzung der Korpora; Analysemöglichkeiten spezifisch für IDS-Korpora über COSMAS II und KorAP

Am Leibniz-Institut für Deutsche Sprache werden seit über 50 Jahren Korpora des Deutschen aufgebaut. Aus verschiedenen Gründen gehört (auch für unser Selbstverständnis) dazu, entsprechende Recherche- und Analysewerkzeuge bereitzustellen, die auch neuere (auch: NLP-/CL-)Techniken integrieren oder zu integrieren ermöglichen. Die empirische Datengrundlage wird somit der germanistischen Sprachwissenschaft untrennbar mit entsprechenden Arbeitsumgebungen zur Verfügung gestellt. Aufgrund der Vielzahl der unterschiedlichen (bekannten und noch nicht bekannten) Erkenntnisinteressen bedarf eine derartige Arbeitsumgebung allerdings einer gewissen Flexibilität. Dadurch können, müssen und sollen die Nutzenden Entscheidungen bewusst fällen, wie ihre Frage empirisch „übersetzt“ werden soll: Bei der Auswahl bzw. Zusammenstellung eines für die Aufgabe möglichst „repräsentativen“ Korpus, bei der Festlegung des zu untersuchenden sprachlichen Objekts sowie bei der Entscheidung für die Wahl weiterer Ressourcen und Analysemethoden (d.h auch eine Abschätzung der Anwend- und Auswertbarkeit).

In unserem Kurs werden wir auf viele Aspekte unseres Angebots eingehen, insbesondere auf die Datengrundlagen, die über das Deutsche Referenzkorpus DeReKo ggf. als virtuelle Korpora erstellt werden können, auf Operationalisierungen des „sprachlichen Objekts“, auf Recherche- und Analysemöglichkeiten mit Cosmas II und KorAP, sowie den Nutzen, aber auch die Fallstricke weiterer Ressourcen (z.B. Annotationen). Wir planen

  1. Das Deutsche Referenzkorpus DeReKo: Grundlagen und Design
  2. Sprachliche Objekte fassen, allein und im Zusammenspiel (Tokenisierung, Lemmatisierung, Abstände)
  3. Übung: Recherche mit Cosmas II
  4. Linguistische Annotationen in DeReKo – und wie man sie mit KorAP und seiner Python-Client-Bibliothek durchsucht
  5. Musterhaftes im Zusammenspiel mit Metadaten und Kontext (Zeitverlauf, thematische Klassifikation, Kookkurrenz)
  6. Unsere Labs für Wortbeziehungen: CCDB und DeReKoVecs

Adrien Barbaresi: Trafilatura und Webcrawling

Mittwoch, 23. Juni 2021, Track B

Von Webseiten zu Textkorpora (und darüber hinaus) mit Trafilatura

Die Nutzung von Webdaten setzt zuallererst wissenschaftliche Methoden
und technische Hilfsmittel voraus, die ein fundiertes und kontrolliertes
Sammlungsverfahren ermöglichen können. Diese gehören auch meistens zu
den ersten Arbeitsschritten und können zeitaufwendig sein, wodurch
praktische Fragen zur Einschätzung der angemessenen Herangehensweisen,
zur Effizienz der Verfahren und zur Qualitätssicherung der gewonnenen
Daten oft zu kurz kommen und unbeantwortet bleiben.

Jenseits des Zugangs zu Texten im Netz (u.a. durch Web-Crawling), ist
die (Vor-)Verarbeitung dieser (u.a. Web-Scraping) eine besondere
Herausforderung. In diesem Kurs beschäftigen wir uns unter anderem mit
diesen Fragen:

- Welche wissenschaftlichen und technischen Kriterien gelten für Webkorpora?
- Wie können HTML-Dokumente für die linguistische Forschung gesammelt
und erschlossen werden?
- Wofür eignen sich diese Daten und welche Fragen werfen diese Methoden auf?

Eine kurze theoretische Einführung wird uns die Kriterien zur Erstellung
von Webkorpora näher bringen und uns mit dem nötigen Vorwissen
ausstatten, um anschließend mit einer praktischen Übung zu fokussiertem
Crawling mit der Python-Bibliothek Trafilatura starten zu können. Diese
bietet eine integrierte Lösung für ein breites, auch
geisteswissenschaftlich motiviertes Publikum und beinhaltet folgende
Möglichkeiten: Entdeckung von Seitenkandidaten in Sitemaps und
Web-Feeds, Filterung von URLs und Crawl-Steuerung, Extraktion von Text
und Metadaten.

Anhand der gemeinsam gesammelten Texte und am Beispiel der Ermittlung
von Wortfrequenzen und Filterung von Lexemen werden wir dann
quantitative und qualitative Fragen der evidenzbasierten Forschung in
der "Webkorpuslinguistik" untersuchen und diskutieren.

Susanne Haaf und Adrien Barbaresi: DWDS und DTA

Donnerstag, 24. Juni 2021, Track A

DTA und DWDS: Korpora und Analysemöglichkeiten
Am Zentrum Sprache der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) sind die Korpora des Deutschen Textarchivs (DTA) und des Digitalen Wörterbuchs der Deutschen Sprache (DWDS) ansässig. Sie stellen bereits jetzt große und vielfältige Korpusressourcen dar, die stetig weiter anwachsen.

In diesem Modul erhalten die Teilnehmer*innen Einblicke in die Arbeit mit den historischen Korpora des DTA sowie in die gegenwartssprachlichen Korpora des DWDS.

Gezeigt und genutzt wird am Vormittag die Plattform des DTA. Dabei wird es um die zur Verfügung stehende Textauswahl, um Möglichkeiten der Recherche und des Filterns, um bereitgestellte Funktionalitäten und Tools des DTA sowie die Suchabfragesprache DDC gehen. Wir blicken aber darüber hinaus auch auf die verwendeten und nachnutzbaren Formate und einige Möglichkeiten der Datennutzung und Datenanalyse außerhalb des DTA.

Am Nachmittag wird dann das Angebot der gegenwartssprachliche Korpora im Zentrum der Betrachtung stehen. Dazu werden Ressourcen wie das ZDL-Regionalkorpus unddas WebXL-Korpus vorgestellt und die Abfragemöglichkeiten erörtert. Insbesondere werden die gezielte Suchsyntax und die möglichen statistischen Auswertungen auf der Plattform erklärt und erprobt, darunter Wortverlaufskurven, Kollokationen und Wortprofile.

Heike Zinsmeister: Annotation

Donnerstag, 24. Juni 2021, Track B

Annotationen von Wortarten und syntaktischen Dependenzstrukturen können mit relativ hoher Qualität automatisch erzeugt werden. Sie ermöglichen Generalisierungen über reine Wortformen und lineare Abfolgen hinaus, z.B. um gezielt adjektivische Modifikatoren von Nomen zu finden oder Kollokationen von Verben und ihren Argumenten, auch solchen, die nicht unmittelbar benachbart auftreten.

Um automatische Annotationen sinnvoll verwenden zu können, reicht es nicht aus, die technische Anwendung zu beherrschen. Man muss auch mit dem zugrundeliegenden Tagset und Eigenschaften des Annotationstools und ggf. der Trainingsdaten vertraut sein – falls das Tool auf maschinellem Lernen beruht.

Neben praktischen Übungen zum automatischen Annotieren mit dem Stuttgart-Tübingen-TagSet (STTS) und den Universal Dependencies (UD), werden die Teilnehmenen in diesem Modul daher auch Möglichkeiten der Evaluation und Interpretation der Annotation kennenlernen.

Für das Annotieren werden die Teilnehmenden Tools über die Online-Plattform WebLicht nutzen und zur Visualisierung der Annotationsergebnisse das Online-Tool Tündra.

Julia Krasselt, Kyoko Sugisaki, Michael Prinz: Historische Korpora

Freitag, 25. Juni 2021, Track A

In diesem Kurs erhalten die Teilnehmer*innen eine Einführung in die Arbeit mit historischen Korpora. Im Fokus stehen die spezifischen Herausforderungen bei der Arbeit mit historischen Sprachdaten – sowohl aus der Perspektive der Nutzung bestehender Korpora als auch aus der Perspektive der Korpuserstellung. Wir werden im Kurs mit ausgewählten historischen Korpora des Deutsche arbeiten, uns mit der Digitalisierung historischer Texte befassen und dabei Fragen wie die der Materialität, der Transkription, der Multimodalität und der linguistischen Verarbeitung (insbesondere Normalisierung und Tagging) thematisieren. Am Ende des Kurses erhalten die Teilnehmer*innen einen Einblick in aktuelle Forschungsarbeiten mit historischen Korpora, bei denen Methoden der natürlichen Sprachverarbeitung zum Einsatz kommen.

Simon Clematide: Distributionelle Semantik

Freitag, 25. Juni 2021, Track B

In diesem Kurs erhalten die Teilnehmenden eine Einführung in die Ideen, Methoden, Möglichkeiten und Grenzen von Verfahren zur automatischen Berechnung der Bedeutung von Wörtern aus Textkorpora. Ein erster Schwerpunkt liegt dabei auf den modernen vektorbasierten Verfahren, welche unter dem Namen "word embeddings" in der Computerlinguistik enorm populär geworden sind und für viele sprachtechnologische Anwendungen als Sprachrepräsentation zentral sind. Im zweiten Schwerpunkt geht es um folgende Fragen: Wie können Embeddings helfen, geisteswissenschaftliche Fragestellungen zu operationalisieren, beispielsweise für Bedeutungswandel? Welche Probleme lassen sich lösen? Welche Schwierigkeiten ergeben sich aus der Methode und ihrer Anwendung? Wie lassen sich Embeddings zur Repräsentation von Wortgruppen, Sätzen und Texten verwenden? Wie können auf dem Laptop eigene Word Embeddings effizient berechnet werden? Im letzten Teil werden fortgeschrittenere Embeddings-Techniken angesprochen, welche kontextualisierte Wortrepräsentationen berechnen. Theoretische Einführungen wechseln im Kurs mit praktischen Demos und Bearbeiten von kurzen Analyseaufgaben in Gruppen ab.