Statistical Methods of Language Technology

Learning outcomes:
After attending this course, students are in a position to
- understand statistical methods for language processing in detail
- conduct methodological research in natural language processing
- analyze and evaluate the use of NLP in applications.
 
Contents:
This lecture gives detailed insights into statistical methods that are used in natural language processing systems. This includes supervised as well as unsupervised machine learning approaches in general, and methods for string and language processing in particular.

Key topics:
- Formal Languages and Automata
- Computational Morphology
- Sequence Tagging
- Topic Modelling
- Statistical Machine Translation
- Graph-Based Methods
- Distributional Semantics
- Word Senses and their Disambiguation
 
Course types/didactic concept:
- Lecture and Practice class with homework assignments.
- Assignments involve pen-and-pencil exercises, small programming exercises and application of existing software.

Language of instruction:
English, English materials.

Prerequisites for participation:
Required: No knowledge beyond general computer science on BA-level
Advantageous:
- introductory knowledge of machine learning
- introductory knowledge of statistics

Usability:

Type, prerequisite and language of examination:
- Written exam
- Language: English
- Prerequisite: 50% of homework assignments

Workload:

----

Statistical Methods of Language Technology

Lernziele:
Nachdem Studierende die Veranstaltung besucht haben, können sie
- statistische Methoden der Sprachtechnologie im Detail verstehen
- methodologische Forschung im Bereich Sprachtechnologie durchführen
- den Nutzen von NLP in Endanwendungen analysieren und evaluieren.
 
Inhalt:
Die Veranstaltung vermittelt detaillierte Einsichten in statistische Methoden, welche in sprachverarbeitenden Systemen eingesetzt werden. Dies beinhaltet generelle überwachte und unüberwachte Ansätze des maschinellen Lernens, sowie im Speziellen Methoden für Text- und Sprachverarbeitung.

Zentrale Inhalte:
- Formale Sprachen und Automaten
- Computer-Morphologie
- Sequenz-Tagging
- Topic Modelling
- Statistische Maschinelle Übersetzung
- Graph-Basierte Methoden
- Distributionelle Semantik
- Wortbedeutung und deren Disambiguierung
 
Lehrformen:
- Vorlesung und Übung mit Hausübungen
- Übungen beinhalten Bleistift-und-Papier-Aufgaben, kleine Programmieraufgaben und Anwendung existierender Software

Unterrichtssprache:
Englisch, englische Materialien.

Voraussetzungen für die Teilnahme:
Benötigt: Informatikausbildung auf BA-Niveau
Von Vorteil:
- Basiswissen maschinelles Lernen
- Basiswissen Statistik


Art, Voraussetzungen und Sprache der(Teil)- Prüfung:
- Schriftliche Prüfung
- Sprache: Englisch
- Voraussetzung: 50% der Übungspunkte