Endliche Automaten für die Sprachverarbeitung
PD Dr. Karin Haenelt
Hauptseminar Computerlinguistik
Universität Heidelberg
Sommersemester 2009
 
Mo 11.15 - 12.45
Im Neuenheimer Feld 325, SR 24
Beginn 30.03.2009
 


Welche Bedeutung haben Endliche Automaten für die Sprachverarbeitung?

Viele grundlegende Aufgaben der Sprachverarbeitung von der Zerlegung eines Textes in Wörter bis zur phonologischen und morphologischen Analyse, zur Rechtschreibkorrektur und zum flachem Parsing können mit endlichen Automaten und Transduktoren sehr effizient durchgeführt werden.
Grundlage ist die Spezifikation zugehöriger Lexika und Regelsysteme mit regulären Ausdrücken. Reguläre Ausdrücke können in endliche Automaten überführt werden.
Die Technik regulärer Ausdrücke und Methoden zur Erzeugung zugehöriger Automaten gehören zum Standard der Verarbeitung formaler Sprachen.
Für die Verarbeitung natürlicher Sprachen sind viele Erweiterungen erarbeitet worden. Mit diesen erweiterten Möglichkeiten lassen sich weitere Lexika, Regelsysteme, Analyse-, Synthese- und Transferoperationen als reguläre Ausdrücke spezifizieren. Insbesondere die Verknüpfung mit statistischen Komponenten ermöglicht nicht nur effiziente, sondern auch robuste Systeme. Daher gewinnt die Modellierung sprachlicher Mechanismen mit endlichen Automaten zunehmend an Bedeutung.

Kursziele

Im Seminar sollen die formalen Grundlagen, Anwendungsbeispiele und Implementierungen erarbeitet und vermittelt werden. Die Themengruppen sind:

Kursorganisation

Der Kurs besteht aus zwei Teilen. Den ersten Teil bildet eine Vorlesung, in der die grundlegenden Modelle, Methoden und Algorithmen erklärt werden. Den zweiten Teil bilden Seminarprojekte, in denen die Teilnehmenden die eingeführten Methoden an Beispielen anwenden und ihre Ergebnisse vorstellen.

Leistungsnachweis

Zum Erwerb eines Hauptseminarscheins sind folgende Leistungen zu erbringen:

Themenvorschläge für die Seminarprojekte stehen in der "Projektthemen".
Eine Beispiele stehen unter "frühere Referate".

Leitfaden zum Seminarprojekt: