Parsing
PD Dr. Karin Haenelt
Hauptseminar Computerlinguistik
Universität Heidelberg
Sommersemester 2003
Kursbeschreibung
Startseite Themen Kursskripten Literatur Links Online-Texte Referate


Teil 1: Vorlesung
Teil 2: Seminarprojekte
Beschreibung der Themen
Beschreibung der Seminarprojekte

Teil 1: Vorlesung

Einführung

(1) Parsing. Übersicht und Kurskonzept. Folien: html, pdf, pdf:2, pdf:6, ppt

Endliche Automaten

(2) Flaches Parsing mit endlichen Automaten. Folien: ps:6, Kurs: Kursseiten
(3) Endliche Automaten: deterministische Automaten, nicht-deterministische Automaten und Automaten mit Epsilon-Übergängen Folien: html, pdf, pdf:2, pdf:6, ppt
Literatur: html, pdf, pdf:2, pdf:6, ppt
(3) Reguläre Ausdrücke Folien: html, pdf, pdf:2, pdf:6, ppt
(4) Transduktoren Folien: html, pdf, pdf:2, pdf:6, ppt
(5) Endliche Automaten: Datenstrukturen und Algorithmen Folien: html, pdf, pdf:2, pdf:6, ppt
(6) Implementierung endlicher Automaten und Transducer in Java Folien: html, pdf, pdf:2, pdf:6, ppt

Wahrscheinlichkeitstheorie

(7) Grundlagen der Wahrscheinlichkeitstheorie Grundlagen (2000) ps:4, html, ppt
Grundlagen & Sprachverarbeitung (2002) html, pdf, pdf:2, pdf:6, ppt

Probabilistische Endliche Automaten

(8) Hidden Markov Models Folien: htm, pdf, pdf:2, pdf:6, ps:2, ps:6, ppt
(9) Forward Algorithmus Folien: htm, pdf, pdf:2, pdf:6, ps:2, ps:6, ppt
(10) Viterbi-Algorithmus Folien: htm, pdf, pdf:2, pdf:6, ps:2, ps:6, ppt
Tutorial: pdf, ps:2, doc

Komplexität menschlicher Sprache

(11) Komplexität menschlicher Sprache Folien: ps:2

Tagging

(12) Ansätze des Tagging (Part-of-Speech und Konstituenten)
(13) Grammatikstrukturen und Tag-Sets

Chunking, Chunk Attachment, Chunk Linking und Clause Bracketing

(14) Chunking
(15) Chunk Attachment und Chunk Linking
(16) Clause-Bracketing

Parsing-Algorithmen für kontextfreie Grammatiken

(17) Earley-Algorithmus Folien: html, ps:2, ps:6, ppt
Tutorial: pdf, pdf:2, ps:1, ps:2, doc
(18) Cocke-Kasami-Younger-Algorithmus Folien: ps
(19) Robustes Parsing mit Algorithmen für kontextfreie Grammatiken

Probabilistisches Parsing mit Algorithmen für kontextfreie Grammatiken

(20) Probabilistische kontextfreie Grammatiken
(21) Probabilistisches Parsing mit kontextfreien Grammatiken

Komplexität

(22) Die O-Notation Folien: html, pdf, pdf:2, pdf:6, ps:2, ps:6, ppt
(23) Komplexität des Earley-Algorithmus Folien: html, pdf, pdf:2, pdf:6, ps:2, ps:6, ppt

Teil 2: Seminarprojekte

Endliche Automaten

(P01) Morphologie mit endlichen Automaten
(P02) Flaches Parsing mit endlichen Automaten
(P03) (Java-)Werkzeuge zur Entwicklung endlicher Automaten
(P04) Implementierung und experimentelle Anwendung endlicher Automaten

Probabilistische Endliche Automaten

(P05) Aufbau und Training von Hidden Markov Models
(P06) Implementierung und Test des Viterbi-Algorithmus

Tagging

(P07) Ansätze des Tagging
(P08) Fallstudie: Grammatikstrukturen und Kategorien für das Tagging, Chunking und Clause-Bracketing. Eine vergleichende Anwendung von Grammatikmodellen und Tag-Sets.

Chunking, Chunk Attachment und Chunk Linking

(P09) Chunking
(P10) Chunk Linking und Chunk Attachment
(P11) Clause Bracketing

Parsing-Algorithmen für kontextfreie Grammatiken

(P12) Robustes Parsing mit Parsing-Algorithmen für kontextfreie Grammatiken

Parsing-Algorithmen für probabilistische kontextfreie Grammatiken

(P13) Probabilistische kontextfreie Grammatiken
(P14) Parsing mit probabilistischen kontextfreien Grammatiken

Beschreibung der Themen

1. Übersicht und Kurskonzept

Beschreibung:

1.1 Traditionelles Parsing

"Traditional parsers - including standard stochastic parsers - aim to recover complete, exact parses. They make a closed-world assumption, to wit, that the grammar they have is complete, and search through the entire space of parses defined by that grammar, seeking the globally best parse. As a result, and notwithstanding 'clean-up' strategies that are sometimes applied to salvage failed parses, they do not well at identifying good phrases in noisy surroundings." (Abney, Part-of-Speech Tagging and Partial Parsing, 1996)

1.2 Partielles Parsing

"Unrestricted text is noisy, both because of errors and because of the unavoidable incompleteness of lexicon and grammar. It is also difficult to do a global search efficiently with unrestricted text, because of the length of sentences and the ambiguity of grammars. Partial parsing is a response to these difficulties. Partial parsing techniques aim to recover syntactic information efficiently and reliably from unrestricted text, by sacrificing completeness and depth of analysis." (Abney, Part-of-Speech Tagging and Partial Parsing, 1996)

Die Standardoperationen im partiellen Parsing sind:

part-of-speech-tagging Wörter mit Zuordnung einer Wortart
chunking Chunks mit Zuordnung einer Chunk-Kategorie.
Chunks: nicht-rekursive Kerne der Hauptphrasen vom Anfang der Konstituente bis zum Kopf, ohne dem Kopf nachgestellte Attribute).
Chunk-Kategorien: NX, VX, INF, VGX, VNX, AX, RX.
(Hauptphrasen: NP, VP, PP, AP, AdvP)
(Abney, 1996, Chunk Stylebook)
clause bracketing Sätze und Teilsätze mit Zuordnung einer Kategorie

Darüberhinaus sind weitere interpretierende Operationen vorgestellt worden:

chunk attachment Identifikation weiterer Zuordnungsinformation (z.B. Köpfe von Präpositionalphrasen, postnominale Nominalattribute, Relativsätze), Verbindung der Chunks mit weiteren Knoten und Kanten; weitere Annäherung an Standardgraphen
chunk linking Identifikation von Satzfunktionen (z.B. Subjekt - Prädikat) und Herstellung der Verbindung zwischen den Einheiten

1.3 Implementierungsmethoden des partiellen Parsing

Grundlegende Techniken des partiellen Parsings sind endliche Automaten und stochastische Verfahren. Diese werden in unterschiedlichen Architekturen in unterschiedlichen Kombinationen verwendet.

Literatur:

Abney, Steven (1996)
Part-of-Speech Tagging and Partial Parsing. In: Church, Ken; Young, Steve; Bloothooft, Gerrit(eds.) Corpus-Based Methods in Language and Speech. Dordrecht: Kluwer Academic Publishers. http://citeseer.nj.nec.com/abney96partspeech.html
Vergne, Jacques (2000)
Tutorial: Trends in Robust Parsing. Coling 2000.

2. Flaches Parsing mit endlichen Automaten

Literatur:

Abney, Steven (1996)
Partial Parsing via Finite-State Cascades. In: Workshop on Robust parsing, 8th European Summer School in Logic, Language and Information (ESSLLI). Prag, 1996, S. 8-15. http://citeseer.nj.nec.com/abney96partial.html und Web-Seite: Steven Abney: Papers
Ait-Mokhtar, Salah; Chanod, Jean-Pierre (1997)
Incremental Finite State Parsing. In: ANLP'97 citeseer.nj.nec.com/ait-mokhtar97incremental.html
Grefenstette, Gregory (1999)
Light Parsing as Finite State Filtering. In: Kornai 1999, S. 86-94. frühere Version: In: Workshop on Extended finite state models of language, Budapest, Hungary, Aug 11--12, 1996. ECAI'96." http://citeseer.nj.nec.com/grefenstette96light.html
Kornai, András (Hrsg.) (1999)
Extended Finite State Models of Language. (Studies in Natural Language Processing). Cambridge: Cambridge University Press.

3. Endliche Automaten: deterministische Automaten, nicht-deterministische Automaten und Automaten mit Epsilon-Übergängen

Literatur:

Hopcroft, John E. und Jeffrey D. Ullman (1988)
Einführung in die Automatentheorie, formale Sprachen und Komplexitätstheorie. Bonn u. a. : Addison-Wesley, 1988 (engl. Original Introduction to automata theory, languages and computation). [Anm.: Diese Fassung enthält die Beweise, die zugleich die Algorithmen zur Transformation der Automaten sind]
Hopcroft, John E. Rajeev Motwani und Jeffrey D. Ullman (2001)
Introduction to Automata Theory, Languages and Computation. Addison-Wesley. www-db.stanford.edu/~ullman/ialc.html [modernisierte Ausgabe, aber ohne Beweise]

4. Endliche Automaten: Transduktoren

Literatur:

Mohri, Mehryar (1997)
Finite State Transducers in Language and Speech Processing. In: Computational Linguistics, 23, 2, 1997, S. 269-311. citeseer.nj.nec.com/mohri97finitestate.html
XEROX Finite State Compiler
www.xrce.xerox.com/competencies/content-analysis/fsCompiler/fsnetwork.html
Xerox Finite State Compiler
http://www.xrce.xerox.com/competencies/content-analysis/fsCompiler/fsinput.html

5. Endliche Automaten: Datenstrukturen und Algorithmen

Literatur:

vgl. 3. und 4.

C. Fox (1992)
Lexical Analysis and Stoplists. In: Bill Frakes und Ricardo Baeza-Yates (eds.): Information Retrieval. Data Structures and Algorithms. Englewood Cliffs, N.J.: Prentice Hall. Site.es: Table of Contents and Source Code, Site.cl: Table of Contents and Source Code

6. Implementierung endlicher Automaten und Transducer in Java

Literatur:

Haenelt, Karin (2002)
Java & Sprachtechnologie. Kursentwurf. kontext.fraunhofer.de/haenelt/kurs/Java/
Ladd, Scott Robert (1997)
Java Algorithms. New York etc.: McGraw-Hill. (Chapter 7: Finite State Machines and Evolving Software) + CD-ROM.

7. Grundlagen der Wahrscheinlichkeitstheorie

Literatur:

Schickinger, Thomas und Angelika Steger (2001)
Diskrete Strukturen. Band 2: Wahrscheinlichkeitstheorie und Statistik. Heidelberg: Springer.

8. Hidden Markov Models

Literatur:

Manning, Christopher; Schütze, Hinrich (1999)
Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 9: Markov Models. vgl.: http://www-nlp.stanford.edu/fsnlp/promo und http://www-nlp.stanford.edu/fsnlp/hmm-chap

9. Forward-Algorithmus

Literatur:

Manning, Christopher; Schütze, Hinrich (1999)
Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 9: Markov Models, Kap. 10: Part-of-Speech Tagging. vgl.: http://www-nlp.stanford.edu/fsnlp/promo und http://www-nlp.stanford.edu/fsnlp/hmm-chap, http://www-nlp.stanford.edu/fsnlp/tagging

10. Viterbi-Algorithmus

Literatur:

Allen, James (1995)
Natural Language Understanding. 2nd edition. Addison-Wesley Publishing Co. Kap. 7 S. 189ff
Manning, Christopher; Schütze, Hinrich (1999)
Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 10: Part-of-Speech Tagging. vgl.: http://www-nlp.stanford.edu/fsnlp/promo und http://www-nlp.stanford.edu/fsnlp/tagging
Viterbi, Andrew J. (1967)
Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. In: IEEE Transactions on Information Theory IT-13, S. 1260-1269.

11. Komplexität menschlicher Sprache

12. Ansätze des Tagging (Part-of-Speech und Konstituenten)

Beschreibung:

Die Funktion eines linguistischen Taggers ist es, Wörtern oder Wortfolgen eines Textes linguistische Information zuzuordnen, durch Tags zu repräsentieren und diese in den Text einzufügen. Meist handelt es sich um die Zuordnung von Wortart-Information (Parts-of-Speech) zu einzelnen Wörtern. Es gibt aber auch Zuordnungen syntaktischer und semantischer Auszeichnungen oder kombinierte Zuordnungen.

Bei der Verarbeitung werden meist statistische Verfahren und endliche Automaten je einzeln oder in Kombination (z.B. Hidden Markov Models) eingesetzt. Dabei wird in gewissem Maße Kontextinformation berücksichtigt.

Das Part-of-Speech Tagging ist nach der Zerlegung in Token meist die zweite Aufgabeneinheit des robusten Parsens. Das Ergebnis kann entweder zum regelbasierten Parsen (an Stelle oder zusammen mit einer morphologischen Analyse) oder als Vorstufe des Chunking und für weitere Aufgaben verwendet werden. Tagging-Verfahren werden in sequentiellen und in integrierten Architekturen verwendet.

Zur Zeit werden für verschiedene Corpora und Sprachen noch sehr unterschiedliche Tag-Sets verwendet.

Die Unterscheidung von Aufgaben, Ansätzen und die Betrachtung als abgegrenzte Teilaufgabe sind nicht strikt zu verstehen.

Ansätze:

Tagger:

Brill-Tagger
Brill, Eric
A supervised Part-of-Speech Tagger. ftp://ftp.cs.jhu.edu/pub/brill/Programs/RULE_BASED_TAGGER_V.1.14.tar.Z
Brill, Eric
An unsupervised Part-of-Speech Tagger. ftp://ftp.cs.jhu.edu/pub/brill/Programs/UNSUP_TAGGER_V.0.8.tar.gz
XEROX-Tagger
Cutting, Doug; Kupiec, Julian; Pedersen, Jan; Sibun, Penelope (1992)
An practical Part-of-Speech Tagger.In: Proceedings of the Thord Conference on Applied Natural Language Processing'92 ftp://parcftp.xerox.com/pub/tagger/anlp92.ps
Common LISP-Implementierung: ftp://parcftp.xerox.com/pub/tagger
MULTEXT-Tagger
Armstrong, Susan; Russell, Graham; Petitpierre, Dominique; Robert, Gilbert (1995)
An Open Architecture for Multilingual Text-Processing. In: EACL 1995, SIGDAT Workshop, S. 30-34.
Tagger: http://issco-www.unige.ch/projects/MULTEXT.html (nicht mehr verfügbar ?)
Tatoo
Robert, Gilbert (1994-1998)
Tatoo - ISSCO Tagger Tool. http://issco-www.unige.ch/staff/robert/tatoo/tatoo.html
TnT
Brants, Thorsten
TnT - A Statistical Part-of-Speech Tagger. http://www.coli.uni-sb.de/~thorsten/tnt

Literatur:

Abney, Steven (1996)
Part-of-Speech Tagging and Partial Parsing. In: Church, Ken; Young, Steve; Bloothooft, Gerrit(eds.) Corpus-Based Methods in Language and Speech. Dordrecht: Kluwer Academic Publishers. http://citeseer.nj.nec.com/abney96partspeech.html
Bahl, L.R. und R. Mercer (1976)
Part-of-Speech Assignment by a Statistical Decision Algorithm. In: International Symposium on Information Theory. Ronneby, Schweden.
Brants, Thorsten
TnT - A Statistical Part-of-Speech Tagger ps, pdf
Brants, Thorsten, Wojiciech Skut und Brigitte Krenn (1997)
Tagging Grammatical Functions. In: Proceedings of the Second Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, Somerset, New Jersey. ed. by Claire Cardie und Ralph Weischedel, S. 64--74. http://citeseer.nj.nec.com/brants97tagging.html
Brill, Eric
Artikel
Brill, Eric (1995)
Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging. In: Computational Linguistics volume 21, 4, 543-565. http://citeseer.nj.nec.com/brill95transformationbased.html
Brill, Eric (1993)
Automatic Grammar Induction and Parsing Free Text: A Transformation-Based Approach. In: Meeting of the Association for Computational Linguistics http://citeseer.nj.nec.com/brill93automatic.html
Brill, Eric (1992)
A Simple Rule-Based Part Of Speech Tagger. In: Proceedings of ANLP-92, 3rd Conference on Applied Natural Language Processing. http://citeseer.nj.nec.com/brill92simple.html
Church, Kenneth W. (1993)
Introduction to the Special Issue on Computational Linguistics using Large Corpora. In: Computational Linguistics, 19(1):1-24.
Church, Kenneth W. (1988)
A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text. In: Proceedings of the Second Conference on Applied Natural Language Processing. Austin, Texas.
Derouault, A.M. und Merialdo, Bernard (1984)
Language Modelling at the Syntactic Level. In: Proceedings of the 7th International Conference on Pattern Recognition.
Karlsson, Fred; Voutilainen, Atro; Heikkila, Juha; Anttila, Arto (1995) (eds.):
Constraint Grammar. Berlin: Mouton de Gruyter.
Karlsson Fred (1990)
Constraint Grammar as a Framework for Parsing Running Text. In: COLING, 168-173.
Merialdo, Bernard (1994)
Tagging English Text with a Probabilistic Model. In: Computational Linguistics, 20 (2): 155-172.
Ramshaw, Lance A.; Marcus, Mitchell, P. (1995)
Text Chunking Using Transformation-Based Learning. In: Proceedings of the Third Annual ACL-Workshop on Very Large Corpora, Cambridge MA, USA S. 82-94. ftp://ftp.cis.upenn.edu/pub/chunker/wvlcbook.ps.gz, http://citeseer.nj.nec.com/ramshaw95text.html
Schmid, Helmut (1995)
Improvements in part-of-speech tagging with an application to German. In: Feldweg and Hinrichs, eds., Lexikon und Text, pp. 47-50." citeseer.nj.nec.com/schmid95improvement.html
Voutilainen, Atro (1995)
A syntax-based Part-of-Speech Analyser. In: EACL 1995
Voutilainen, Atro; Heikkila, Juha; Anttila, Arto (1992)
Constraint Grammar of English. A performance-oriented Introduction. Technical Report Publication No 21. University of Helsinki, Department of General Linguistics. Helsinki.

13. Grammatikstrukturen und Tag-Sets

Beschreibung:

Unterschiedliche Ansätze arbeiten zur Zeit noch mit unterschiedlichen Tagsets für unterschiedliche Aufgaben, Corpora und Sprachen. Das Problem der Kategorisierung ist noch nicht gelöst.

Literatur:

Abney, Steven (1996)
Chunk Stylebook. Working Draft. http://www.sfs.nphil.uni-tuebingen.de/~abney/96i.ps.gz
Bies, Ann; Ferguson, Mark; Katz, Karen and Robert MacIntyre (1995) with contributions from Victoria Tredlinnick, Grace Kim, Mary Ann Marcinkiewicz, Britta Schæberger
Bracketing Guidelines for the Treebank II Style. ftp://ftp.cis.upenn.edu/pub/treebank/doc/manual/root.ps.gz
Marcus, Mitchell P. und Beatrice Santorini (1993)
Building a large annotated corpus of English: the Penn Treebank. In: Computational Linguistics 19, 2, 313-330. http://citeseer.nj.nec.com/marcus93building.html
Ramshaw, Lance A. and Mitchell P. Marcus(1995)
Text Chunking Using Transformation-Based Learning. In: Proceedings of the Third ACL Workshop on Very Large Corpora, Cambridge MA, USA, 1995.
ftp://ftp.cis.upenn.edu/pub/chunker/wvlcbook.ps.gz, http://citeseer.nj.nec.com/ramshaw95text.html
Santorini, Beatrice (1991)
Bracketing Guidelines for the Penn Treebank Project. (used until 12/92) ftp://ftp.cis.upenn.edu/pub/treebank/doc/old-bktguide.ps.gz
Santorini, Beatrice (1990)
Part-of-Speech Tagging Guidelines for the Penn Treebank Project. ftp://ftp.cis.upenn.edu/pub/treebank/doc/tagguide.ps.gz
Schiller, A.; Teufel, S.; Thielen, C. (1995)
Guidelines für das Tagging deutscher Textcorpora mit STTS. http://www.sfs.nphil.uni-tuebingen.de/Elwis/stts/stts-guide.ps.gz
Voutilainen, Atro; Jarvinen, Timo (1995)
Specifying a Shallow Grammatical Representation for Parsing Purposes. In: EACL 1995.

14. Chunking

Beschreibung:

Chunks sind die syntaktischen Grund-Einheiten mit denen im robusten partiellen Parsing großer Textcorpora gearbeitet wird. Die Einheiten werden im Detail je nach Ansatz unterschiedlich definiert. Gemeinsam ist den computerlinguistischen Definitionen die Anforderung der zuverlässigen und rein syntaktischen Erkennbarkeit. Psycholinguistische Definitionen nehmen chunks als kognitiv relevante Verarbeitungseinheiten an.

Gee/Grosjean 1983 performance structures pause durations in reading, naive sentence diagramming;
"Children | who , attend ; regularly || appreciate ; lessons | greatly"
(nach Abney, Chunks and Dependencies, 1995)
  φ-phrases breaking the input string after each syntactic head that is a content word (with the exception that function words syntactically associated with a preceeding content word - in particular, object pronouns - group with the preceeding content word).
(nach Abney, Chunks and Dependencies, 1995)
Church 1988 [ ] Klammerung von parts-of-speech-Folgen zu Nominalgruppen
Abney 1996 chunk the non-recursive core of an intra-clausal constituent, extending from the beginning of the constituent to its head, but not including post-head dependents.
"In marking chunks we are interested only in their category and start and end point."
(Chunk Stylebook)
"The goal is to write patterns that are reliable indicators of bits of syntactic structure, even if these bits of structures are "boundaries" or "kernels" rather than traditional phrases."
(Partial Parsing via Finite-State Cascades)
   
  • correspond in some way to prosodic patterns
    • strongest stresses in the sentence fall one to a chunk
    • pauses are most likely to fall between chunks
  • grammatical watershed of sorts
    • typical chunk consists of a single content word surrounded by a constellation of function words
    • simple context-free grammar is quite adequate to describe the structure of chunks
  • relationships between chunks
    • are mediated more by lexical selection than by rigid templates
  • co-occurrence of chunks
    • is determined not just by their syntactic categories
    • is sensitive to the precise words that head them
  • order
    • in which chunks occur is much more flexible
    • than the order of words within chunks
(Parsing by Chunks)
    [VGX according] to [NX the latest figures] (Chunk Stylebook, 1996)
Tjong Kim Sang 2000 chunks http://cnts.uia.ac.be/conll2000/chunking/
"Text chunking consists of dividing a text in syntactically correlated parts of words. ...Text chunking is an intermediate step towards full parsing."
[NP He ] [VP reckons ] [NP the current account deficit ] [VP will narrow ] [PP to ] [NP only # 1.8 billion ] [PP in ] [NP September ]

Literatur:

Abney, Steven (1996)
Partial Parsing via Finite-State Cascades. In: Workshop on Robust parsing, 8th European Summer School in Logic, Language and Information (ESSLLI). Prag, 1996, S. 8-15. http://citeseer.nj.nec.com/abney96partial.html und Web-Seite: Steven Abney: Papers
Abney, Steven (1991)
Parsing By Chunks. In: Robert Berwick and Steven Abney and Carol Tenny, Principle-Based Parsing, Kluwer Academic Publishers, 1991.
http://whorf.sfs.nphil.uni-tuebingen.de/~abney/Abney_90e.ps.gz
Abney, Steven (1996)
Chunk Stylebook. Working Draft. http://www.sfs.nphil.uni-tuebingen.de/~abney/96i.ps.gz
Church, Kenneth W. (1988)
A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text. In: Proceedings of the Second Conference on Applied Natural Language Processing. Austin, Texas.
Dreyer, Markus
Syntaktisches Parsing zur prosodischen Merkmalsgenerierung. Magisterarbeit. Universität Heidelberg. Februar 2002. http://www.coling.de/markus/thesis/
Gee, James Paul; Grosjean, Francois (1983)
Performance Structures: A Psycholinguistic and Linguistic Appraisal. In: Cognitive Psychology 15, S. 411-485.
Ramshaw, Lance A. and Mitchell P. Marcus(1995)
Text Chunking Using Transformation-Based Learning. In: Proceedings of the Third ACL Workshop on Very Large Corpora, Cambridge MA, USA, 1995.
ftp://ftp.cis.upenn.edu/pub/chunker/wvlcbook.ps.gz, http://citeseer.nj.nec.com/ramshaw95text.html
Skut, Wojciech und Thorsten Brants (1998)
A Maximum-Entropy Partial Parser for Unrestricted Text. In Proceedings of the 6th ACL Workshop on Very Large Corpora (WVLC), pages 143--151, Montr'eal, Canada. http://citeseer.nj.nec.com/skut98maximumentropy.html
Tjong Kim Sang, Erik F. und Sabine Buchholz (2000)
Introduction to the CoNLL-2000 Shared Task: Chunking. In: Proceedings of the Fourth Conference on Computational Language Learning (CoNLL 2000)and the Second Learning Language in Logic Workshop (LLL 2000). 13 und 14 September 2000 in Lissabon, Portugal. http://lcg-www.uia.ac.be/conll2000/ps/12732tjo.ps, http://lcg-www.uia.ac.be/conll2000/pdf/12732tjo.pdf
Tjong Kim Sang, Erik F. (2000)
Chunking. http://lcg-www.uia.ac.be/conll2000/chunking/
Tjong Kim Sang, Erik F. (2000)
NP Chunking. http://lcg-www.uia.ac.be/~erikt/research/np-chunking.html
CoNLL-2000 & LLL-2000,
Claire Cardie (CoNLL), Walter Daelemans (CoNLL), Claire Nédellec (LLL) and Erik Tjong Kim Sang (CoNLL) (eds).
Proceedings of the Fourth Conference on Computational Language Learning (CoNLL-2000) and the Second Learning Language in Logic Workshop were held on 13 and 14 September 2000 in Lisbon, Portugal. http://lcg-www.uia.ac.be/conll2000/proceedings.html
Voutilainen, Atro (1993)
NPtool, a detector of English noun phrases. In: Proceedings of the Workshop on Very Large Corpora 48-57.

15. Chunk Attachment und Chunk Linking

Beschreibung:

Chunk Attachment und Chunk Linking sind interpretierende Operationen, die Zusammenhänge zwischen Chunks ermitteln und die Ergebnisstruktur weiter anreichern:

chunk attachment Identifikation weiterer Zuordnungsinformation (z.B. Köpfe von Präpositionalphrasen, postnominale Nominalattribute, Relativsätze), Verbindung der Chunks mit weiteren Knoten und Kanten; weitere Annäherung an Standardgraphen
chunk linking Identifikation von Satzfunktionen (z.B. Subjekt - Prädikat) und Herstellung der Verbindung zwischen den Einheiten

Literatur:

Abney, Steven (1991)
Parsing By Chunks. In: Robert Berwick and Steven Abney and Carol Tenny, Principle-Based Parsing, Kluwer Academic Publishers, 1991.
http://whorf.sfs.nphil.uni-tuebingen.de/~abney/Abney_90e.ps.gz
Dreyer, Markus
Syntaktisches Parsing zur prosodischen Merkmalsgenerierung. Magisterarbeit. Universität Heidelberg. Februar 2002. http://www.coling.de/markus/thesis/
Grefenstette, Gregory
Light Parsing as Finite State Filtering. In: Kornai 1999, S. 86-94
Vergne, Jacques (2000)
Tutorial: Trends in Robust Parsing. Coling 2000.

16. Clause Bracketing

Beschreibung:

Clause Bracketing ist die Ermittlung von Teilsätzen und Sätzen und die entsprechende Auszeichnung des Corpus. Je nach Ansatz wird diese Operation vor dem Chunking, zusammen mit dem Chunking oder nach dem Chunking durchgeführt.

Literatur:

Ejerhed, Eva (1999) (1996)
Finite State Segmentation of Discourse into Clauses. In: Proceedings of the Ecai '96 Workshop on Extended finite state models of language http://www.metacarta.com/kornai/ECAI/ejerhed.html
auch in: Kornai, András (Ed.) (1999) Extended Finite State Models of Language. (Studies in Natural Language Processing). Cambridge: Cambridge University Press.
Ejerhed, Eva (1998)
Finding Clauses in Unrestricted Text by Finitary and Stochastic Methods . In: Proceedings of Second Conference on Applied Natural Language Processing, S. 219-227.

17. Earley-Algorithmus

Literatur:

Earley, Jay (1970)
An Efficient Context-Free Parsing Algorithm. In: Communications of the ACM, 6 (8), 451-455
Haenelt, Karin (2001)
Der Earley-Algorithmus. Eine Erläuterung der formalen Spezifikation mit linguistischen Beispielen. Kursskript. 25.07.2001. 15 S. pdf, pdf:2, ps:1 ps:2 doc

18. Cocke-Kasami-Younger-Algorithmus

Literatur:

Hopcroft, John E. und Jeffrey D. Ullman (1988)
Einführung in die Automatentheorie, formale Sprachen und Komplexitätstheorie. Bonn u. a. : Addison-Wesley, 1988 (engl. Original Introduction to automata theory, languages and computation).
Hopcroft, John E. Rajeev Motwani und Jeffrey D. Ullman (2001)
Introduction to Automata Theory, Languages and Computation. Addison-Wesley. www-db.stanford.edu/~ullman/ialc.html

19. Robustes Parsing mit Algorithmen für kontextfreie Grammatiken

Literatur:

Stolcke, Andreas
An Efficient Probabilistic Context-Free Parsing Algorithm that Computes Prefix Probabilities. Computational Linguistics, 21, 2, S. 165-201.
Woods, William A. (1985)
Language Processing for Speech Understanding. In: Woods, William A.; Fallside, Frank (eds.): Computer Speech Processing. Prentice-Hall International (UK) Ltd.
auch in: Waibel, Alex; Lee, Kai-Fu (1990) (Hrsg.): Readings in Speech Recognition. San Mateo, Ca.: Morgan Kaufmann. S.519-533.

20. Probabilistische kontextfreie Grammatiken

Literatur:

Charniak, Eugene (1997)
Statistical Techniques for Natural Language Parsing. In: AI Magazine (cf. http://www.cs.brown.edu/people/ec/papers/aimag97.ps)
Charniak, Eugene (1993)
Statistical Language Learning.MIT Press.
Manning, Christopher; Schütze, Hinrich (1999)
Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 11: Probabilistic Context Free Grammars und Kap. 12: Probabilistic Parsing. vgl.: http://www-nlp.stanford.edu/fsnlp/promo http://www-nlp.stanford.edu/fsnlp/pcfg, http://www-nlp.stanford.edu/fsnlp/probparse und

21. Probabilistisches Parsing mit kontextfreien Grammatiken

vgl. 20

22. Die O-Notation

Literatur:

Barton Jr., G. Edward; Berwick, Robert, C. und Eric Sven Ristad (1987)
Computational Complexity and Natural Language. MIT Press.
Standish, Thomas A.(1998)
Data Structures in Java. Addison Wesley Longman. Appendix B: The Language of Efficiency.

23. Komplexität des Earley-Algorithmus

Literatur:

Earley, Jay (1970)
An Efficient Context-Free Parsing Algorithm. In: Communications of the ACM, 6 (8), 451-455

Beschreibung der Seminarprojekte

P01. Morphologie mit endlichen Automaten

Aufgabe:

Es soll die Modellierung einer morphologischen Analyse (und ggf. Generierung) mit endlichen Automaten prototypisch erarbeitet und vorgestellt werden. Die Bearbeitung kann je nach Schwerpunkt durch konzeptuelle Erarbeitung und/oder Implementierung erfolgen.

Literatur:

Jurafsky, Daniel; Martin James H. (2000)
Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Upper Saddle River, N.J.: Prentice Hall. Kap. 3 Morphology and Finite-State Transducers.
GERTWOL
http://www.lingsoft.fi/cgi-bin/gertwol
Koskenniemi, Kimmo (1983)
Two-level morphology: A general computational model of word-form recognition and production. Technical Report. Publication No. 11. Department of General Linguistics. University of Helsinki.
Weinrich, Harald; unter Mitarb. v. Maria Thurmair, Eva Breindl, Eva-Maria Willkop (1993)
Textgrammatik der deutschen Sprache. Mannheim, Leipzig, Wien, Zürich: Duden Verlag.

P02. Flaches Parsing mit endlichen Automaten

Aufgabe:

Entwicklung regulärer Ausdrücke und Implementierung eines endlichen Automaten zur Wortklassenauszeichnung, zur Markierung von Nominal- und Verbal-Gruppen, zur Markierung der Köpfe phrasaler Einheiten, zum Filtern syntaktischer Funktionen. Diese Aufgabe entspricht der Variante der Implementierung flachen Parsings durch endliche Automaten (mit einer Kaskade, die dem Tokenizing, Chunking und Chunk-Linking entspricht). Die Implementierung kann mit Flex, JLex, Perl oder mit einem eigenen Automaten(generator) erfolgen.

Literatur:

Grefenstette, Gregory (1999)
Light Parsing as Finite State Filtering. In: Kornai 1999, S. 86-94. frühere Version: In: Workshop on Extended finite state models of language, Budapest, Hungary, Aug 11--12, 1996. ECAI'96." http://citeseer.nj.nec.com/grefenstette96light.html

P03. Java-Werkzeuge zur Entwicklung endlicher Automaten

Aufgabe:

Für das Arbeiten mit endlichen Automaten / Transducern sind mehrere Werkzeug-Systeme entwickelt und im Internet bereitgestellt worden. Solche Systeme transformieren z.B. reguläre Ausdrücke in Automaten, oder Automaten mit Epsilon-Übergängen in epsilonfreie Automaten, nicht-deterministische Automaten in deterministische Automaten, erzeugen minimale Automaten etc. Im Projekt sollen solche Werkzeuge ermittelt werden (vorzugsweise in Java). Sie sollen installiert und getestet werden. Die Algorithmen (soweit möglich) und die Testergebnisse sollen vorgestellt werden. Es soll eine Web-Seite mit Links erstellt werden.

P04. Implementierung und experimentelle Anwendung endlicher Automaten

Aufgabe:

Es sollen Formalismen und/oder Werkzeuge für endliche Automaten (z.B. Java-Klassen) entwickelt und prototypisch für linguistische Aufgaben angewendet werden.

P05. Aufbau und Training von Hidden Markov Models

Aufgabe:

Es soll ein Prototyp entwickelt werden, der aus einem annotierten Corpus ein Hidden Markov Model aufbaut. Dieser Prototyp soll ggf. als Komponente des Viterbi-Systems in Projekt P06 verwendet werden.

Literatur:

Manning, Christopher; Schütze, Hinrich (1999)
Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 9: Markov Models, Kap. 10: Part-of-Speech Tagging. vgl.: http://www-nlp.stanford.edu/fsnlp/promo http://www-nlp.stanford.edu/fsnlp/hmm-chap, http://www-nlp.stanford.edu/fsnlp/tagging und

P06. Implementierung und Test des Viterbi-Algorithmus

Aufgabe:

ggf. in Zusammenarbeit mit Projekt P05

Literatur:

Manning, Christopher; Schütze, Hinrich (1999)
Foundations of Statistical Natural Language Processing. Cambridge, Mass., London: The MIT Press, Kap. 9: Markov Models, Kap. 10: Part-of-Speech Tagging. vgl.: http://www-nlp.stanford.edu/fsnlp/promo und http://www-nlp.stanford.edu/fsnlp/tagging

vgl. 10. Der Viterbi-Algorithmus

P07. Ansätze des Tagging

Aufgabe

Literatur und Systeme:

vgl. 12. Tagging

P08. Fallstudie: Anwendung von TagSets

Aufgabe

Es sollen Untersuchungen zur Corpusannotation angestellt werden. Dabei sollen Beispieltexte ausgewählt und mit verschiedenen Attributen annotiert werden. Es soll z.B. untersucht werden, ob eine bestimmte Menge von Attributen zur Abdeckung des Corpus hinreichend ist (oder gibt es Phänome, für die kein echtes Attribut vorgesehen ist), ob diese Menge voll- oder teilautomatisch zugeordnet werden kann und welche intellektuelle Bearbeitung erforderlich ist, und für welche Anwendungen die Auszeichnungen von Nutzen sein könnten. Es können verschiedene Attributmengen, die speziell für die Corpusannotation entwickelt wurden, und auch traditionelle Grammatikauszeichnungen (z.B. HPSG) untersucht werden. Für die Untersuchung können vorhandene Werkzeuge verwendet werden.

Literatur:

vgl. 13. Grammatikstrukturen und Tag-Sets

P09. Chunking

Aufgabe:

Literatur und Systeme:

vgl. 14. Chunking

P10. Chunk Linking und Chunk Attachment

Diese Aufgaben sind sehr eng mit den Aufgaben aus P09 verknüpft und sind ggf. mit diesen zusammen zu lösen. Hier ist insbesondere zu untersuchen, nach welchen Regeln (Formulierung z.B. mit regulären Ausdrücken) Folgen von Chunks zu umfassenderen Strukturen (z.B. konventionelle Konstituenten oder andere Sinneinheiten) verbunden werden können bzw. wie auf der Basis von Chunks semantische/syntaktische/pragmatische Funktionen der Chunks oder ihrer Verbindungen definiert werden können.

Aufgabe:

Literatur und Systeme:

vgl. 14. Chunking
vgl. 15. Chunk Attachment und Chunk Linking

P11. Clause Bracketing

Diese Aufgaben können - je nach Ansatz - sehr eng mit den Aufgaben aus P09 und P10 verknüpft sein und sind ggf. mit diesen zusammen zu lösen.

Aufgabe:

Literatur und Systeme:

vgl. 14. Chunking
vgl. 15. Chunk Attachment und Chunk Linking
vgl. 16. Bracketing

P12. Robustes Parsing mit Parsing-Algorithmen für kontextfreie Grammatiken

Aufgabe Typ A (Theorie):

Vorstellung der Methoden und Algorithmen des robusten Parsing.

Aufgabe Typ B (Implementierung):

Erweiterung eines (Standard-)Parsers (z.B. Earley, CKY, ..) um Eigenschaften der Robustheit und Test am Datenmaterial.

Literatur:

vgl. 19. Robustes Parsing

P13. Probabilistische kontextfreie Grammatiken

Aufgabe Typ A (Theorie):

Vorstellung der Methoden und Algorithmen zum Aufbau probabilistischer kontextfreier Grammatiken.

Aufgabe Typ B (Implementierung):

Prototypische Implementierung von Komponenten zum Aufbau probabilistischer kontextfreier Grammatiken.

Literatur:

vgl. 20. Probabilistische kontextfreie Grammatiken

P14. Parsing mit probabilistischen kontextfreien Grammatiken

Aufgabe Typ A (Theorie):

Vorstellung der Methoden und Algorithmen des probabilistischen Parsing.

Aufgabe Typ B (Implementierung):

Erweiterung eines (Standard-)Parsers (z.B. Earley, CKY, ..) um probabilistische Komponenten und Test am Datenmaterial.

Literatur:

vgl. 21. Probabilistisches Parsing