Tüba-D/Z (Tübinger Baumbank des Deutschen / Zeitungskorpus)

Die Tübinger Baumbank des Deutschen / Schriftsprache (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Die Annotation erfolgte von Hand mit einem Tool aus Saarbrücken (Annotate), das für NEGRA schon im Einsatz war. Im Gegensatz zum Tiger-Korpus gibt es in der Annotation keine sich kreuzenden Knoten, sondern topologische Felder. Die Annotation ist (weitestgehend) theorieunabhängig. Das Annotationsschema unterscheidet vier Ebenen syntaktischer Konstituenz: die lexikalische Ebene, die phrasale Ebene, die Ebene der topologischen Felder und die Satzebene.

Die Annotationsebenen enthalten Informationen über:

Übersicht:

  • Entwickler/Kontakt: Marie Hinrichs, Uni Tübingen
  • Datum: aktuelle Zeitungsdaten
  • Sprache: deutsch
  • Umfang: ca. 85.000 Sätze / ca. 1.600.000 Wörter
  • Ebene: schriftlich
  • Zweck: für die maschinelle Sprachverarbeitung
  • Annotation: annotiert auf vier Ebenen (lexikal., phrasal, topolog., Satzebene)
  • Medium: Download (Annotationen)
  • URL: http://www.sfs.uni-tuebingen.de/de/ascl/ressourcen/corpora/tueba-dz.html
  • Verfügbarkeit: für wissenschaftliche Zwecke frei
  • Dokument erstellt von Sibylle Reichel, Juni 2007 (aktualisiert am 12.12.2013)