Penn-Treebank

Das Penn Treebank Projekt stellt eine auf mehreren sprachlichen Ebenen annotierte Sammlung verschiedener Textsorten, die ursprünglich für das DARPA-Projekt gesammelt wurde, zur Verfügung. Die CD enthält das mit einem eigenen Tag-set getaggte Brown-Korpus und Texte aus dem Wall Street Journal aus 1989, sowie verschiedene kleinere Sammlungen (ATIS - AirTravelInformationService, IBM-Manuals...).

Übersicht:

  • Entwickler: Mitchell Marcus, University of Pennsylvania
  • Datum: CD bis 1999
  • Sprache: englisch
  • Umfang: 1 Million Zeitungstexte aus Wall-Street-Journal, getaggtes Brown-Corpus, ATIS, IBM, etc.
  • Ebene: schriftlich
  • Zweck: für linguistische Zwecke
  • Annotation: syntaktisch annotiert
  • Medium: CD
  • URL: http://www.cis.upenn.edu/~treebank/home.html
  • Verfügbar?: Vertrieb über LDC http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42
  • Preis: US$ 2500,- (ca. 1860 EUR); LDC Mitglieder US$ 1500,- (ca. 1150 EUR) auf CD-Rom
  • Dokument erstellt von Sibylle Reichel, Juni 2007