Multext

Multext besteht aus mehreren Teilprojekten, die Parallelkorpora aus vielen west- und osteuropäischen Sprachen zur maschinellen Sprachverarbeitung bieten. Die Texte sind morpho-syntaktisch auf TEI-Basis annotiert und zum großen Teil frei verfügbar. Ausserdem bietet das Gesamtprojekt zahlreiche Tools zur Sprachverarbeitung (z.B. Lexikal Access Tool zur Wortartenannotation, POS-disambiguator)

Übersicht:

  • Entwickler/Kontakt: Jean Véronis, Projektkoordinator Gesamtprojekt, Universität der Provence, Tomaž Erjavec Universität Ljubljana, Slovenia für Osteuropa.
  • Datum: aktuelle Zeitungstexte und Parallelkorpus "1984"
  • Sprachen: Bulgarisch, Kroatisch, Tschechisch, Englisch, Estnisch, Ungarisch, Litauisch, Rumänisch, Russisch, Serbisch, Slowenisch, Bambara, Bulgarisch, Catalan, Niederländisch, Französisch, Deutsch, Italienisch, Kikongo, Occitan, Spanisch, Schwedisch, Swahili.
  • Umfang: Multilingual, auch Parallelkorpus
  • Ebene: schriftlich
  • Zweck: maschinelle Sprachverarbeitung
  • Annotation: morphosyntaktisch
  • Medium: online, downloadbar
  • URL: http://aune.lpl.univ-aix.fr/projects/multext/ oder http://nl.ijs.si/ME/ für Osteuropa
  • Verfügbarkeit: frei, für Parallelkorpus Lizenz notwendig.

    Dokument erstellt von Sibylle Reichel, Juni 2007