JWPL (Java Wikipedia Library) und JWKTL (Java Wiktionary Library)

Wikipedia und Wiktionary stellen eine interessante Alternative zu klassischen linguistischen Korpora dar, da die Inhalte stets aktuell und somit (mit relativ geringer Verzögerung) an den jeweiligen Sprachgebrauch angepasst sind. Die Struktur der Artikel und deren standardisierter Aufbau erlauben eine automatische Auswertung verschiedener Beziehungen wie der semantischen Ähnlichkeit zweier Wörter, die anhand der Kantenanzahl des kürzesten Navigationspfades zwischen beiden geschätzt werden kann.

Übersicht:

  • Entwickler/Kontakt: Torsten Zesch, Technische Universität Darmstadt
  • Datum: Juni 2008
  • Sprache: international; bisher Daten für Englisch, Deutsch, Tschechisch, Ukrainisch verfügbar
  • Umfang: Java API, Wikipedia, Wiktionary
  • Ebene: schriftlich
  • Zweck: für maschinelle Sprachverarbeitung
  • Annotation: automatisch
  • Medium: Wikipedia-Dump
  • URL: http://www.ukp.tu-darmstadt.de/software/jwpl/
  • Verfügbarkeit: frei für Forschungszwecke
  • Dokument erstellt von Martin Hacker, Juni 2008