Blog

Termextraktion – 45-facher Zeitaufwand

von Julia Bischoff (Kommentare: 0)

Im letzten Blog haben wir uns mit der Termextraktion nach der Anzahl der Sprachen befasst. Ein- oder zweisprachige Extraktion ist dabei immer noch die am häufigsten genutzte Methode, allein schon wegen der Datengrundlage.

Das ist natürlich nicht die einzige Möglichkeit wie Verfahren zur Termextraktion kategorisiert werden können.

Bevor wir also an den Vergleich dreier Extraktionsmethoden herangehen, müssen wir uns noch die andere Möglichkeit  anschauen - die Kategorisierung nach Art der Arbeitsweise:

  • manuelle Extraktion
    Wie der Name schon sagt, extrahiert hier ein Mensch „per Hand“ die Terminologie. Dies kann sowohl einsprachig als auch zwei- oder mehrsprachig erfolgen.
    Eine manuelle Extraktion ist sehr zeitaufwändig, liefert jedoch ein genaues Ergebnis, da der Mensch Mehrwortkombinationen und Grundformen erkennt und auch mit den speziellen Fachwörtern einer Branche Erfahrung hat.

  • Eine statistische Extraktion erfolgt immer computerunterstützt, mit Hilfe eines Softwareprogramms.
    Bei einsprachigen Texten entscheidet zum Beispiel wie häufig ein Fachwort in der Datengrundlage vorkommt darüber, ob dieses ein Term ist und extrahiert wird oder nicht.
    Bei mehrsprachigen Datenquellen werden entweder die strukturelle Ähnlichkeit oder statistische Verfahren zur Berechnung der Wahrscheinlich der Korrelation zweier Wörter verwendet, um die Ergebnisse zu liefern.
    Je größer die Textgrundlage ist – und somit die Vorkommenshäufigkeit von Wörtern in diesem Korpus – desto besser können statistische Programme arbeiten. Mehrwortkombinationen und Grundformen jedoch bereiten Schwierigkeiten.

  • Auch die linguistische Extraktion erfolgt immer mit Hilfe eines Softwareprogramms.
    Eine Extraktion auf linguistischer Basis benötigt jedoch ein enormes einzelsprachiges Wissen als Grundlage – z. B. Wortbildungsregeln und Grammatik, sie benötigt hinterlegte Wörterbücher/Thesauren, usw. – und wird deshalb nur für einzelne Sprachen angeboten, eine mehrsprachige Extraktion ist meist nicht möglich.

Die computerunterstützen Extraktionsverfahren können zusätzlich noch automatisch oder halbautomatisch ablaufen.

 

Viele dieser heute und im letzten Blog vorgestellten Methoden sind oftmals in Kombination miteinander zu finden. Viele Softwareprogramme, mit denen eine Extraktion durchgeführt werden kann, verbinden mehrere dieser Methoden in sich. Oft kann auch ausgewählt werden wie genau man vorgehen möchte (einsprachig/mehrsprachig), wie viele Terme extrahiert werden sollen (Mehrwortbenennungen/Übersetzungen/...), usw.

Wie bei vielem, unterscheiden sich der Aufwand und die Ergebnisse all dieser Extraktionsverfahren zum Teil recht stark.

So ist der Zeitaufwand für eine manuelle Extraktion rund 45-mal so hoch wie für eine linguistische Extraktion:

Im nächsten Beitrag wenden wir uns daher, wie angekündigt, dem von uns durchgeführten Vergleich dreier Extraktionsverfahren zu und berichten über die Ergebnisse sowie Vor- und Nachteile der benutzten Methoden.

 

Eine umfangreiche Liste an Programmen zur Termextraktion und ein Glossar mit Fachwörtern finden sie in unserem Basiswissen.

 

Zurück

Einen Kommentar schreiben