Blog

Termextraktion – Sprachenvielfalt

von Julia Bischoff (Kommentare: 0)

Nachdem wir im letzten Beitrag die Wichtigkeit der Terminologie an sich angesprochen haben, gilt es heute die Frage zu klären, wie man an diesen zentralen Informationsträger Terminologie überhaupt herankommt.

Was also ist eine Terminologie-Extraktion überhaupt?

Unter der Terminologie-Extraktion versteht man theoretisch den Prozess terminologische Daten (Wörter, Fachwörter, Mehrwortbenennungen, usw.) aus einem Text zu extrahieren.

In der Praxis gibt es dafür unterschiedliche Verfahren und Vorgehensweisen, wie diese Extraktion durchgeführt werden kann.
Damit aber bei niemandem die Köpfe rauchen vor zu viel Information auf einmal, nehmen wir uns die unterschiedlichen Vorgehensweisen getrennt vor.

In diesem Beitrag widmen wir uns der Termextraktion nach der Anzahl der Sprachen:

  • monolinguale (einsprachige) Extraktion bedeutet die Suche nach Wörtern in einer Sprache
    Diese Art der Extraktion wird häufig für das Erstellen von Glossaren oder Thesauren benutzt, kann aber auch als Grundlage für eine Terminologiedatenbank dienen, die dann in beliebig viele Sprachen übersetzt werden kann.
    Quelldokumente sind hier zumeist einsprachige Texte wie Anleitungen, Fachtexte aber auch ganze Korpora eines Fachgebiets.

  • bilinguale (zweisprachige) Extraktion ist folglich das Auffinden von Wortpaaren in zwei Sprachen
    Je nach Verfahren wird der Term in der Ausgangssprache und seine entsprechende Übersetzung aus dem Quelltext extrahiert. Eine zweisprachige Extraktion ist unter anderem auch dafür geeignet Synonyme der Zielsprache (Übersetzung) aufzufinden.
    Grundlage hierfür sind vielfach Translation Memory Daten aus einer Übersetzungssoftware oder die Alignierung eines Dokuments und dessen Übersetzung.

  • Bei einer multilingualen (mehrsprachigen) Extraktion werden Terme aus drei oder mehr Sprachen gleichzeitig extrahiert.
    Eine mehrsprachige Termextraktion basiert zumeist auf einer zweisprachigen Vorgehensweise, da die Datengrundlage sehr häufig nicht mehrsprachig ist.
    Eine gute Grundlage für eine multilinguale Extraktion sind jedoch Daten aus einem Translation Memory, bei dem die Übersetzungen aller vorhandenen Sprachen in einer gemeinsamen Datenbank gespeichert wurden.

Nächste Woche gehen wir dann näher auf die Extraktionsverfahren nach der Art der Arbeitsweise ein.

 

Eine umfangreiche Liste an Programmen zur Termextraktion und ein Glossar mit Fachwörtern findet sich in unserem Basiswissen.

Zurück

Einen Kommentar schreiben