Erweiterter Kontext in Neuronaler Maschineller Übersetzung
Im CONTRA-Projekt (Rich COntexts in Neural Machine TRAnslation) forschen wir an neuronalen maschinellen Übersetzungssystemen. Solche Systeme werden als "neuronal" bezeichnet, weil die Modelle aus neuronalen Netzwerken bestehen, beispielsweise aus rekurrenten Netzen.
Neuronale maschinelle Übersetzung ist die momentan führende Methode, um erfolgreich Übersetzungssysteme zu trainieren und zu verwenden. Einige der Vorteile gegenüber früheren Methoden (sogenannten "statistischen" Modellen) sind:
- Abhängigkeiten über weite Distanzen: Das neuronale Modell erlaubt es, dass Teile eines Satzes, die sich beeinflussen, beliebig weit voneinander weg sein können. Beispiel: ein Übersetzungssystem, das nach Deutsch übersetzt, kann lernen, dass ein Verbpräfix manchmal ganz am Ende eines Satzes stehen muss.
- Natürlichkeit und Flüssigkeit der Übersetzung: neuronale Übersetzung führt insgesamt zu flüssigeren, natürlicheren Sätzen in der Zielsprache.
- Beliebiger Kontext: Ein neuronales System kann beim Übersetzen neben einem Eingabesatz beliebige weitere Informationen als Kontext berücksichtigen, sofern sich diese zusäzliche Information in Zahlen darstellen lässt.
In diesem Projekt untersuchen wir, welche Möglichkeiten sich für die Übersetzung ergeben, wenn das Netzwerk zusätzliche Informationen aus dem Kontext erhält, wie beispielsweise
- Koreferenz-Annotationen, die helfen, Phänomene wie Pronomen besser zu desambiguieren und zu übersetzen
- Syntaktische Annotationen
- mehrere Input-Sprachen
Mit den neusten Ansätzen werden wir ausserdem Übersetzungsysteme für drei der offiziellen Sprachen der Schweiz (Französisch, Deutsch, Italienisch) trainieren und frei verfügbar machen.
Projektleiter
Forschende
Dieses Projekt ist finanziert durch den Schweizerischen Nationalfonds für drei Jahre ab Januar 2017.
Outputs des Projekts
Für mehr Informationen zu unserer Arbeit und konkreter Forschung siehe Contra Project Outputs.