Inhaltsübersetzung/Maschinenübersetzung/MinT
MinT (Machine in Translation) ist ein Übersetzungsdienst, der auf quelloffenen neuronalen maschinellen Übersetzungsmodellen basiert. Der Dienst wird in der Infrastruktur der Wikimedia Foundation gehostet und wird Teil der Liste der maschinellen Übersetzungssysteme (MT) sein, die den Nutzern von Content Translation und anderen Wikimedia-Projekten zur Verfügung stehen. Die bereitgestellten Übersetzungen basieren auf NLLB-200 und OPUS Übersetzungsmodellen, die mit Hilfe der OpenNMT Ctranslate2 Bibliothek auf Leistung optimiert wurden, um die Notwendigkeit von GPU-Beschleunigung zu vermeiden. Für weitere Details kannst du den Quellcode, die API-Spezifikationen und eine Testinstanz lesen.
Hauptfunktionen
- Es werden keine nicht-öffentlichen persönlichen Informationen der Nutzer an MinT gesendet. Der Zugriff auf das MT-System erfolgt über eine API. Der Inhalt der Artikel (frei lizenziert) wird an den MinT-Server gesendet, und es findet keine direkte Kommunikation zwischen dem Nutzer und externen Diensten statt, und es werden keine nicht-öffentlichen persönlichen Informationen der Nutzer (IP, Benutzername) an den MinT-Dienst gesendet. Der Client, der MinT kontaktiert, ist Open Source und du kannst ihn hier überprüfen. Obwohl der MinT-Dienst in der Wikimedia-Infrastruktur gehostet wird, folgt die Integration demselben Muster wie bei anderen externen Diensten (siehe auch das Diagramm dieses technischen Aufbaus am Ende des Abschnitts).
- Alle urheberrechtsfähigen Informationen werden von MinT unter einer freien Lizenz zurückgegeben. Wenn MinT verwendet wird, erhält man eine übersetzte Version des Wikipedia-Inhalts. Die Urheberrechtsfähigkeit solcher maschinell erzeugter Inhalte ist eine offene rechtliche Frage. Soweit MinT-Übersetzungen urheberrechtsfähig sind, stehen diese Übersetzungen unter der gleichen freien Lizenz zur Verfügung wie der übersetzte Wikipedia-Inhalt. Benutzer können es ändern und als Teil von Wikipedia veröffentlichen, ohne dass Konflikte mit vorhandenen Regeln auftreten. Der resultierende Inhalt, der von MinT übersetzt wurde, und die Benutzeränderungen werden unter derselben Lizenz zur Verfügung gestellt, die auch für die übrigen Artikel in Wikipedia verwendet wird.
- Nutzen für die breitere Open-Source-Übersetzungsgemeinschaft. Die aus MinT gewonnenen Übersetzungen und die Änderungen der Nutzer werden öffentlich zugänglich sein. Die nachbearbeiteten Übersetzungen sind von besonderem Interesse für die Übersetzungsforschungsgemeinschaft, die diese Ressource nutzen kann, um neue Übersetzungsdienste für Sprachen zu erstellen, für die es noch keine Open-Source-Maschinenübersetzung gibt. Dies wird Entwicklern helfen, maschinelle Übersetzungssysteme zu erstellen und zu verbessern.
- Benutzer können sie deaktivieren. Die automatische Übersetzung ist ein optionales Tool in Content Translation. Die Benutzer haben die Möglichkeit, sie zu deaktivieren, wenn sie sie aus irgendeinem Grund nicht nützlich finden. Obwohl viele Nutzer von Content Translation Übersetzungsdienste angefordert haben, entscheidet letztendlich jeder einzelne Nutzer, ob er sie nutzen möchte oder nicht.
Fragen zu diesem Dienst
Wir haben in diesem Abschnitt einige Fragen direkt zu MinT behandelt. Du findest sie auch auf der Seite Content Translation FAQ.
Welche Sprachen werden von MinT zur Verfügung gestellt? Gibt es Pläne, weitere hinzuzufügen?
MinT ist so konzipiert, dass mehrere offene Übersetzungsmodelle unterstützt werden. Die Anzahl der unterstützten Sprachen hängt von diesen ab. Die Liste der verfügbaren maschinellen Übersetzungssysteme (MT) wird die aktuellste Liste enthalten.
Wie unterscheidet sich die Verwendung von MinT von der Verwendung von Apertium oder anderen?
Als Nutzer von Content Translation wirst du keinen Unterschied auf der Übersetzungsoberfläche bemerken, da MinT die übersetzten Inhalte auf die gleiche Weise anzeigt, wie es Apertium oder andere Dienste für die unterstützten Sprachpaare tun. Die verschiedenen Dienste bieten je nach Sprache und Inhalt eine unterschiedliche Übersetzungsqualität. Du kannst versuchen, unter den verfügbaren Diensten denjenigen auszuwählen, der die beste Ausgangsübersetzung für einen bestimmten Absatz liefert.
Wie erfolgt die maschinelle Übersetzung, wenn ich MinT dafür wähle?
Wenn ein Benutzer mit der Übersetzung eines Artikels beginnt, wird der HTML-Inhalt jedes Abschnitts des Quellartikels an MinT gesendet. Der MinT-Dienst verarbeitet die Anfrage und verwendet eines der verfügbaren Übersetzungsmodelle auf der Grundlage der unterstützten Sprache und Konfiguration. Es wird eine übersetzte Version erstellt und in der entsprechenden Übersetzungsspalte von Content Translation angezeigt. Links und Verweise werden wie üblich angepasst, und die Benutzer können den Inhalt nach Bedarf ändern.
Dieser Vorgang wird für alle Abschnitte des zu übersetzenden Artikels fortgesetzt. Um die Leistung zu verbessern, werden die Übersetzungen für aufeinanderfolgende Abschnitte vorab geholt. Der Benutzer kann die unveröffentlichte Übersetzung speichern (um sie zu einem späteren Zeitpunkt erneut zu bearbeiten), überarbeiten oder den Artikel auf die übliche Weise veröffentlichen. Der Artikel wird in der Wikipedia wie jeder andere normale Artikel mit den entsprechenden Quellenangaben und Lizenzen veröffentlicht.
Hier ist ein Diagramm des Vorgangs.
Ist MinT auf quelloffener Software basiert?
Der MinT-Dienst ist quelloffen und integriert Modelle, die als Open Source freigegeben sind:
- Das KI-Forschungsteam bei Meta hat die von NLLB-200 verwendeten Übersetzungsmodelle mit einer Open-Source-Lizenz veröffentlicht und den für das Training verwendeten Datensatz als Teil des No Language Left Behind-Projekts.
- Das OPUS-Projekt bietet vortrainierte neuronale Übersetzungsmodelle, die auf OPUS-Daten trainiert wurden, mit einer Open-Source-Lizenz.
Diese Modelle wurden mit Hilfe der ebenfalls quelloffenen OpenNMT Ctranslate2-Bibliothek auf Leistung optimiert.
Content Translation entstand aus dem langjährigen Bedürfnis, die Lücke in der Menge der Inhalte zwischen Wikipedias in verschiedenen Sprachen zu schließen. Wie jede andere Software, die auf Wikimedia-Seiten verwendet wird, ist auch Content Translation quelloffen. Auch in diesem speziellen Fall verwenden wir einen Open-Source-Client, um mit dem externen Dienst zu interagieren und frei lizenzierte Inhalte zu importieren, um den Nutzern zu helfen, unser freies Wissen zu erweitern. Um MinT zu nutzen, fügen wir keine proprietäre Software in den Code der Inhaltsübersetzung oder auf den Wikimedia-Websites und -Servern hinzu.
Muss ich mir bei der Verwendung von MinT Sorgen um meine persönlichen Daten machen?
Unabhängig davon, welcher Dienst genutzt wird, kannst du sicher sein, dass nur Wikipedia-Inhalte aus bestehenden Artikeln gesendet und nur frei lizenzierte Inhalte wieder in die Übersetzung eingefügt werden. Die Kommunikation mit diesen Diensten findet auf der Serverseite statt, so dass sie vom Nutzergerät isoliert sind und keinen Zugriff auf nicht-öffentliche persönliche Daten der Nutzer haben. Weitere Details findest du in diesem Diagramm.
Was ist, wenn MinT das einzige verfügbare maschinelle Übersetzungstool ist aber ich es nicht verwenden möchte?
Maschinelle Übersetzung ist eine optionale Funktion in Content Translation, die du nach Belieben deaktivieren kannst. Wenn weitere maschinelle Übersetzungssysteme für deine Sprachen hinzugefügt werden, kannst du die maschinelle Übersetzung wieder aktivieren und den maschinellen Übersetzungsdienst deiner Wahl auswählen.
Sind die von MinT übersetzten Inhalte frei für die Verwendung in Wikipedia?
Ja, die von MinT erhaltenen Inhalte sind ansonsten auf der Web-Übersetzungsplattform frei verfügbar. Aus Gründen der Benutzerfreundlichkeit erhält Content Translation die Inhalte über eine API, um sie nahtlos auf der Übersetzungsoberfläche verfügbar zu machen. Diese Inhalte können von den Benutzern (falls erforderlich) geändert und in Wikipedia-Artikeln unter freien Lizenzen verwendet werden.
Kann dieser Inhalt zur Verbesserung von maschinellen Übersetzungssystemen generell verwendet werden?
Ja. Übersetzungen, die in Content Translation gemacht werden, werden in unserer Datenbank gespeichert. Diese Informationen werden öffentlich zugänglich gemacht, damit jeder sie als Übersetzungsbeispiele nutzen kann, um seine Übersetzungsdienste zu verbessern (von universitären Forschungsgruppen über Open-Source-Projekte bis hin zu kommerziellen Unternehmen - jeder!) Die Inhalte können über die Content Translation API abgerufen werden. Bitte beachte, dass nur Informationen über den übersetzten Text öffentlich zugänglich sind. Dazu gehören der Ausgangs- und der übersetzte Text, Informationen zur Ausgangs- und Zielsprache und eine Kennung für das Textsegment.