Jump to content

Hilfe:Inhaltsübersetzung/Übersetzen/Übersetzungsqualität

From mediawiki.org
This page is a translated version of the page Help:Content translation/Translating/Translation quality and the translation is 94% complete.
PD Hinweis: Wenn Du diese Seite bearbeitest, stimmst Du zu, dass Dein Beitrag unter der [CC0] veröffentlicht wird. Mehr Informationen findest du auf der Public Domain Hilfeseite. PD

Bei der Erstellung einer Übersetzung ist es wichtig, den Inhalt vor der Veröffentlichung zu überprüfen. Du musst sicherstellen, dass der erstellte Inhalt die ursprüngliche Bedeutung nicht ändert und gleichzeitig in der Zielsprache flüssig gelesen werden kann. Die bereitgestellte maschinelle Erstübersetzung hilft dabei, den Übersetzungsprozess von einer sinnvollen Stelle aus zu beschleunigen. Das Tool fordert die Benutzer jedoch auf, die ursprünglichen Inhalte zu überprüfen und umfassend zu bearbeiten.

Verschiedene Features gewährleisten, dass die Übersetzer die Erstübersetzungen in geeigneter Weise bearbeiten. Der Übersetzungseditor verfolgt, wie sehr die ursprüngliche Übersetzung vom Benutzer geändert wurde und definiert unterschiedliche Grenzwerte, um entweder die Veröffentlichung zu verhindern oder die den Benutzer auffordern, die Inhalte näher zu überprüfen.

Auf diese Weise ermöglicht das Tool den Benutzern, eine anfängliche maschinelle Übersetzung sinnvoll zu nutzen und gleichzeitig die Entstehung von nur unzureichend überprüften Ergebnissen von geringer Qualität zu verhindern. Im Folgenden wird ausführlicher erläutert, wie diese Grenzwerte funktionieren, wie sie an die Bedürfnisse der einzelnen Sprachen angepasst werden können und wie die Qualität der mit dem Tool erstellten Inhalte gemessen werden kann.

Grenzwerte zur Überprüfung der Übersetzung

Die Inhaltsübersetzung wird an dem Prozentsatz der Änderungen gemessen, die Benutzer an der bereitgestellten automatischen Erstübersetzung vornehmen. Auf diese Weise erkennt das System, wie viele Wörter der ursprünglichen Übersetzung hinzugefügt, daraus entfernt oder geändert worden sind. Diese Messungen werden auf zwei verschiedenen Ebenen durchgeführt: einmal für jeden Absatz und einmal für die gesamte Übersetzung. Auf jeder Ebene werden unterschiedliche Grenzwerte angewendet, wie im Folgenden beschrieben.

Grenzwerte für die gesamte Übersetzung

Eine Fehlermeldung erscheint beim Versuch, eine Übersetzung mit zu viel unveränderter maschineller Übersetzung zu veröffentlichen. Dieser Schwellenwert wurde für Indonesisch angepasst, basierend auf den Rückmeldungen der Autoren.

Die Veröffentlichung wird blockiert, wenn 95% oder mehr des gesamten Dokuments aus unveränderten, maschinell übersetzten Inhalten bestehen. Diese Grenze verhindert nahezu maschinelle Übersetzungen und umgeht deutlichen Vandalismus. Außerdem wird verhindert, dass Benutzer lediglich Inhalte hinzufügen, ohne den Teil der maschinellen Übersetzung zu bearbeiten. Wie im Folgenden beschrieben, kann dieses Limit für jede Sprache angepasst werden.

Grenzwerte für jeden Absatz

Warnhinweis, der für einen bestimmten Absatz angezeigt wird, in dem die unveränderte maschinelle Übersetzung die Grenzwerte nicht einhält.

Für jeden Absatz wird auch der Prozentsatz der Modifikationen, die der Autor vorgenommen hat, gemessen. Ein Absatz wird dann als problembehaftet angesehen, wenn der Absatz mehr als 85% der ursprünglichen maschinellen Übersetzung enthält (oder wenn der Inhalt aus dem Quelldokument kopiert wurde, er mehr als 60% des unveränderten Inhalts enthält).

Der Übersetzungseditor zeigt für jeden als problembehaftet geltenden Absatz einen Warnhinweis an, der den Benutzer auffordert, den Absatz weiter zu bearbeiten. In manchen Fällen können Benutzer zwar ihren Eintrag veröffentlichen, die resultierende Seite wird jedoch möglicherweise zu einer Tracking-Kategorie potenziell nicht überprüfter Übersetzungen hinzugefügt, die von der Community überprüft werden sollen. In anderen Fällen wird die Veröffentlichung durch den Benutzer verhindert.

Nachfolgend sind einige der Faktoren, die festlegen, ob der Benutzer veröffentlichen darf oder nicht (einige davon befinden sich noch in der Entwicklung):

  • Die Anzahl der problematischen Absätze. Benutzer können keine Übersetzungen mit 50 oder mehr problembehafteten Absätzen veröffentlichen. Benutzer können weiterhin Übersetzungen mit weniger als 50 problembehafteten Absätzen veröffentlichen. Übersetzungen mit 10 bis 49 problematischen Absätzen werden jedoch zu einer Nachverfolgungskategorie potenziell nicht überprüfter Übersetzungen hinzugefügt, die von der Community überprüft werden können.
  • Früher gelöschte Übersetzungen. Um wiederkehrende Probleme zu vermeiden, identifiziert das Tool Benutzer, deren veröffentlichte Übersetzungen in den letzten 30 Tagen gelöscht wurden, und setzt ihren nachfolgenden Übersetzungsbemühungen viel strengere Grenzen. In diesen Fällen wird die Veröffentlichung von Übersetzungen mit 10 oder mehr problematischen Absätzen verhindert, während Übersetzungen mit 9 oder weniger problematischen Absätzen zu einer Tracking-Kategorie potenziell nicht überprüfter Übersetzungen hinzugefügt werden, die von der Community überprüft werden sollen.
  • Benutzerbestätigung. Ein weniger strenger Schwellenwert wird für Absätze angelegt, die von Benutzern als überprüft markiert wurden, als Signal, dass der Benutzer den Status der Übersetzung überprüft und bestätigt hat. Für Absätze, bei denen der Warnhinweis zum unveränderten Inhalt angezeigt wurde, der Benutzer sie jedoch als behoben markiert hat, wird ein weniger strenger Schwellenwert angewendet (womit 95% der maschinellen Übersetzung oder 75% des Quellinhalts akzeptiert werden). Dies bietet eine Möglichkeit Fälle zu berücksichtigen, in denen die automatische Übersetzung außergewöhnlich gut war, aber dennoch einem möglichen Missbrauch vorbeugt (d. h. es wird nicht blind der Benutzerbestätigung gefolgt).

Inhalte, die nicht von den Grenzwerten betroffen sind

Bei einigen Inhalten wird nicht erwartet, dass sie wesentlich bearbeitet werden, deshalb werden sie bei der Anwendung der oben beschriebenen Grenzwerte nicht berücksichtigt. Sehr kurze Abschnittsüberschriften, Zitate oder die Liste der Einzelnachweise sind von der Prüfung ausgeschlossen. Andernfalls könnten Benutzer irreführende Warnungen bezüglich der Übersetzung von Inhalten erhalten, die nicht sein sollten, wie z. B. Buchtitel, die in Referenzen oder anderen Eigennamen erscheinen.

Limits on the mobile experience

For the mobile experience the initial set of limits follow a simpler approach. At the moment, only the overall percentage of unmodified machine translation for the whole translation is considered. On mobile, the whole translation consist of just one section of the article.

In particular, a warning is shown when the percentage of unmodified machine translation is over 85% for the whole section, and publishing is prevented when the percentage of unmodified machine translation is over 95%.

Feedback on how the limits system work on the mobile context would be very useful to determine how to evolve this initial approach.

Publication of fast unreviewed translations

Campaigns and contests can result in spikes of translations where some user unfamiliar with the community policies may focus on making many translations and not pay enough attention to review their contents. In order to emphasize quality over quantity, a mechanism has been defined to limit the publication of fast unreviewed translations.

After a user translates a large article, the next translation can only be started after some time has passed. The waiting period estimation considers 1 minute per paragraph up to 10 minutes. That is:

  • For articles with 10 paragraphs or less, we want to make sure that users spent translating it at least N minutes (one minute per paragraph)
  • For articles with more than 10 paragraphs we want to make sure that users spent translating it at least 10 minutes.


This has been applied on mobile initially since it is a space with less activity, and after measuring the impact we'll consider expanding it to desktop too.


Anpassung der Grenzwerte

Die oben beschriebenen Grenzwerte stellen eine Reihe allgemein gültiger Mechanismen bereit, müssen jedoch möglicherweise an die besonderen Anforderungen eines jeden Wikis angepasst werden. Basierend auf den ersten Erkenntnissen kann die Anzahl der Änderungen, gegenüber der ursprünglichen maschinellen Übersetzung, je nach Sprachpaar zwischen 10% und 70% liegen. In manchen Wikis können die Standardgrenzwerte zu streng sein, was zu unnötigem Reaktionen führen oder die Veröffentlichung einwandfreier Übersetzungen verhindern würde. In anderen Wikis sind die Grenzwerte möglicherweise nicht streng genug, sodass Übersetzungen veröffentlicht werden können, die nicht ausreichend bearbeitet wurden.

Durch Anpassen der verschiedenen Schwellenwerte kann jedes Wiki die Grenzen des Tools an seine speziellen Anforderungen anpassen. Ein Feedback von Muttersprachlern ist wichtig, um die Grenzwerte richtig einzustellen. Wenn die aktuellen Grenzwerte aufgrund deiner Erfahrung beim Erstellen oder Überprüfen von Übersetzungen nicht gut zu funktionieren scheinen, teile dein Feedback, dann können wir prüfen, wie wir sie besser anpassen können.

Wenn du uns um ein Feedback zum Anpassen der Schwellenwerte bittest, empfehlen wir, mehrere Beispielübersetzungen zu erstellen (überprüfe die Veröffentlichungsoptionen), wenn dein Test nicht als regulärer Inhalt veröffentlicht werden soll. Wenn du testest, wie die Grenzwerte für deine Sprache funktionieren, ist es nützlich, das Folgende zu beachten:

  • Überprüfe beide Fälle. Überprüfe, wie die Grenzwerte für Übersetzungen funktionieren, bei denen der Inhalt nicht ausreichend bearbeitet wurde sowie für Übersetzungen, bei denen die ursprüngliche Übersetzung nicht ausreichend bearbeitet wurde. Auf diese Weise kannst du leichter die richtige Gewichtung für die Grenzwerte-Funktion des Tools finden. Wenn Du nur einen der Grenzwerte überprüfst, kann es dazu führen, dass die Schwellenwerte zu weit in die entgegengesetzte Richtung verschoben werden.
  • Unterschiedliche Inhalte prüfen. Inhalte in einem Wiki sind sehr unterschiedlich, und die maschinelle Übersetzung funktioniert in manchen Fällen möglicherweise besser als in anderen. Beispielsweise erfordern Inhalte, die viele numerische Daten oder technische Namen enthalten, möglicherweise weniger Bearbeitung durch Benutzer als Inhalte mit eher beschreibendem Text. Stellen Sie sicher, dass Sie testen, indem Sie eine Vielzahl verschiedener Artikeltypen unterschiedlicher Länge mit unterschiedlichem Inhalt übersetzen.
  • Sei auf Wiederholungen vorbereitet. Das Anpassen der Schwellenwerte ist ein mehrfach zu wiederholender Vorgang. Möglicherweise muss eine maßgeschneiderte Anpassung der Schwellenwerte vorgenommen oder die generellen Werte verbessert werden. Jedenfalls werden nach jeder Änderung weitere Tests erforderlich sein, um die Verbesserungen zu überprüfen.

Bei der Anpassung der Grenzwerte hat sich eine Zusammenarbeit mit Autoren als zielführend erwiesen. Erste Ergebnisse zeigen beispielsweise, dass die indonesische Gemeinschaft die Anzahl problematischer Übersetzungen erheblich reduziert hat, indem nur die Veröffentlichung von Übersetzungen, die mehr als 70% nicht modifizierte maschinelle Übersetzungen enthielten, eingeschränkt wurde. Ähnliche Anpassungen wurden für Telugu und Assamesisch vorgenommen. Es gibt kein unfehlbares automatisches Tool, und die Einstellung der Grenzwerte bildet da keine Ausnahme.

Der Prozess der Inhaltsüberprüfung durch die Community ist nach wie vor von entscheidender Bedeutung, aber die Grenzwerte bieten den Communitys Tools, mit denen sie die Anzahl der zu prüfenden Übersetzungen reduzieren können, wodurch der Überprüfungsaufwand effektiver wird. Bitte gib uns dein Feedback und wir können untersuchen, wie sie besser angepasst werden können.

Sichtung potentiell nicht überprüfter Übersetzungen

Die Community verfügt über eine Sichtungs-Kategorie mit dem Namen "cx-unreviewed-translation-category", mit der Artikel, deren Inhalt die empfohlenen Grenzwerte überschreitet, problemlos gefunden werden können.

Du findest diese Kategorie in der Liste der Sichtungs-Kategorien in jedem Wiki. Damit kannst du Artikel nachverfolgen, die die Grenzwerte für die Veröffentlichung überschritten haben, in denen aber dennoch einige Absätze weniger als erwartet bearbeitet wurden. Beispielsweise umfasst die indonesische Kategorie Artikel, die insgesamt weniger als 40% der maschinellen Übersetzung enthalten, in einigen Absätzen jedoch mehr als 80% der maschinellen Übersetzung enthalten.

Beurteilung der Übersetzungsqualität

Die automatische Bewertung der Qualität von Inhalten ist nicht trivial. Die Löschstatistik ist nützlich für die Einschätzung, ob der erstellte Inhalt für die Autoren-Community qualitativ gut genug war, um ihn nicht zu löschen. Aus der Analyse der Löschungsquoten geht hervor, dass Artikel, die als Übersetzungen erstellt werden, im Vergleich zu von Grund auf neu erstellten Artikeln weniger wahrscheinlich gelöscht werden. Dies legt nahe, dass es eher ungünstig sein dürfte, die Grenzwerte für Übersetzungen wesentlich höher anzusetzen, als für andere Arten der Artikelerstellung.

Veröffentlichte Übersetzungen finden

Die Inhaltsübersetzung fügt den veröffentlichten Übersetzungen ein Bearbeitungs-Tag contenttranslation hinzu. Auf diese Weise können Communitys die neuesten Änderungen und ähnliche Tools verwenden, um sich auf Seiten zu konzentrieren, die mit dem Übersetzungstool erstellt wurden. Darüber hinaus stehen Daten zu veröffentlichten Übersetzungen und die Statistiken für die maschinelle Übersetzung jedem zur Analyse zur Verfügung.

Überprüfe eine bestimmte Übersetzung

Beispiel für einen Übersetzungsdebugger

Der Translation Debugger ist ein Tool, das die Überprüfung einiger Metadaten für eine bestimmte Übersetzung ermöglicht, einschließlich des Prozentsatzes der für das gesamte Dokument verwendeten maschinellen Übersetzung und des für jeden Absatz verwendeten Übersetzungsdienstes. Für bestimmte Inhaltstypen wie Vorlagen kann die Content Translation Server API abgefragt werden, um zu überprüfen, wie Vorlagen sprachübergreifend übertragen werden.

Andere, auf dem Sachverstand der Benutzer basierende Grenzwerte

Fehler beim Anzeigen einer Veröffentlichungseinschränkung basierend auf dem Sachverstand der Benutzer. Dieses Beispiel basiert auf der Entscheidung der englischen Wikipedia-Community, die Veröffentlichung direkt in den Artikelnamensraum nur für Benutzer mit erweiterter automatischer Bestätigung zu beschränken.

Einige Wikis haben andere Einschränkungen für die Übersetzung basierend auf den Benutzerrechten eingeführt, um die Erstellung von Übersetzungen mit geringer Qualität zu reduzieren. Zum Beispiel erfordert das Übersetzungs-Tool in der Englischen Wikipedia, dass Benutzer eine erweiterte Bestätigung haben müssen, was bedeutet, dass sie 500 Änderungen in der englischen Wikipedia vorgenommen haben müssen, bevor sie eine Übersetzung als Artikel veröffentlichen dürfen. Neue Autoren können übersetzte Artikel weiterhin in ihrem Benutzernamensraum User: oder Draft: veröffentlichen und anschließend in den Artikelnamensraum verschieben.

Diese Einschränkung wurde erstellt, bevor das hier auf dieser Seite beschriebene Grenzwertsystem verfügbar war. Es wird nicht empfohlen, die Erstellung qualitativ hochwertiger Übersetzungen zu fördern.

Bevor Du Einschränkungen hinzufügst, die den erstellten Inhalt nicht berücksichtigen, solltest Du die oben beschriebenen Grenzwerte für den ursprünglichen Inhalt angepasst haben. Die Grenzwerte können so eng wie nötig festgelegt werden, um qualitativ minderwertige Übersetzungen zu vermeiden, während die Autoren weiterhin die Möglichkeit haben, gute Übersetzungen zu veröffentlichen.