Jump to content

Hilfe:Erweiterung:Übersetzen/Übersetzungsspeicher

From mediawiki.org
This page is a translated version of the page Help:Extension:Translate/Translation memories and the translation is 65% complete.
Outdated translations are marked like this.

Der Übersetzungsspeicher unterstützt ElasticSearch. Diese Seite soll dich bei der Installation von ElasticSearch unterstützen und dir die Spezifikationen detailliert erklären.

Im Gegensatz zu anderen Übersetzungshilfen wie maschinellen Übersetzungsdienstleistungen wird der Übersetzungsspeicher permanent durch neue Übersetzungen in deinem Wiki aktualisiert. Über die erweiterte Suche Special:SearchTranslations kannst du Übersetzungen durchsuchen, wenn du ElasticSearch verwendest. Advanced search across translations is also available at Special:SearchTranslations if you choose to use ElasticSearch.

Vergleich

Standardmäßig wird das Backend der Datenbank genutzt: es hat keine Abhängigkeiten und muss nicht konfiguriert werden. Das Datenbank-Backend kann nicht unter mehreren Wikis geteilt werden und erreicht keine großen Mengen übersetzter Inhalte. Daher unterstützen wir auch ElasticSearch als Backend. Es ist auch möglich, den Übersetzungsspeicher eines anderen Wikis zu nutzen, wenn dessen Web-API offen ist. Im Gegensatz zu ElasticSearch werden Remote-Backends nicht mit Übersetzungen des aktuellen Wikis aktualisiert.

Datenbank Fern-API ElasticSearch
Standardmäßig aktiviert Ja Nein Nein
Kann mehrere Quellen haben Nein Ja Ja
Mit lokalen Übersetzungen aktualisiert Ja Nein Ja
Direktzugriff auf Datenbank Ja Nein Nein
Quellenzugriff Bearbeiter Verknüpfung Bearbeiter, wenn lokal oder Link
Kann als API-Service geteilt werden Ja Ja Ja
Leistung Skaliert nicht gut Unbekannt Angemessen

Anforderungen

ElasticSearch-Backend

ElasticSearch kann relativ einfach aufgesetzt werden. If it is not available in your distribution packages, you can get it from their website. You will also need to get the Elastica extension. Finally, please see puppet/modules/elasticsearch/files/elasticsearch.yml for specific configuration needed by Translate.

Das Bootstrap-Skript wird die nötigen Schemas erstellen. Wenn du das ElasticSearch-Backend mit mehreren Wikis teilst, werden sie sich den Übersetzungsspeicher standardmäßig teilen, außer du setzt in der Konfiguration den Index-Parameter.

Wenn du auf die nächste große Version von ElasticSearch aktualisierst (z.B. Update von 2.x auf 5.x), wird unbedingt empfohlen, die Veröffentlichungshinweise und die Dokumentation im Hinblick auf den Aktualisierungsprozess zu lesen.

Installation

Nachdem du die Anforderungen festgelegt hast, erfordert die Installation, dass du die Konfiguration anpasst und dann den Bootstrap ausführst.

Konfiguration

Alle Übersetzungshilfen, die Übersetzungsspeicher nutzen, werden über die Konfigurationsvariable $wgTranslateTranslationServices konfiguriert.

Das Hauptübersetzungsspeicher-Backend muss den Schlüssel TTMServer nutzen. Das Haupt-Backend erhält Übersetzungsaktualisierungen und wird von Special:SearchTranslations genutzt. The primary backend receives translation updates and is used by Special:SearchTranslations.

Beispielkonfiguration eines TTMServers:

Standardeinstellung
$wgTranslateTranslationServices['TTMServer'] = array(
        'database' => false, // Passed to wfGetDB
        'cutoff' => 0.75,
        'type' => 'ttmserver',
        'public' => false,
);
Konfiguration der Remote-API
$wgTranslateTranslationServices['example'] = array(
        'url' => 'http://example.com/w/api.php',
        'displayname' => 'example.com',
        'cutoff' => 0.75,
        'timeout' => 3,
        'type' => 'ttmserver',
        'class' => 'RemoteTTMServer',
);
Konfiguration des ElasticSearch-Backends
In this case the single back-end service will be used both for reads & writes.
$wgTranslateTranslationServices['TTMServer'] = array(
        'type' => 'ttmserver',
        'class' => 'ElasticSearchTTMServer',
        'cutoff' => 0.75,
        /*
         * See http://elastica.io/getting-started/installation.html
         * See https://github.com/ruflin/Elastica/blob/8.x/src/Client.php
        'config' => This will be passed to \Elastica\Client
         */
);
Konfiguration mehrerer ElasticSearch-Backends (unterstützt von MLEB 2017.04)
// Definiert den Standard-Service, der für Lese-Befehle genutzt wird
// Erlaubt den schnellen Wechsel zu einem anderen Backend
// 'mirrors' configuration option is no longer supported since MLEB 2023.10
$wgTranslateTranslationDefaultService = 'cluster1';
$wgTranslateTranslationServices['cluster1'] = array(
        'type' => 'ttmserver',
        'class' => 'ElasticSearchTTMServer',
        'cutoff' => 0.75,
        /*
         * Definiert die Liste der Dienste, an die Schreibvorgänge repliziert werden.
         * Hier sind nur "beschreibbare" Dienste erlaubt.
         */
        'mirrors' => [ 'cluster2' ],
        'config' => [ 'servers' => [ 'host' => 'elastic1001.cluster1.mynet' ] ]
);
$wgTranslateTranslationServices['cluster2'] = array(
        'type' => 'ttmserver',
        'class' => 'ElasticSearchTTMServer',
        'cutoff' => 0.75,
        /*
         * wenn "cluster2" als Standard-Service definiert ist, wird er Schreibvorgänge an "cluster1" replizieren.
         */
        'mirrors' => [ 'cluster1' ],
        'config' => [ 'servers' => [ 'host' => 'elastic2001.cluster2.mynet' ] ]
);
ElasticSearch multiple services with single readable service using writable configuration (supported by MLEB 2023.04)
With writable configuration the following rules are enforced:
  • If writable is specified, services marked as writable are considered write only and others are considered read only.
  • If no service is specified as writable then services are considered both readable and writable.
  • The default service must always be readable.

If a service is marked as writable, the mirrors configuration will not be allowed.

// Three services configured with one being readable and the others being writable.
$wgTranslateTranslationServices['dc0'] = [
	'type' => 'ttmserver',
	'class' => 'ElasticSearchTTMServer',
	'cutoff' => 0.75,
	// Default service cannot be marked as write-only
];

$wgTranslateTranslationServices['dc1'] = [
	'type' => 'ttmserver',
	'class' => 'ElasticSearchTTMServer',
	'cutoff' => 0.75,
	// Marks this service as write-only 
	'writable' => true,
];

$wgTranslateTranslationServices['dc2'] = [
	'type' => 'ttmserver',
	'class' => 'ElasticSearchTTMServer',
	'cutoff' => 0.75,
	'writable' => true
];

$wgTranslateTranslationDefaultService = 'dc0';

Mögliche Schlüssel und Werte sind:

Schlüssel Gilt für Beschreibung
config ElasticSearch Konfiguration an Elastica übergeben.
cutoff Alle Mindestens erforderliche Übereinstimmung, damit passende Vorschläge gemacht werden. Nur die besten Vorschläge werden angezeigt, selbst wenn es mehr gibt, die das Minimum erfüllen.
database Lokal Wenn du den Übersetzungsspeicher an einem anderen Ort speichern möchtest, kannst du hier den Namen der Datenbank angeben. Du musst außerdem den Load Balancer von MediaWiki konfigurieren, um zu wissen, wie eine Verbindung zu dieser Datenbank hergestellt wird.
displayname Remote Der Text, der im Tooltip angezeigt wird, wenn du mit der Maus über dem Link zum Vorschlag (den Kugeln) stehst.
index ElasticSearch Der Index, der in ElasticSearch genutzt wird. Standard: ttmserver.
public Alle Ob über die api.php dieses Wikis eine Abfrage an diesen TTMServer gestellt werden kann.
replicas ElasticSearch Wenn du ein Cluster betreibst, kannst du die Anzahl der Replikate erhöhen. Standard: 0.
shards ElasticSearch Wieviele Shards genutzt werden. Standard: 5.
timeout Remote Wie lange in Sekunden auf eine Antwort eines entfernten Dienstes warten.
type Alle Typ des TTMServers in Bezug auf das Ergebnisformat.
url Remote URL zu api.php auf dem entfernten TTMServer.
use_wikimedia_extra ElasticSearch Boolescher Wert, wenn das Exta-Plugin bereitgestellt wird, kannst du das dynamische Scripting in Elastic v1.x deaktivieren. Dieses Plugin ist derzeit für Elastic-2.x-Cluster erforderlich.
mirrors (DEPRECATED Since MLEB 2023.04) Beschreibbare Dienste Bereich von Zeichenketten, definiert die Liste von Diensten, an die Replikate geschrieben werden, erlaubt, mehrere TTM-Server aktuell zu halten. Nützlich für schnelle Wechsel oder zur Reduzierung der Zeit, in der der Server aufgrund geplanter Wartungsarbeiten nicht erreichbar ist (In MLEB 2017.04 hinzugefügt). Cannot be used along with the newly added writable configuration.
writable (Added in MLEB 2023.04) Write-only services Boolean value, defined for a service if that service is write-only. The default service (wgTranslateTranslationDefaultService) cannot be marked as write-only. If out of all the translation memory services configured, none are marked as writable then all services are considered to be readable and writable. Siehe task T322284
Du musst den Schlüssel TTMServer als Bereichsindex für $wgTranslateTranslationServices nutzen, wenn du möchtest, dass der Übersetzungsspeicher mit neuen Übersetzungen aktualisiert wird. Remote-TTMServer können dafür nicht genutzt werden, da sie nicht aktualisiert werden können. Ab MLEB 2017.04 kann der Schlüssel TTMServer mit der Konfigurationsvariablen $wgTranslateTranslationDefaultService konfiguriert werden. Support for Solr backend was dropped in MLEB-2019.10, in October, 2019.

Derzeit wird nur MySQL für das Datenbank-Backend unterstützt.

Hochfahren

Wenn du ElasticSearch ausgewählt und die Anforderungen und die Konfiguration gesetzt hast, führe ttmserver-export.php aus, um den Übersetzungsspeicher zu bootstrappen. Bootstrapping ist auch erforderlich, wenn du das Übersetzungsspeicher-Backend änderst. Wenn du ein gemeinsames Übersetzungsspeicher-Backend für mehrere Wikis nutzt, musst du jedes einzeln bootstrappen. Bootstrapping is also required when changing translation memory backend. If you are using a shared translation memory backend for multiple wikis, you'll need to bootstrap each of them separately.

Seiten mit vielen Übersetzungen sollten erwägen, mehrere Threads mit dem --thread-Parameter zu nutzen, um die Geschwindigkeit des Prozesses zu erhöhen. Die Dauer hängt stark davon ab, wie vollständig die Vollständigkeitsstatistik der Nachrichtengruppen ist (unvollständige werden während des Bootstrappings errechnet). Neue Übersetzungen werden automatisch über eine Hook hinzugefügt. Neue Quellen (Nachrichtendefinitionen) werden hinzugefügt, wenn die erste Übersetzung erstellt wird. The time depends heavily on how complete the message group completion stats are (incomplete ones will be calculated during the bootstrap). New translations are automatically added by a hook. New sources (message definitions) are added when the first translation is created.

Bootstrap bewirkt folgende Dinge, die sonst nicht erfolgen:

  • Hinzufügen und Aktualisieren des Übersetzungsspeicher-Schemas;
  • Befüllen des Übersetzungsspeichers mit vorhandenen Übersetzungen;
  • Entfernen ungenutzter Übersetzungseinträge durch das Leeren und Neubefüllen des Übersetzungsspeichers.

Wenn die Übersetzung einer Nachricht aktualisiert wird, wird die vorherige Übersetzung aus dem Übersetzungsspeicher entfernt. Wenn jedoch Übersetzungen gegen eine neue Definition aktualisiert werden, wird ein neuer Eintrag hinzugefügt und die alte Definition und ihre Übersetzung bleiben in der Datenbank erhalten, bis diese aktualisiert wird. Wenn sich die Definition einer Nachricht ändert oder sie aus allen Nachrichtengruppen entfernt wird, passiert zunächst nichts. Eine Übersetzung als fuzzy zu speichern, fügt keine neue Übersetzung hinzu und löscht keine alte aus dem Übersetzungsspeicher.

TTMServer-API

Wenn du deinen eigenen TTMServer-Dienst implementieren möchtest, findest du hier die Spezifikationen.

Abfrageparameter:

Dein Dienst muss folgende Parameter entgegennehmen:

Schlüssel Wert
format json
action ttmserver
service Optionaler Service-Identifikator, wenn es mehrere geteilte Übersetzungsspeicher gibt. Wenn nicht angegeben, wird der Standardservice angenommen.
sourcelanguage Sprachcode, der in MediaWiki genutzt wird, siehe IETF-Sprachtags und ISO693?
targetlanguage Sprachcode, der in MediaWiki genutzt wird, siehe IETF-Sprachtags und ISO693?
test Quelltext in Quellsprache

Dein Service muss ein JSON-Objekt anbieten, das einen Schlüssel ttmserver mit einem Bereich von Objekten haben muss. Diese Objekte müssen die folgenden Daten enthalten: Those objects must contain the following data:

Schlüssel Wert
source Ursprünglicher Quelltext.
target Übersetzungsvorschlag.
context Lokale Kennung für die Quelle, optional.
location URL zu der Seite, wo der Vorschlag in Verwendung ist.
quality Dezimalzahl im Bereich [0..1] beschreibt die Vorschlagsgüte 1 bedeutet perfekter Treffer.

Beispiel:

{
        "ttmserver": [
                {
                        "source": "January",
                        "target": "tammikuu",
                        "context": "Wikimedia:Messages\\x5b'January'\\x5d\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/Wikimedia:Messages%5Cx5b%27January%27%5Cx5d\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "tammikuu",
                        "context": "Mantis:S month january\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/Mantis:S_month_january\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "Tammikuu",
                        "context": "FUDforum:Month 1\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/FUDforum:Month_1\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "tammikuun",
                        "context": "MediaWiki:January-gen\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January-gen\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "tammikuu",
                        "context": "MediaWiki:January\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January\/fi",
                        "quality": 0.85714285714286
                }
        ]
}

Datenbankunterbau

Das Backend enthält drei Tabellen: translate_tms, translate_tmt und translate_tmf. Diese entsprechen Quellen, Zielen und Volltext. Du kannst die Tabellendefinitionen in sql/translate_tm.sql finden. Die Quellen enthalten alle Nachrichtendefinitionen. Obwohl sie normalerweise alle in der gleichen Sprache, beispielsweise Englisch, gespeichert werden, wird die Sprache des Textes für seltene Fälle, in denen dies nicht so ist, ebenfalls gespeichert. Those correspond to sources, targets and fulltext. You can find the table definitions in sql/translate_tm.sql. The sources contain all the message definitions. Even though usually they are always in the same language, say, English, the language of the text is also stored for the rare cases this is not true.

Jeder Eintrag hat eine einzigartige ID und zwei zusätzliche Felder, Länge und Kontext. Die Länge wird gewöhnlich als erster Filter genutzt, sodass wir bei einer Abfrage den Text, den wir suchen, nicht mit allen Einträgen der Datenbank abgleichen müssen. Der Kontext speichert den Titel der Seite, aus der der Text stammt, beispielsweise "MediaWiki:Jan/en". Über diese Information können wir die Vorschläge auf "MediaWiki:Jan/de" verlinken, was es Übersetzern ermöglicht, schnell Fehler zu beheben oder festzustellen, wo diese Übersetzung genutzt wurde. Length is used as the first pass filter, so that when querying we don't need to compare the text we're searching with every entry in the database. The context stores the title of the page where the text comes from, for example MediaWiki:Jan/en. From this information we can link the suggestions back to MediaWiki:Jan/de, which makes it possible for translators to quickly fix things, or just to determine where that kind of translation was used.

Die zweite Filterung erfolgt dann über die Volltextsuche. Die Definitionen werden über einen Ad-hoc-Algorithmus gemischt. Zunächst wird der Text über MediaWikis Language::segmentByWord in Segmente (Wörter) aufgeteilt. Wenn es genügend Segmente gibt, wird alles entfernt, bei dem es sich nicht um Buchstaben handelt und normalisiert. Dann werden die ersten fünf Wörter ausgewählt, die mindestens 5 Bytes lang sind (5 Buchstaben in Englisch, jedoch wesentlich kürzere Wörter in Sprachen mit mehrere Bytes umfassenden Codepunkten). Diese Wörter werden dann im Volltext-Index für die zukünftige Filterung längerer Zeichenketten gespeichert. The definitions are mingled with an ad hoc algorithm. First the text is segmented into segments (words) with MediaWiki's Language::segmentByWord. If there are enough segments, we strip basically everything that is not word letters and normalize the case. Then we take the first ten unique words, which are at least 5 bytes long (5 letters in English, but even shorter words for languages with multibyte code points). Those words are then stored in the fulltext index for further filtering for longer strings.

Nachdem wir die Kandidatenliste gefiltert haben entnehmen wir der Zielwert-Tabelle die passenden Ziele. Dann wenden wir den Levenshtein-Bearbeitungsdistanz-Algorithmus an, um die finale Filterung und die Sortierung der Ergebnisse vorzunehmen. Lass uns definieren:

E
Bearbeitungsentfernung
S
der Text, für den wir Vorschläge suchen
Tc
der Vorschlagstext
To
der originale Text, dessen Übersetzung Tc ist

Die Qualität des Vorschlags Tc wird berechnet als E/min(length(Tc),length(To)). Abhängig von der Länge der Zeichenketten nutzen wir: entweder die normale PHP-Levenshtein-Funktion; oder wenn die Zeichenketten länger als 255 Bytes sind, die PHP-Implementierung des Levenshtein-Algorithmus.[1] Es wurde nicht getestet, ob die normale Levenshtein-Implementierung Multibyte-Zeichen korrekt verarbeitet. Dies kann eine weitere Schwachstelle sein, wenn die Ausgangssprache nicht Englisch ist (die anderen sind die Volltextsuche und die Segmentierung).