Jump to content

Ajuda:Tradução de Conteúdo/Tradução/Qualidade da Tradução

From mediawiki.org
This page is a translated version of the page Help:Content translation/Translating/Translation quality and the translation is 35% complete.
PD Nota: Ao editar esta página, você concorda em publicar a sua contribuição no âmbito da licença CC0. Veja as páginas de ajuda do domínio público para mais informações. PD

Ao criar uma tradução, é essencial revisar o conteúdo antes de publicá-lo. Você precisa garantir que o conteúdo produzido não esteja alterando o significado original e verifique se ele é natural no idioma de destino. A tradução automática inicial fornecida ajuda a acelerar o processo de tradução com um ponto de partida útil, mas a ferramenta incentiva os usuários a revisar e editar significativamente o conteúdo inicial.

Diferentes mecanismos garantem que os tradutores editem as traduções iniciais adequadamente. A tradução automática inicial fornecida ajuda a acelerar o processo de tradução com um ponto de partida útil, mas a ferramenta incentiva os usuários a revisar e editar significativamente o conteúdo inicial.

Dessa maneira, a ferramenta possibilita que os usuários usem a tradução automática quando fizerem um bom uso, enquanto impede a criação de traduções de baixa qualidade levemente revisadas. Mais detalhes sobre como esses limites funcionam, como eles podem ser ajustados às necessidades de cada idioma e como medir a qualidade do conteúdo produzido com a ferramenta são fornecidos abaixo.

Limites para incentivar a revisão da tradução

A tradução de conteúdo mede a porcentagem de modificações que os usuários fazem na a tradução automática inicial fornecida. Dessa maneira, o sistema sabe quantas palavras foram adicionadas, removidas ou modificadas na tradução inicial. As medições são feitas em dois níveis diferentes: para cada parágrafo e para toda a tradução. Limites diferentes são aplicados em cada nível, conforme detalhado a seguir.

Limites para toda a tradução

Erro mostrado ao tentar publicar uma tradução com muitas traduções automáticas não modificadas. Esse limite foi ajustado para o indonésio com base no feedback de seus editores.

A publicação será bloqueada se 95% ou mais de todo o documento estiver com conteúdo não modificado, não revisionado e traduzido por máquina ou alguma aplicação semelhante. Este limite evita prováveis vandalizações evidentes do conteúdo, além de traduções automáticas quase cruas. Também evita que os usuários simplesmente adicionem conteúdo, sem editar a parte da tradução automática. Conforme detalhado abaixo, esse limite pode ser ajustado pelo idioma de sua preferência.

Limites para cada parágrafo

Aviso mostrado para um parágrafo específico onde a tradução automática não modificada ou revisada ultrapassa limites.

A porcentagem de modificações do usuário também é medida para cada parágrafo. Um parágrafo é considerado problemático quando contém mais de 85% da tradução automática inicial (ou, ao copiar o conteúdo do documento de origem, contém mais de 60% do conteúdo não modificado ou revisado).

O editor de tradução mostrará um aviso para cada parágrafo considerado problemático, incentivando futuras edições por parte do usuário. Em alguns casos, os usuários ainda podem publicar, mas a página resultante pode ser adicionada a uma categoria de rastreamento de traduções potencialmente não revisadas para a comunidade modificar ou atualizar. Em outros casos, os usuários podem não ter permissão para publicar.

A seguir estão alguns dos fatores considerados para determinar se os usuários podem publicar ou não (alguns dos quais ainda estão em desenvolvimento):

  • O número de parágrafos problemáticos. Os usuários são impedidos de publicar traduções com 50 ou mais parágrafos problemáticos. A publicação de traduções com menos de 50 parágrafos problemáticos é permitida, mas aqueles com 10 a 49 parágrafos problemáticos serão adicionados a uma categoria de rastreamento de traduções potencialmente não revisadas para a comunidade revisar.
  • Traduções anteriores excluídas. Para evitar problemas recorrentes, a ferramenta identifica os usuários cujas traduções publicadas foram excluídas nos últimos 30 dias e impõe limites muito mais rígidos aos esforços de tradução subsequentes. A publicação de traduções com menos de 50 parágrafos problemáticos é permitida, mas aqueles com 10 a 49 parágrafos problemáticos serão adicionados a uma categoria de rastreamento de traduções potencialmente não revisadas para a comunidade revisar.
  • Confirmação do usuário. Um limite menos estrito é considerado para os parágrafos que um usuário/a marca como resolvidos - tomado como um sinal de que o usuário/a revisou e confirmou o status da tradução. For paragraphs where the unmodified content warning is shown, but the user marks it as resolved, a less strict threshold is applied (accepting 95% of Machine translation or 75% of source content). This will provide a way to accommodate cases where the automatic translation was exceptionally good, but still avoid potential abuse of the feature (i.e., not blindly following a user's confirmation).

Contents not affected by the limits

Some content is not expected to be edited significantly, and thus is not considered when applying the limits described above. Very short section titles, citations, or the list of references are excluded from review. Otherwise, users could receive misleading warnings about translating content that should not be, such as book titles appearing in references or other proper nouns.

Limits on the mobile experience

For the mobile experience the initial set of limits follow a simpler approach. At the moment, only the overall percentage of unmodified machine translation for the whole translation is considered. On mobile, the whole translation consist of just one section of the article.

In particular, a warning is shown when the percentage of unmodified machine translation is over 85% for the whole section, and publishing is prevented when the percentage of unmodified machine translation is over 95%.

Feedback on how the limits system work on the mobile context would be very useful to determine how to evolve this initial approach.

Publication of fast unreviewed translations

Campaigns and contests can result in spikes of translations where some user unfamiliar with the community policies may focus on making many translations and not pay enough attention to review their contents. In order to emphasize quality over quantity, a mechanism has been defined to limit the publication of fast unreviewed translations.

After a user translates a large article, the next translation can only be started after some time has passed. The waiting period estimation considers 1 minute per paragraph up to 10 minutes. That is:

  • For articles with 10 paragraphs or less, we want to make sure that users spent translating it at least N minutes (one minute per paragraph)
  • For articles with more than 10 paragraphs we want to make sure that users spent translating it at least 10 minutes.


This has been applied on mobile initially since it is a space with less activity, and after measuring the impact we'll consider expanding it to desktop too.


Adjusting the limits

The limits described above provide a set of general mechanisms, but they may need adjustment depending on the particular needs of each wiki. Based on initial evaluation, the amount of modification needed to initial machine translation can range from 10% to 70%, depending on the language pair. On some wikis, the default limits may be too strict, generating unnecessary noise or preventing perfectly valid translations from being published. On other wikis, the limits may not be strict enough, allowing the publication of translations that have not been edited enough.

Adjusting the different thresholds allows each wiki to tailor the tool's limits according to its particular needs. Feedback from native speakers is essential in properly adjusting the limits imposed. If the current limits don't seem to work well based on your experience in creating or reviewing translations, please share your feedback, and we can explore how to better adjust them.

When providing feedback about adjusting the thresholds, we recommend that you first create several example translations (make sure to check the publishing options if your test is not intended to be published as regular content). When testing how the limits work for your language, it is useful to keep in mind the following:

  • Check for both cases. Make sure to check how the limits work for both: translations where the content has not been edited enough, versus where it has been edited enough.

In this way, you can more easily find the right balance for the tool's limits feature. Checking only one type of problem can lead to moving the thresholds too far in the opposite direction.

  • Check different content. Content in our wikis is highly diverse, and machine translation may work much better for some cases compared to others.

For example, content that is full of numeric data or technical names may require less editing by users than content with more descriptive text. Make sure to test by translating of a variety of different article types, of varying lengths, with disparate content.

  • Prepare to iterate. Adjusting the thresholds is an iterative process.

It may require custom adjustments to the thresholds or that you improve your general approach. In any case, after each change, further testing may be needed to verify the improvements made.

Adjusting the limits in collaboration with editors has proven to be effective. For example, initial results show that the Indonesian community was able to significantly reduce the number of problematic translations they were receiving by restricting the publication of translations with more than 70% of unmodified machine translation content. Similar adjustments have been made for Telugu and Assamese language wikis. There is no automatic tool that is infallible, and these limits are not an exception.

The process of content review by the community is still essential, but these limits provide communities with a tool to reduce the number of translations they have to focus on, making the review process much more effective. Por favor, compartilhe seus feedbacks e poderemos explorar como melhor ajustá-los.

Tracking potentially unreviewed translations

A tracking category with the name "cx-unreviewed-translation-category" is provided for communities to easily find articles that have been published with some content exceeding the recommended limits.

You can find this category in the list of tracking categories on each wiki. Using it, you can track articles that passed the limits preventing publication, but that still had some paragraphs that were edited less than expected. For example the Indonesian Wikipedia's category includes articles that have less than 40% of machine translation overall, but which have some paragraphs with more than 80% of unmodified machine translation.

Measuring translation quality

Evaluating content quality automatically is not trivial. Deletion ratios provide a useful measure for estimating whether the content created was good enough for the community involved not to delete it. Based on the analysis of deletion ratios, articles that are created as translations are less likely to be deleted when compared with articles created from scratch. This suggests that it may not be practical to set the limits for participation through translating much higher than those set for other ways of article creation.

Find published translations

Content translation adds a contenttranslation edit tag to the published translations. This allows communities the ability to use Recent changes, and similar tools, to focus on pages created using the translation tool. In addition, data on published translations and the statistics for machine translation use are available for anyone to analyze.

Inspect a specific translation

Translation debugger example

The Translation debugger is a tool that allows the inspection of some metadata for a given translation, including the percentage of machine translation used for the whole document, and the translation service used for each paragraph. For specific types of content such as templates, the Content Translation Server API can be queried to check how templates will be transferred across languages.

Other limits based on user expertise

Error showing a publishing restriction based on the user expertise. This example is based on the decision of the English Wikipedia community to limit publishing directly to the mainspace to extended autoconfirmed users only.

Some wikis have implemented other restrictions for translating based on the user rights as a way to reduce the creation of low-quality translations. For example, English Wikipedia requires users to be extended confirmed, which means they need to make 500 edits on English Wikipedia before they are allowed to publish a translation as an article. Newer editors can still publish translated articles in the User: or Draft: namespaces, and then move the article to the mainspace.

This restriction was created before the system of limits described in this page was available, and it is not the recommended approach to encourage the creation of good quality translations.

Before adding restrictions that do not take into account the content created, consider going through the process of adjusting the limits of unmodified content as described above. The limits can be made as strict as needed to prevent low-quality translations, while still allowing publication by editors making good translations.