Překlad obsahu/strojový překlad/MinT
MinT (Machine in Translation) je překladatelská služba založená na otevřených neuronových modelech strojového překladu. Služba je umístěna v infrastruktuře Wikimedia Foundation a bude součástí seznamu dostupných systémů strojového překladu (MT) pro uživatele Content Translation a dalších projektů Wikimedia. Poskytované překlady jsou založeny na [$2 NLLB-200], OPUS, IndicTrans2 a Softcatalà překladových modelech, které byly optimalizovány pro výkon pomocí [$4 knihovny OpenNMT Ctranslate2], aby se [$5 vyhnuly potřebě akcelerace GPU]. Další podrobnosti najdete ve zdrojovém kódu, specifikaci API a testovací instanci.
Klíčové vlastnosti
- Společnosti MinT nejsou zasílány žádné neveřejné osobní údaje uživatelů. Systém MT bude přístupný prostřednictvím rozhraní API. Obsah článku (volně licencovaný) je zasílán na server MinT a nedochází k přímé komunikaci mezi uživatelem a externími službami a službě MinT nejsou zasílány žádné neveřejné osobní údaje uživatelů (IP, uživatelské jméno). Klient kontaktující MinT je open source a můžete si ho zkontrolovat zde. Přestože je služba MinT umístěna v infrastruktuře Wikimedia, integrace probíhá podle stejného schématu jako u ostatních externích služeb (viz také schéma tohoto technického nastavení na konci kapitoly).
- Veškeré informace, na které se vztahují autorská práva, jsou z MinT vráceny pod svobodnou licencí. Při použití MinT je získána přeložená verze obsahu Wikipedie. Otevřenou právní otázkou je, zda je takový strojově generovaný obsah chráněn autorským právem. V rozsahu, v jakém jsou překlady MinT chráněny autorským právem, jsou tyto překlady k dispozici pod stejnou svobodnou licencí jako překládaný obsah Wikipedie. Uživatelé je mohou upravovat a publikovat jako součást Wikipedie, aniž by to bylo v rozporu se stávajícími zásadami. Výsledný obsah přeložený MinT a úpravy uživatelů budou k dispozici pod stejnou licencí, jaká se používá pro ostatní články ve Wikipedii.
- Přínos pro širší komunitu překladatelů open source. Překlady získané z MinT a uživatelské úpravy budou veřejně dostupné. Překlady po úpravách mají zvláštní význam pro komunitu překladatelů, kteří mohou tento zdroj využít k vytvoření nových překladatelských služeb na podporu jazyků, pro které dosud není k dispozici strojový překlad s otevřeným zdrojovým kódem. To pomůže vývojářům vytvářet a zdokonalovat systémy strojového překladu.
- Uživatelé jej mohou zakázat. Automatický překlad je volitelný nástroj v Content Translation. Uživatelé mají možnost jej vypnout, pokud jej z nějakého důvodu nepovažují za užitečný. Přestože mnoho uživatelů Překladu obsahu požadovalo překladatelské služby, každý jednotlivý uživatel se nakonec rozhodne, zda je chce používat, nebo ne.
Otázky k této službě
V této části jsme se zabývali některými bezprostředními otázkami týkajícími se MinT. Tyto informace jsou k dispozici také na stránce Časté dotazy k překladu obsahu.
S jakými jazyky pracuje MinT? Plánuje se přidání dalších?
MinT je navržen tak, aby mohl hostit více otevřených překladových modelů. Počet podporovaných jazyků bude záviset na nich. Seznam dostupných systémů strojového překladu (MT) bude obsahovat nejaktuálnější data.
Jak se liší používání MinT od používání programu Apertium nebo jiných programů?
Jako uživatel služby Content Translation nepocítíte v rozhraní překladu žádný rozdíl, protože MinT zobrazí přeložený obsah stejným způsobem, jakým to v současné době dělá Apertium nebo jiné služby pro podporované jazykové páry. Různé služby poskytují různou úroveň kvality překladu v závislosti na jazyce a konkrétním obsahu. Můžete zkusit a změnit mezi dostupnými službami tu, která poskytuje nejlepší výchozí překlad pro daný odstavec.
Jak probíhá strojový překlad, pokud zvolím MinT?
Když uživatel začne překládat článek, obsah HTML každé části zdrojového článku se odešle do MinT. Služba MinT zpracuje požadavek a použije jeden z dostupných modelů překladu na základě podporovaného jazyka a konfigurace. Získá se přeložená verze, která se zobrazí v příslušném sloupci překladu v části Překlad obsahu. Odkazy a reference jsou upraveny jako obvykle a uživatelé mohou obsah upravit podle potřeby.
Tento postup pokračuje pro všechny části překládaného článku. Pro lepší výkonnost jsou překlady po sobě jdoucích částí předem načteny. Uživatel může nezveřejněný překlad uložit (aby na něm mohl později znovu pracovat), opravit nebo článek zveřejnit obvyklým způsobem. Článek je na Wikipedii publikován jako každý jiný běžný článek s uvedením příslušných autorských práv a licencí.
Je MinT založen na open source softwaru?
Služba MinT je open source a integruje modely, které jsou uvolněny jako open source:
- Výzkumný tým umělé inteligence v Meta uvolnil překladatelské modely používané NLLB-200 s licencí open source a datovou sestavu použitou pro trénink v rámci projektu Žádný jazyk nezůstal pozadu.
- Projekt OPUS poskytuje předpřipravené neuronové modely překladu natrénované na datech OPUS s licencí open source.
Tyto modely byly optimalizovány z hlediska výkonu pomocí knihovny OpenNMT Ctranslate2, která je rovněž knihovnou s otevřeným zdrojovým kódem.
Content Translation se vyvinul z dlouhodobé potřeby překlenout rozdíly v množství obsahu mezi Wikipediemi v různých jazycích. Stejně jako ostatní software používaný na stránkách Wikimedia je i Content Translation open source. I v tomto konkrétním případě používáme open source klienta pro interakci s externí službou a import volně licencovaného obsahu, abychom uživatelům pomohli rozšířit naše svobodné znalosti. Abychom mohli používat MinT, nepřidáváme do kódu Content Translation ani na webové stránky a servery Wikimedia žádný vlastněný software.
Mám se při používání MinT obávat o své osobní údaje?
Bez ohledu na použitou službu si můžete být jisti, že bude odeslán pouze obsah existujících článků Wikipedie a do překladu bude přidán pouze obsah s volnou licencí. Komunikace s těmito službami probíhá na straně serveru, takže jsou izolovány od uživatelského zařízení a nemají přístup k neveřejným osobním údajům uživatelů. Podrobnější informace naleznete v tomto schématu.
Co když je MinT jediný dostupný nástroj pro strojový překlad a já ho nechci používat?
Strojový překlad je volitelná funkce překladu obsahu, kterou můžete snadno podle libosti vypnout. Pokud budou pro vaše jazyky přidány další systémy strojového překladu, můžete MinT opět povolit a vybrat si službu MinT podle svého výběru.
Bude obsah přeložený MinT volně k použití ve Wikipedii?
Ano, obsah získaný od MinT je jinak volně dostupný na webové překladatelské platformě. Pro snadné použití jej Content Translation přijímá prostřednictvím rozhraní API, aby byl bezproblémově dostupný v překladatelském rozhraní. Tento obsah mohou uživatelé (v případě potřeby) upravovat a používat v článcích Wikipedie pod svobodnými licencemi.
Lze tento obsah obecně použít ke zlepšení systémů strojového překladu?
Ano, překlady provedené v nástroji Content Translation jsou uloženy v naší databázi. Tyto informace budou veřejně přístupné, aby je mohl kdokoli použít jako příklady překladů pro zlepšení svých překladatelských služeb (od univerzitních výzkumných skupin, přes open source projekty až po komerční společnosti, prostě kdokoli!). K obsahu lze přistupovat prostřednictvím Content Translation API. Upozorňujeme, že veřejně dostupné jsou pouze informace týkající se přeloženého textu. Patří sem - zdrojový a přeložený text, informace o zdrojovém a cílovém jazyce a identifikátor segmentu textu.