Jump to content

モデレーターツール/オートモデレーター

From mediawiki.org
This page is a translated version of the page Moderator Tools/Automoderator and the translation is 51% complete.

AutomoderatorModerator Tools チームによって開発されている自動化された破壊行為防止ツールです。 これにより、管理者は機械学習モデルによるスコアリングに基づいて、不適切な編集の差し戻しを自動で行う機能を有効化し、設定できます。 Automoderatorは、ClueBot NGSeroBOTDexbotSalebot などの荒らし対策ボットと同様に機能しますが、全言語のコミュニティで利用可能にすることを目指しています。 AutoModerator の拡張機能に関する技術的な詳細については Extension:AutoModerator を参照してください。

この活動はWE1.3.1 WMF仮説の一部として現在追跡されています。 Automoderatorの行動の追加カスタマイズを可能にし、 Q1 でパイロットプロジェクトフィードバックに基づいて変更を加えれば、より多くのモデレーターはその機能セットと信頼性に満足し、それをウィキメディアプロジェクトで使用することを選択し、その結果、製品の採用を増加させます。

Automoderatorのためのcan now request コミュニティはWikipedia上にデプロイされます。

更新履歴

  • 2024年10月 - A dashboard is now available to track metrics about Automoderator's behaviour on the projects on which it is deployed.
  • 2024年10月 - We have made new datasets available to test the Multilingual Revert Risk model. We anticipate that this model should have better performance than the Language Agnostic model which is currently in use, but need your feedback to make an informed decision.
  • 2024年9月 - Indonesian and Ukrainian Wikipedias start using Automoderator (Automoderator; Автомодератор).
  • 2024年6月 - Turkish Wikipedia starts using Automoderator (Otomoderatör).
  • 2024年2月 - Designs have been posted for the initial version of the landing and configuration pages. Thoughts and suggestions welcome!
  • 2024年2月 - 試験過程から初期の結果 を公表しました。
  • 2023年10月 - 当チームの測定計画に対するご意見フィードバックを募集中で、それに基づいてこのプロジェクトの成功をどのデータで測ればよいか決めようとしており、試験用データを公開してAutomoderator の判断基準に関する皆さんのご意見ご提案の準備を整えました。
  • 2023年8月 - 最近ウィキマニアでは、このプロジェクトや、モデレーターに焦点を当てたその他のプロジェクトを紹介しました。 ここにセッションの録画があります。

動機

ウィキマニアで登壇(13:50)

ウィキメディアのプロジェクト群には、明確に元に戻す必要がある編集が多数あります。これらの編集は、ページを以前の状態に戻すことで明確に取り消されるべきです。 巡回者や管理者は、これらの編集を手動でレビューし、差し戻すために多くの時間を費やさなければなりません。これにより、多くの大規模なウィキで、アクティブなモデレーターの数に比べて対応が必要な作業量が圧倒的であるという感覚が生じています。 私たちはこれらの負担を軽減し、モデレーターの時間を他のタスクに割り当てることを目指しています。

Indonesian Wikipedia community call (11:50)

Reddit、Twitch、Discord などの多くのオンライン コミュニティ ウェブサイトは、「自動モデレーション」機能を提供しており、コミュニティのモデレーターが特定のアルゴリズムに基づいた自動モデレーション操作を設定できます。 ウィキペディアでは、AbuseFilter が特定の規則ベースの機能を提供していますが、例えば、モデレーターが罵り言葉のすべての綴りバリエーションに対して正規表現を入力する必要がある場合などは、手間のかかる作業となり、イライラする場合もあります。 それはまた、複雑で壊れやすいものであるため、多くのコミュニティが使用を避けています。 荒らし対策用のボットを走らせるコミュニティは少なくとも12件存在しますが、管理をコミュニティが担当するので、ローカルの技術力が求められる点、往々にして設定が不透明な点があります。 また前述のボット類が基準にする ORES 損害モデルは、かなりの期間にわたってトレーニングせずに進んでおり、また対応言語数も多くありません。

目標

  • 悪質な編集を巡回者のキューに入れないことでモデレートするべきものの量を減らします。
  • モデレーターに自動モデレートが信頼できる誤反応なしのツールであるという信用を与えます。
  • 誤反応にあった編集者が、エラーを解消して編集を戻す方法を確立します。

設計の調査

To learn about the research and design process we went through to define Automoderator's behaviour and interfaces, see /Design .

モデル

Automoderator は、ウィキメディア財団リサーチチームによって開発された「差し戻し危険性」機械学習モデルを使用します。 このモデルには2つバージョンがあります:

  1. 47言語をサポートした多言語モデル
  2. 言語に依存しないモデル This is the model which Automoderator currently uses, while we test the Multilingual model to better understand its performance.

これらのモデルは、全ての版について編集の差し戻しが必要な確率を示すスコアを計算します。 Each community can set their own threshold for this score, above which edits are reverted (see below).

現状でモデルはウィキペディアのみ対応しますが、トレーニングはウィキメディアの他のプロジェクト群でも可能です。 さらに、現在はメイン(記事)名前空間のみでトレーニングしています。 コミュニティから誤検知が報告されるため、モデルの継続的な再トレーニングを検討したいと考えています。 (T337501)

このプロジェクトを進める前に、最近の編集に対して言語非依存のモデルをテストする機会を提供しました。そこで、荒らしと戦う人にモデルがどれだけ正確か、そして提案する方法での利用に信頼が置けるかどうかを理解してもらいました。 The details and results of this test can be found at Moderator Tools/Automoderator/テスト .

We are also testing the Multilingual model to understand if it is preferable to use it instead of the Language Agnostic model.

See Moderator Tools/Automoderator/Multilingual testing to help us review the model's scores.


How it works

オートモデレータ・ソフトウェアの判断過程を示す図

Automoderator scores every main namespace edit on a Wikimedia project, fetches a score for that edit based on how likely it is to be reverted, and reverts any edits which score above a threshold which can be configured by local administrators. The revert is carried out by a system account, so it looks and behaves like other accounts - it has a Contributions page, User page, shows up in page histories, etc.

To reduce false positives and other undesirable behaviour, Automoderator will never revert the following kinds of edits:

  • An editor reverting one of their own edits
  • Reverts of one of Automoderator's actions
  • Those made by administrators or bots
  • New page creations

Configuration

Automoderator's configuration page (September 2024)

Automoderator is configured via a コミュニティ設定 form located at Special:CommunityConfiguration/AutoModerator, which edits the page MediaWiki:AutoModeratorConfig.json (the latter can be watchlisted so that updates show up in your Watchlist). After deployment, Automoderator will not begin running until a local administrator turns it on via the configuration page. In addition to turning Automoderator on or off, there are a range of configurations which can be customised to fit your community's needs, including the revert threshold, minor and bot edit flags, and whether Automoderator sends a talk page message after reverting (see below).

Certain configuration, such as Automoderator's username, can only be performed by MediaWiki developers. To request such a change, or to request other kinds of customisation, please file a task on Phabricator.

Localisation of Automoderator should primarily be carried out via TranslateWiki, but local overrides can also be made by editing the relevant システムメッセージ (Automoderator's strings all begin with automoderator-).

注意度

One of the most important configurations to set is the 'Caution level' or 'threshold' - this determines the trade-off Automoderator will make between coverage (how many bad edits are reverted) and accuracy (how frequently it will make mistakes). The higher the caution level, the fewer edits will be reverted, but the higher the accuracy; the lower the caution level, the more edit will be reverted, but the lower the accuracy. We recommend starting at a high caution level and gradually decreasing over time as your community becomes comfortable with how Automoderator is behaving.

Talk page message

To ensure that reverted editors who were making a good faith change are well equipped to understand why they were reverted, and to report false positives, Automoderator has an optional feature to send every reverted user a talk page message. This message can be translated in TranslateWiki and customised locally via the Automoderator-wiki-revert-message system message. The default (English) text reads as follows:

Hello! I am AutoModerator, an automated system which uses a machine learning model to identify and revert potentially bad edits to ensure Wikipedia remains reliable and trustworthy. Unfortunately, I reverted one of your recent edits to Article title.

If the same user receives another revert soon after the first, they will be sent a shorter message under the same section heading. Default (English) text:

I also reverted one of your recent edits to Article title because it seemed unconstructive. Automoderator (talk) 01:23, 1 January 2024 (UTC)

誤検知報告

Automoderator's 'report false positive' link.

Because no machine learning model is perfect, Automoderator will sometimes accidentally revert good edits. When this happens we want to reduce friction for the user who was reverted, and give them clear next steps. As such, an important step in configuring Automoderator is creating a false positive reporting page. This is a normal wiki page, which will be linked to by Automoderator in the talk page message, and in page histories and user contributions, as an additional possible action for an edit, alongside Undo and/or Thank.

評価指標

You can track data about how Automoderator is behaving on Wikimedia projects at the Activity Dashboard.

For data on the expected number of reverts that Automoderator would make per day on your project, see the testing subpage . Similar data for the multilingual model (not currently in use) can be found at /Multilingual testing .

使用法

Automoderator is currently deployed on the following Wikimedia projects:

プロジェクト デプロイ状況の詳細 利用者名 設定
インドネシア語版ウィキペディア T365792 Automoderator CommunityConfiguration
トルコ語版ウィキペディア T362622 Otomoderatör CommunityConfiguration
ウクライナ語版ウィキペディア T373823 Автомодератор CommunityConfiguration
ベトナム語版ウィキペディア T378343