Moderator Tools/Automoderator/Tests

This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 100% complete.

Pour aider les communautés à tester et à évaluer l'exactitude de Automoderator , nous mettons à disposition une feuille de calcul de test avec les données des modifications passées indiquant si Automoderator les aurait annulées ou pas.

Les décisions de l'automodérateur résultent d'un mélange entre le score du modèle d'apprentissage automatique et les paramètres internes. Bien que le modèle s'améliore avec le temps grâce au réapprentissage, nous cherchons aussi à améliorer sa précision en définissant quelques règles internes supplémentaires. Par exemple, nous avons observé que Automoderator identifiait parfois mal les utilisateurs qui annulaient leurs propres modifications comme étant du vandalisme. Pour améliorer, nous cherchons des exemples similaires et apprécions votre aide pour identifier ces cas.

Notez que ce test ne reflète pas nécessairement la forme finale de Automoderator - nous utiliserons les résultats de ce test pour l'améliorer !

Comment tester Automoderator

Si vous avez un compte Google :
1. Utilisez le lien Google Sheet ci-dessous et copiez-le
  - Vous pouvez faire cela en cliquant sur Fichier > Faire une copie ... après avoir ouvert le lien.
2. Une fois votre copie chargée, cliquez sur Partager dans le coin supérieur, puis donnez un accès à swaltonwikimedia.org (laissez Notifier coché), afin que nous puissions agréger vos réponses et recueillir les données sur la justesse de l'automodérateur.
  - Vous pouvez aussi modifier 'General access' en 'Anyone with the link' et partager un lien avec nous ou sur le wiki.
Alternativement, utilisez le lien .ods pour télécharger le fichier sur votre ordinateur.
- Après avoir ajouté vos décisions, veuillez nous renvoyer la feuille à swaltonwikimedia.org, afin que nous puissions regrouper vos réponses et collecter les données sur la justesse de Automoderator.

Une fois la feuille de calcul accédée...

Suivez les instructions de la feuille pour sélectionner un ensemble de données aléatoire, relisez 30 modifications, puis découvrez quelles décisions Automoderator aurait prises pour chaque modification.
- N'hésitez pas à explorer les données complètes dans l'onglet "Modifier les données et les scores".
- Si vous souhaitez revoir un autre ensemble de données, veuillez faire une nouvelle copie de la fiche pour éviter les données conflictuelles.
Rejoindre la discussion sur la page de discussion.

Alternativement, vous pouvez simplement vous plonger dans les onglets des projets individuels et commencer à analyser directement les données.

Google Sheet fichier .ods (téléchargement)

Nous souhaitons la bienvenue aux traductions de cette feuille - si vous souhaitez soumettre une traduction, veuillez en faire une copie, traduire les chaînes de l'onglet String translation et les renvoyer à swaltonwikimedia.org.

Si vous voulez que nous ajoutions les données d'une autre Wikipedia, faites-le nous savoir et nous serons heureux de le faire.

A propos de Automoderator

Le modèle de l'automodérateur est formé exclusivement avec les pages de l'espace de noms Main: de Wikipédia, limitant son ensemble de données aux modifications apportées aux articles de Wikipédia. Vous trouverez plus de détails ci-dessous.

Configuration interne

Dans la version actuelle de la feuille de calcul, en plus du score du modèle, Automoderator ne prend pas d'action sur :

les modifications effectuées par les administrateurs
les modifications réalisées par des robots
les modifications qui sont des auto-annulations
les créations de nouvelles pages

Les ensembles de données contiennent des modifications répondant à ces critères, mais Automoderator ne devrait jamais dire qu'il les annulera. Ce comportement et la liste ci-dessus seront mis à jour au fur et à mesure que les tests progresseront si nous ajoutons de nouvelles exclusions ou configurations.

Niveaux de prudence

Dans ce test, l'automodérateur dispose de cinq niveaux de prudence définissant le seuil de probabilité d'annulation au-dessus desquels l'automoderateur va annuler une modification.

Au niveau haut, Automoderator devra être très sûr pour annuler une modification. Cela signifie qu'il annulera en général moins de modifications mais avec une plus grande précision.

Au niveau bas, Automoderator sera moins strict avec son niveau de prudence. Il annulera davantage de modifications, mais avec moins de précision.

Les niveaux de prudence dans ce test ont été fixés par l'équipe Moderator Tools en fonction de nos observations de la précision et de la couverture des modèles. Pour illustrer le nombre d'annulations attendues à différents niveaux de prudence, voir ci-dessous :


	Modifications quotidiennes	Annulations quotidiennes des modifications	Moyenne quotidienne des annulations par Automoderator
	Modifications quotidiennes	Annulations quotidiennes des modifications	Très prudent >0,99	Prudent >0,985	Assez prudent >0,98	Prudence faible >0,975	Pas prudent >0,97
Wikipédia en anglais	140 000	14 600	152	350	680	1 077	1 509
Wikipédia en français	23 200	1 400	24	40	66	98	136
Wikipédia en allemand	23 000	1 670	14	25	43	65	89
Wikipédia en espagnol	18 500	3 100	57	118	215	327	445
Wikipédia en russe	16 500	2 000	34	57	88	128	175
Wikipédia en japonais	14 500	1 000	27	37	48	61	79
Wikipédia en chinois	13 600	890	9	16	25	37	53
Wikipédia en italien	13 400	1 600	40	61	99	151	211
Wikipédia en polonais	5 900	530	10	16	25	35	45
Wikipédia en portugais	5 700	440	2	7	14	21	30
Wikipédia en hébreu	5 400	710	16	22	30	38	48
Wikipédia en persan	5 200	900	13	26	44	67	92
Wikipédia en coréen	4 300	430	12	17	23	30	39
Wikipédia en indonésien	3 900	340	7	11	18	29	42
Wikipédia en turc	3 800	510	4	7	12	17	24
Wikipédia en arabe	3 600	670	8	12	18	24	31
Wikipédia en tchèque	2 800	250	5	8	11	15	20
Wikipédia en roumain	1 300	110	2	2	4	6	9
Wikipédia en croate	500	50	1	2	2	3	4
...	...	...	...	...	...	...	...
Tous les projets Wikipedia			538	984	1 683	2 533	3 483

Ces données peuvent être consultées pour d'autres projets Wikimedia.

Score d'une modification individuelle

Nous avons créé un script utilisateur simple pour récupérer un score de risque d'annulation pour une modification individuelle. Importer simplement User:JSherman (WMF)/revertrisk.js dans votre commons.js avec mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );.

Vous devriez alors trouver une entrée Get revert risk score dans le menu Outils de votre barre latérale. Notez que cela n'affichera que le score du modèle et ne tient pas compte des configurations internes de l'automodérateur telles qu'elles sont détaillées ci-dessus. Voir le tableau ci-dessus pour les scores au-dessus desquels nous étudions le taux de faux positifs de Automoderator.

Résultats initiaux

Résultats quantitatifs

22 feuilles de calcul de test nous ont été partagées, totalisant plus de 600 modifications révisées sur 6 projets Wikimedia. Nous avons agrégé les données pour analyser la précision de l'automodérateur à différents niveaux de prudence :

Pas prudent (0.97)	Prudence faible (0.975)	Assez prudent (0.98)	Prudent (0.985)	Très prudent (0.99)
75%	82%	93%	95%	100%

Dans Moderator Tools/Automoderator/Plan de mesure nous avons dit que nous voulions que l'option la plus permissive avec laquelle Automoderator peut être initialisé afin d'avoir une précision de 90%. Les niveaux non prudent et de faible prudence sont nettement inférieurs à cela, ce qui n'est pas surprenant car nous n'avions pas de données claires à partir desquelles choisir ces seuils initiaux. Nous supprimerons le seuil Pas prudent car un taux d'erreur de 25% est clairement trop bas pour les communautés. Nous conserverons pour l'instant Prudence faible et surveillerons comment sa précision évolue au fil des améliorations du modèle et de l'automodérateur conduisanr au déploiement. Nous voulons nous tromper du côté de l'automodérateur qui ne supprime pas les mauvaises modifications, donc c'est une priorité pour nous de continuer à examiner.

Lorsque nous aurons les données de précision avec le monde réel à partir du déploiement pilote de l'Automoderator, nous pourrons enquêter davantage sur cela et envisager de modifier davantage les seuils disponibles.

Résultats qualitatifs

Sur la page de discussion et d'ailleurs nous avons aussi reçu des idées qualitatives de la part des patrouilleurs.

Les commentaires généraux sur la précision de l'automodérateur furent positifs, les éditeurs se sentant à l'aise à divers seuils, y compris certains à l'extrémité inférieure de l'échelle.

Certains éditeurs ont exprimé des inquiétudes quant au volume relativement faible des modifications que Automoderator pourrait réellement annuler. C'est un sujet dont nous continuerons à discuter avec les communautés. À partir de notre analyse (T341857#9054727), nous avons constaté que Automoderator fonctionnerait à une capacité quelque peu similaire à celle des robots anti-vandalisme existants développés par les bénévoles, mais nous continuerons à rechercher des moyens d'augmenter la couverture de Automoderator tout en minimisant les faux positifs.

Prochaines étapes

Sur la base des résultats ci-dessus, nous avons confiance dans la précision du modèle et nous prévoyons de poursuivre notre travail sur Automoderator. Nous allons maintenant commencer le travail technique sur le logiciel et envisager les architectures de l'interface utilisateur. Nous espérons que lors de la prochaine mise à jour que nous partagerons, nous aurons les trames de la configuration pour vos commentaires.

En attendant, n'hésitez pas à continuer à tester Automoderator via le processus ci-dessus - plus il y aura de données et de connaissances, plus l'impact sera positif sur ce projet.