Moderator Tools/Automoderator/Tests
Pour aider les communautés à tester et à évaluer l'exactitude de Automoderator , nous mettons à disposition une feuille de calcul de test avec les données des modifications passées indiquant si Automoderator les aurait annulées ou pas.
Les décisions de l'automodérateur résultent d'un mélange entre le score du modèle d'apprentissage automatique et les paramètres internes. Bien que le modèle s'améliore avec le temps grâce au réapprentissage, nous cherchons aussi à améliorer sa précision en définissant quelques règles internes supplémentaires. Par exemple, nous avons observé que Automoderator identifiait parfois mal les utilisateurs qui annulaient leurs propres modifications comme étant du vandalisme. Pour améliorer, nous cherchons des exemples similaires et apprécions votre aide pour identifier ces cas.
Notez que ce test ne reflète pas nécessairement la forme finale de Automoderator - nous utiliserons les résultats de ce test pour l'améliorer !
Comment tester Automoderator
- Si vous avez un compte Google :
- Utilisez le lien Google Sheet ci-dessous et copiez-le
- Vous pouvez faire cela en cliquant sur Fichier > Faire une copie ... après avoir ouvert le lien.
- Une fois votre copie chargée, cliquez sur Partager dans le coin supérieur, puis donnez un accès à swaltonwikimedia.org (laissez Notifier coché), afin que nous puissions agréger vos réponses et recueillir les données sur la justesse de l'automodérateur.
- Vous pouvez aussi modifier 'General access' en 'Anyone with the link' et partager un lien avec nous ou sur le wiki.
- Utilisez le lien Google Sheet ci-dessous et copiez-le
- Alternativement, utilisez le lien .ods pour télécharger le fichier sur votre ordinateur.
- Après avoir ajouté vos décisions, veuillez nous renvoyer la feuille à swaltonwikimedia.org, afin que nous puissions regrouper vos réponses et collecter les données sur la justesse de Automoderator.
Une fois la feuille de calcul accédée...
- Suivez les instructions de la feuille pour sélectionner un ensemble de données aléatoire, relisez 30 modifications, puis découvrez quelles décisions Automoderator aurait prises pour chaque modification.
- N'hésitez pas à explorer les données complètes dans l'onglet "Modifier les données et les scores".
- Si vous souhaitez revoir un autre ensemble de données, veuillez faire une nouvelle copie de la fiche pour éviter les données conflictuelles.
- Rejoindre la discussion sur la page de discussion.
Alternativement, vous pouvez simplement vous plonger dans les onglets des projets individuels et commencer à analyser directement les données.
Nous souhaitons la bienvenue aux traductions de cette feuille - si vous souhaitez soumettre une traduction, veuillez en faire une copie, traduire les chaînes de l'onglet String translation et les renvoyer à swaltonwikimedia.org.
Si vous voulez que nous ajoutions les données d'une autre Wikipedia, faites-le nous savoir et nous serons heureux de le faire.
A propos de Automoderator
Le modèle de l'automodérateur est formé exclusivement avec les pages de l'espace de noms Main: de Wikipédia, limitant son ensemble de données aux modifications apportées aux articles de Wikipédia. Vous trouverez plus de détails ci-dessous.
Configuration interne
Dans la version actuelle de la feuille de calcul, en plus du score du modèle, Automoderator ne prend pas d'action sur :
- les modifications effectuées par les administrateurs
- les modifications réalisées par des robots
- les modifications qui sont des auto-annulations
- les créations de nouvelles pages
Les ensembles de données contiennent des modifications répondant à ces critères, mais Automoderator ne devrait jamais dire qu'il les annulera. Ce comportement et la liste ci-dessus seront mis à jour au fur et à mesure que les tests progresseront si nous ajoutons de nouvelles exclusions ou configurations.
Niveaux de prudence
Dans ce test, l'automodérateur dispose de cinq niveaux de prudence définissant le seuil de probabilité d'annulation au-dessus desquels l'automoderateur va annuler une modification.
- Au niveau haut, Automoderator devra être très sûr pour annuler une modification. Cela signifie qu'il annulera en général moins de modifications mais avec une plus grande précision.
- Au niveau bas, Automoderator sera moins strict avec son niveau de prudence. Il annulera davantage de modifications, mais avec moins de précision.
Les niveaux de prudence dans ce test ont été fixés par l'équipe Moderator Tools en fonction de nos observations de la précision et de la couverture des modèles. Pour illustrer le nombre d'annulations attendues à différents niveaux de prudence, voir ci-dessous :
Modifications quotidiennes | Annulations quotidiennes des modifications | Moyenne quotidienne des annulations par Automoderator | |||||
---|---|---|---|---|---|---|---|
Très prudent
>0,99 |
Prudent
>0,985 |
Assez prudent
>0,98 |
Prudence faible
>0,975 |
Pas prudent
>0,97 | |||
Wikipédia en anglais | 140 000 | 14 600 | 152 | 350 | 680 | 1 077 | 1 509 |
Wikipédia en français | 23 200 | 1 400 | 24 | 40 | 66 | 98 | 136 |
Wikipédia en allemand | 23 000 | 1 670 | 14 | 25 | 43 | 65 | 89 |
Wikipédia en espagnol | 18 500 | 3 100 | 57 | 118 | 215 | 327 | 445 |
Wikipédia en russe | 16 500 | 2 000 | 34 | 57 | 88 | 128 | 175 |
Wikipédia en japonais | 14 500 | 1 000 | 27 | 37 | 48 | 61 | 79 |
Wikipédia en chinois | 13 600 | 890 | 9 | 16 | 25 | 37 | 53 |
Wikipédia en italien | 13 400 | 1 600 | 40 | 61 | 99 | 151 | 211 |
Wikipédia en polonais | 5 900 | 530 | 10 | 16 | 25 | 35 | 45 |
Wikipédia en portugais | 5 700 | 440 | 2 | 7 | 14 | 21 | 30 |
Wikipédia en hébreu | 5 400 | 710 | 16 | 22 | 30 | 38 | 48 |
Wikipédia en persan | 5 200 | 900 | 13 | 26 | 44 | 67 | 92 |
Wikipédia en coréen | 4 300 | 430 | 12 | 17 | 23 | 30 | 39 |
Wikipédia en indonésien | 3 900 | 340 | 7 | 11 | 18 | 29 | 42 |
Wikipédia en turc | 3 800 | 510 | 4 | 7 | 12 | 17 | 24 |
Wikipédia en arabe | 3 600 | 670 | 8 | 12 | 18 | 24 | 31 |
Wikipédia en tchèque | 2 800 | 250 | 5 | 8 | 11 | 15 | 20 |
Wikipédia en roumain | 1 300 | 110 | 2 | 2 | 4 | 6 | 9 |
Wikipédia en croate | 500 | 50 | 1 | 2 | 2 | 3 | 4 |
... | ... | ... | ... | ... | ... | ... | ... |
Tous les projets Wikipedia | 538 | 984 | 1 683 | 2 533 | 3 483 |
Ces données peuvent être consultées pour d'autres projets Wikimedia.
Score d'une modification individuelle
Nous avons créé un script utilisateur simple pour récupérer un score de risque d'annulation pour une modification individuelle.
Importer simplement User:JSherman (WMF)/revertrisk.js dans votre commons.js avec mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );
.
Vous devriez alors trouver une entrée Get revert risk score dans le menu Outils de votre barre latérale. Notez que cela n'affichera que le score du modèle et ne tient pas compte des configurations internes de l'automodérateur telles qu'elles sont détaillées ci-dessus. Voir le tableau ci-dessus pour les scores au-dessus desquels nous étudions le taux de faux positifs de Automoderator.
Résultats initiaux
Résultats quantitatifs
22 feuilles de calcul de test nous ont été partagées, totalisant plus de 600 modifications révisées sur 6 projets Wikimedia. Nous avons agrégé les données pour analyser la précision de l'automodérateur à différents niveaux de prudence :
Pas prudent (0.97) | Prudence faible (0.975) | Assez prudent (0.98) | Prudent (0.985) | Très prudent (0.99) |
---|---|---|---|---|
75% | 82% | 93% | 95% | 100% |
Dans Moderator Tools/Automoderator/Plan de mesure nous avons dit que nous voulions que l'option la plus permissive avec laquelle Automoderator peut être initialisé afin d'avoir une précision de 90%. Les niveaux non prudent et de faible prudence sont nettement inférieurs à cela, ce qui n'est pas surprenant car nous n'avions pas de données claires à partir desquelles choisir ces seuils initiaux. Nous supprimerons le seuil Pas prudent car un taux d'erreur de 25% est clairement trop bas pour les communautés. Nous conserverons pour l'instant Prudence faible et surveillerons comment sa précision évolue au fil des améliorations du modèle et de l'automodérateur conduisanr au déploiement. Nous voulons nous tromper du côté de l'automodérateur qui ne supprime pas les mauvaises modifications, donc c'est une priorité pour nous de continuer à examiner.
Lorsque nous aurons les données de précision avec le monde réel à partir du déploiement pilote de l'Automoderator, nous pourrons enquêter davantage sur cela et envisager de modifier davantage les seuils disponibles.
Résultats qualitatifs
Sur la page de discussion et d'ailleurs nous avons aussi reçu des idées qualitatives de la part des patrouilleurs.
Les commentaires généraux sur la précision de l'automodérateur furent positifs, les éditeurs se sentant à l'aise à divers seuils, y compris certains à l'extrémité inférieure de l'échelle.
Certains éditeurs ont exprimé des inquiétudes quant au volume relativement faible des modifications que Automoderator pourrait réellement annuler. C'est un sujet dont nous continuerons à discuter avec les communautés. À partir de notre analyse (T341857#9054727), nous avons constaté que Automoderator fonctionnerait à une capacité quelque peu similaire à celle des robots anti-vandalisme existants développés par les bénévoles, mais nous continuerons à rechercher des moyens d'augmenter la couverture de Automoderator tout en minimisant les faux positifs.
Prochaines étapes
Sur la base des résultats ci-dessus, nous avons confiance dans la précision du modèle et nous prévoyons de poursuivre notre travail sur Automoderator. Nous allons maintenant commencer le travail technique sur le logiciel et envisager les architectures de l'interface utilisateur. Nous espérons que lors de la prochaine mise à jour que nous partagerons, nous aurons les trames de la configuration pour vos commentaires.
En attendant, n'hésitez pas à continuer à tester Automoderator via le processus ci-dessus - plus il y aura de données et de connaissances, plus l'impact sera positif sur ce projet.