Moderator Tools/Automoderator/Plan de mesure
Ceci est un résumé du projet actuel du plan de mesure de Automoderator, qui décrit comment nous évaluerons si le projet a réussit à atteindre ses objectifs et comprendre l'impact qu'il a sur les projets Wikimedia.
La page est divisée en trois hypothèses que nous avons sur Automoderator. Chaque hypothèse a deux points de données principaux (les nombres qui nous intéressent le plus) suivis d'un tableau qui détaille nos sujets de recherche actuels et les méthodes d'évaluation ou les métriques utilisées pour les tester. Les sujets de recherche sont alimentés à la fois par nos discussions internes sur le projet et les conversations que nous avons eues avec les contributeurs (comme ici sur MediaWiki).
Ce document n'est pas figé ni finalisé et pourra encore évoluer au fur et à mesure que nous en apprendrons plus. Malheureusement nous ne garantissons pas que cette page restera actuelle après les premières discussions que nous aurons eues à son propos. Il est possible que certaines questions ne trouvent pas de réponse au vu des données disponibles, ou qui pourraient amener d'autres questions par la suite. Nous visons à partager tout changement majeur dans les mises à jour du projet.
Dites nous ce que vous pensez réellement de ce plan sur la page de discussion du projet - est-ce que cela englobe les principaux points de données que nous devrions suivre ? Manque-t-il des choses ou avez-vous des choses à faire ajouter ? Quelles données vous permettrons de dire que ce projet a réussi ?
QN = mesures quantitatives (données)
QL = mesures qualitatives (telles que les sondages, les commentaires non structurés)
Hypothèse n°1
Hypothèse : Automoderator augmentera la couverture des patrouilleurs en réduisant la surcharge générale due aux relectures et aux annulations des modifications récentes, et en leur permettant effectivement de se consacrer à d'autres activités.
Données de premier ordre :
- Automoderator a une efficacité moyenne de 90%.
- L'activité d'édition d'un modérateur a augmenté de 10% dans les flux de travail hors patrouille (par exemple, les contributions au contenu ou autres processus de modération).
Sujets de recherche | Méthode d'évaluation ou métrique(s) | Notes |
---|---|---|
Est-ce que Automoderator est efficace vis à vis du vandalisme sur les wikis ?
|
[QN] Alors que les seuils de succès peuvent changer en fonction de la communauté, l'équipe assimilera à un succès :
|
Nous ne savons pas encore ce qu'est un niveau raisonnable de couverture pour Automoderator, alors nous définirons X au fur et à mesure que nous avancerons dans le projet.
Chaque communauté pourra personnaliser le niveau de précision et de couverture pour sa communauté, de sorte que 90% serait un chiffre de base s'appliquant à l'option la plus permissive disponible. |
[QN] Pendant combien de temps les articles vandalisés restent-ils avant d'être annulés et combien de visiteurs les ont vus alors ?
|
Les données de Pageview ne sont pas actuellement disponibles sur la base d'une révision, mais c'est une chose que nous pouvons commencer à collecter (T346350). | |
Automodérateur réduit-il la charge de travail des patrouilleurs humains dans la lutte contre le vandalisme ? | [QN] Proportion des modifications annulées par Automoderator, par les patrouilleurs humains et par ceux qui utilisent des outils d'assistance, sur une période de 1, 8, 24, et 48 heures après la modification. | patrouilleurs humains assistés par des outils représente les patrouilleurs qui utilisent des outils tels que Huggle ou SWViewer. |
[QN/QL] Est-ce que le nombre de tâches concernant les différentes modérations de contenu est en diminution ?
|
Nous supposons que les patrouilleurs pourraient passer leur temps supplémentaire sur d'autres sujets.
Nous devrions peut-être commencer par une recherche qualitative ici pour comprendre quelles tâches en attente nous pouvons ou devrions suivre. | |
Est-ce que Automoderator permet aux patrouilleurs de passer leur temps sur d'autres activités qui les intéressent ?
|
[QN] Distribution des contributions et des actions (pré et post déploiement) par les patrouilleurs au travers de :
Liste des tentatives de contribution
Les patrouilleurs des wikis pilotes seront interrogés pour
|
Il existe plusieurs manières d'envisager ce sujet, donc nous devrions donc peut-être parler aux patrouilleurs pour comprendre les activités à considérer. |
[QL] Perception des patrouilleurs sur la manière dont ils contribuent au post-deploiement du wiki.
Changements qualitatifs dans les flux de travail par rapport au déploiement pré-automodérateur. En fait, font-ils du travail de non-patrouilleur ou simplement du travail de patrouille plus spécialisé que l'automodérateur ne peut pas gérer ? |
Hypothèse n°2
Hypothèse : Les communautés sont enthousiastes à l'idée d'utiliser et d'adopter Automoderator car elles pensent que cela est efficace pour contrer le vandalisme.
Données de premier ordre :
- L'automodérateur sera activé sur deux projets Wikimedia à la fin de l'exercice 23 / 24 (juin 2024).
- 5% des patrouilleurs utilisent les outils et des processus Automoderator sur les projets où il est activé.
Sujets de recherche | Méthode d'évaluation ou métrique(s) | Notes |
---|---|---|
Les communautés sont-elles enthousiastes à l'idée d'utiliser Automoderator ? | [QL] Quel est le sentiment particulièrement envers Automoderator et (ou) plus généralement les outils de modération automatique, à la fois parmis les éditeurs qui sont des administrateurs, et ceux qui ne le sont pas.
[QL] Existence de documentation utilisateur pour Automoderator (comme des indications ou des règles d'utilisation) [QL] Prise en charge de Automoderator par les groupes spécialisés sur les compteurs de vandalisme (particulièrement ceux inter-wikis) - les stewards, les administrateurs système globaux, SWMT [QN] Activité de traduction concernant les chaînes de caractères (TranslateWiki) et la documentation (MediaWiki). |
|
[QN] Les communautés ont-elles activé Automoderator et l'ont-elles gardé actif ? et pendant combien de temps ?
|
||
Les communautés adoptent-elles activement Automoderator sachant qu'il représente une part importante de leur flux de travail ? | Note : peut changer en fonction de l'architecture ou de la forme finale que prendra Automoderator
[QN] Quelle est la proportion des rapports de faux positifs du journal qui ont été relus et reste encore à relire ? |
|
Note : peut changer en fonction de l'architecture ou de la forme finale que prendra Automoderator
[QN] Quelle est l'utilisation des outils d'exploration ou de visualisation du modèle ?
|
||
Note : peut être développé en fonction de l'architecture ou de la forme finale que prendra Automoderator
[QN] A quelle fréquence la configuration de Automoderator est-elle réajustée ?
|
Cela ne peut être révélateur que lorsque l'automodérateur est activé et configuré initialement. Après cela, nous ne pouvons pas nous attendre à des niveaux élevés d'activité. | |
Les communautés sont-elles en mesure de comprendre l'impact de Automoderator sur la santé de leur communauté ? | [QL] tests UX de la page de configuration de Automoderator et tableaux d'affichage (selon le cas) | Sur nos premiers wikis pilotes, nous aurons peut-être besoin d'avoir simplement une page json ou similaire, avant que Community Configuration soit prête à offrir une meilleure expérience de l'interface utilisateur. |
Hypothèse n°3
Hypothèse : Lorsque des modifications de bonne foi sont annulées par Automoderator, les contributeurs concernés peuvent rapporter les faux positifs, et les actions de restauration ne perturbent pas leur parcours, car il est clair que Automoderator est un outil automatique qui ne les juge pas personnellement.
Note : comme les expériences et les parcours des éditeurs varient considérablement en fonction de leur équipement, les métriques suivantes, là où elles s'appliquent, doivent être réparties selon la plateforme et l'équipement.
Données de premier ordre :
- 90% des rapports de faux positifs reçoivent une réponse ou une action d'un autre éditeur.
Sujets de recherche | Méthode d'évaluation ou métrique(s) | Notes |
---|---|---|
Les rédacteurs de bonne foi sont-ils conscients des annulations effectuées par Automoderator et sont-ils en mesure de signaler quand ils croient que c'est un faux positif ? | [QL/QN] Quel est le sentiment des nouveaux utilisateurs de bonne foi quand leurs modifications ont été annulées par Automoderator ?
|
Il peut s'agir d'un sondage, d'entrevues ou d'une utilisation de QuickSurveys. |
Les utilisateurs qui ont l'intention de soumettre un rapport de faux positif sont-ils en mesure de le soumettre avec succès ? | [QN] Quelle est la proportion des utilisateurs qui ont commencé le processus de remplissage du rapport et qui l'ont terminé ?
[QL] flux des rapports des tests UX concernant les faux positifs. |
|
Quel est l'effet de Automoderator sur le parcours de contribution des nouveaux éditeurs ?
|
[QN] essais A/B : Automoderator choisit aléatoirement une action d'annulation ou pas pour un nouvel utilisateur donné (à détailler ultérieurement). Le groupe de traitement sera composé de nouveaux arrivants sur lesquels Automoderator prend une action d'annulation, et le groupe de contrôle sera composé d'autres nouveaux arrivants sur lesquels Automoderator aurait dû prendre une action d'annulation (sur la base du score du risque d'annulation) mais ne l'a pas fait dans le cadre de l'expérience, mais pour lesquels des mesures ont été prises plus tard par des modérateurs humains.
[QL] Quicksurveys ou un outil similaire de sondage rapide peut être réalisable.
|
Conserver et surveiller les nouveaux éditeurs est difficile, mais nous avons beaucoup d'expérience à ce sujet à la Fondation Wikimedia dans l'équipe de croissance. Nous allons les rencontrer pour en savoir plus sur les options que nous avons pour évaluer cette question de recherche. |
Garde-fous
En plus de ce plan de mesures qui concerne les objectifs, nous envisageons aussi de définir des métriques garde-fous qui nous permettrons de nous assurer que Automoderator n'a pas d'impact négatif. Par exemple est-ce qu'il existe une poignée de nouveaux contributeurs qui s'arrêtent parce que les annulations de Automoderator deviennent trop frustrantes, ou d'un autre côté, est-ce que les patrouilleurs deviennent trop complaisants en s'en remettant totalement à Automoderator ? Ces barrières n'ont pas encore été documentées, mais nous les partagerons ici quand elles le seront.
Si vous avez des idées sur ce qui semblerait boîteux dans ce projet, et sur les points de données que nous pourrions surveiller pour vérifier les scénarios, veuillez nous le dire.
Métriques de la phase pilote
Bien que le plan de mesure puisse être utile pour comprendre et évaluer l'impact du projet à long terme, nous avons identifié certaines métriques sûres sur lesquelles nous devons nous concentrer pour la phase pilote. Le but de ces tests est de fournir un aperçu de l'activité de l'automodérateur à l'équipe et aussi à la communauté, et de surveiller pour s'assurer que rien n'est anormal. Si vous avez des suggestions pour des métriques supplémentaires que nous devrions suivre pendant la phase pilote, veuillez laisser votre message sur la page de discussion.
Indicateur pour | Métrique(s) | Dimensions |
---|---|---|
Volume | Nombre de modifications annulées par Automoderator (en valeur absolue et en pourcentage sur toutes les annulations) | Utilisateurs anonymes, nouveaux venus[1], autres utilisateurs que les nouveaux[2] |
Efficacité (faux positifs) | Pourcentage des annulations Automoderator restaurées | |
Efficacité (faux négatifs) | Proportion des annulations non réalisées par Automoderator alors qu'il était actif | - |
Efficacité | Temps moyen pris par Automoderator pour annuler une modification | - |
- | Temps moyen pris pour rétablir les annulations faites par Automoderator | - |
Garde-fous | Après le déploiement, proportion des modifications annulées par l'opérateur | Automodérateur, humain et humain assisté par des outils (le cas échéant) |