Jump to content

Applications Wikimédia/Équipe/Android/Descriptions d'articles assistées par machine/Mises à jour

From mediawiki.org
This page is a translated version of the page Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates and the translation is 37% complete.

Updates

Further changes

  • We've used the same underlying machine-learning model for all of these experiments (so no re-training etc. of the actual model). What we've been adjusting throughout is how the user interacts with it.
  • Our initial offline evaluation was of this model (Jan-April '23) lead us to put in place a few modifications to how users interacted with the model for the May-June 2023 piloting -- notably which outputs they could see (only higher confidence ones) and adjusting who could see the recommendations based on whether the article was a biography of a living person or not.
  • The feedback from that pilot lead to us putting in place one final adjustment having to do with when a recommended article description included a year in it (only show it if there's support for that year in the article text because this was one source of hallucinations by the model). That's now part of the officially deployed model on LiftWing (the link I shared above) that Android users would see.
  • At this point we aren't planning on any model updates beyond trying to reduce the latency of the model so Android users can see the recommendations more quickly. If we got feedback about errors that we thought we could address though, we'd try to make those fixes

August 2024

  • We are beginning to reach out to some Wikis to implement the feature, based on the results from the experiment that was updated and published last January.

July 2024: API available through LiftWing

We appreciate everyone's patience as we've worked with the Machine Learning team to migrate the model to LiftWing. In August we will clean up the client side code to remove test conditions and add in improvements mentioned in the January 2024 update. In the following months we will reach out to different language communities to make the feature available to them in the app.

If you are a developer and would like to build a gadget using the API, you can read the documentation here.

Janvier 2024: Résultats de l'expérience

Langues incluses dans la notation:
  • Allemand
  • Anglais
  • Arabe
  • Espagnol
  • Français
  • Gujarati
  • Hindi
  • Italien
  • Japonais
  • Russe
  • Tchèque
  • Turc

Langues supplémentaires suivies par le personnel qui n’avaient pas d’évaluateurs communautaires:

  • Birman
  • Coréen
  • Finnois
  • Kazakh
  • Néerlandais
  • Roumain
  • Vietnamien
Y a-t-il une différence entre les notes moyennes et médianes des modifications acceptées par machine et celles générées par les humains?
Modifications notées Note moyenne Note médiane
Modifications acceptées par machine 4.1 5
Modifications générées par les humains 4.2 5
  • Remarque: 5 était le score le plus élevé possible
Comment le modèle a tenu à travers les langues?
Langue Accepté par la machine

Note moyenne des modifications

Généré par les humains

Note moyenne des modifications

Moyenne de la machine

Note supérieure?

Recommandation d'activation de la fonctionnalité
ar* 2.8 2.1 VRAI Non
cs 4.5 Non applicable Oui
de 3.9 4.1 FAUX Plus de 50 modifications requises
en 4.0 4.5 FAUX Plus de 50 modifications requises
es 4.5 4.1 VRAI Oui
fr 4.0 4.1 FAUX Plus de 50 modifications requises
gu* 1.0 Non applicable Non
hi 3.8 Non applicable Plus de 50 modifications requises
it 4.2 4.4 FAUX Plus de 50 modifications requises
ja 4.0 4.5 FAUX Plus de 50 modifications requises
ru 4.7 4.3 VRAI Oui
tr 3.8 3.4 VRAI Oui
Autres communautés linguistiques Non applicable Non applicable Non applicable Peut être activé sur demande
  • Remarque: Nous n'activerons pas la fonctionnalité sans engager d'abord les communautés.

* Indique les communautés linguistiques où il n'y a pas eu beaucoup de suggestions à noter, ce qui, selon nous, a eu un impact sur le score

À quelle fréquence les suggestions de la machine ont-elles été acceptées, modifiées ou rejetées?
Type de modification % du total des modifications par machine
Suggestion de la machine acceptée 23,49%
Suggestion de la machine modifiée 14,49%
Suggestion de la machine rejetée 62,02%
  • Remarque: Le rejet signifie que la suggestion de la machine n'a pas été sélectionnée bien qu'elle soit disponible. Les suggestions de la machine étaient derrière une potentialité mentionnant "Suggestions par machine". Les utilisateurs qui n'ont pas du tout consulté les suggestions de la machine sont comptabilisés dans le groupe "rejeté". Le rejet est destiné à communiquer que l'utilisateur a préféré saisir la courte description de son article à la place.
Quelle était la distribution des descriptions courtes d'articles par machine acceptés avec un score de 3 ou plus?
Score Distribution en pourcentage
< 3 10,0%
>= 3 90,0%
Comment le score des descriptions courtes des articles par machine acceptés a-t-il changé en prenant en compte l'expérience des rédacteurs?
Expérience des rédacteurs Note moyenne de la modification Note médiane de la modification
Moins de 50 modifications 3,6 4
Plus de 50 modifications 4,4 5
Notre expérience a testé deux faisceaux pour voir lequel était le plus précis et le plus performant. Pour éviter tout biais, le placement de la suggestion à l'utilisateur a changé de position à chaque fois. Les résultats sont:
Faisceau sélectionné Note moyenne de la modification Distribution en%
1 4,2 64,7%
2 4,0 35,3%
  • Remarque: Lors de la réédition de la fonctionnalité, nous afficherons uniquement le faisceau 1.
À quelle fréquence les gens modifient-ils la suggestion de la machine avant de la publier?
Type de modification Répartition des modifications
Acceptée par la machine, non modifiée 61,85%
Acceptée par la machine, modifiée 38,15%
Comment les utilisateurs modifiant la suggestion de la machine affectent-ils la précision?
Modifications notées par la machine Score moyen
Non modifiée 4.2
Modifiée 4.1
  • Remarque: Étant donné que la modification d'une suggestion n'a pas d'impact sur la précision, nous ne voyons pas la nécessité d'obliger les utilisateurs à modifier la recommandation, mais nous devons néanmoins conserver une interface utilisateur qui encourage les modifications des suggestions par machine.
À quelle fréquence ont les évaluateurs déclaré qu'ils annuleraient ou réécriraient une modification en fonction de si elle était suggérée par une machine ou générée par un humain?
Modifications notées % des modifications qui seront annulées % des modifications qui seront réécrites
Le rédacteur a accepté la suggestion 2,3% 25,0%
Le rédacteur a vu la suggestion mais a écrit sa propre description à la place 5,7% 38,4%
Modification humaine: Aucune exposition à la suggestion 15,0% 25,8%
  • Remarque: Nous avons défini la réversion comme une modification tellement inexacte qu'il n'est pas utile d'essayer d'y apporter une modification mineure pour l'améliorer en tant que patrouilleur. La réécriture a été définie comme un patrouilleur qui modifierait simplement ce qui a été publié par l'utilisateur pour l'améliorer. Au cours de l'expérience, seules 20 modifications automatiques ont été annulées sur l'ensemble des projets, ce qui n'était pas statistiquement significatif. Nous n'avons donc pas pu comparer les réversions réelles, nous nous sommes plutôt basés sur les recommandations des évaluateurs. Seules deux communautés linguistiques ont leurs brèves descriptions d'articles en ligne sur Wikipédia, ce qui signifie que la patrouille est moins fréquente pour la plupart des communautés linguistiques en raison des descriptions hébergées sur Wikidata.
Quelles informations avons-nous obtenu grâce à la fonction de signalement de la fonctionnalité?

0,5% des utilisateurs uniques ont signalé la fonctionnalité. Vous trouverez ci-dessous une répartition du type de commentaires que nous avons reçus :

Commentaires/Réponses % Répartition des commentaires
Pas assez d'informations 43%
Suggestion inappropriée 21%
Dates incorrectes 14%
Impossible de voir la description 7%
"Accroche inutile" 7 %
Faute d'orthographe 7%
Est-ce-que la fonctionnalité a un impact sur la rétention?
Période de rétention Groupe 0

(Pas de traitement)

Groupes 1 et 2
Taux de retour moyen après 1 jour: 35,4% 34,9%
Taux de retour moyen après 3 jours: 29,5% 30,3%
Taux de retour moyen après 7 jours: 22,6% 24,1%
Taux de retour moyen après 14 jours: 14,7% 15,8%
  • Remarque: Les utilisateurs exposés aux descriptions courtes d'articles assistées par machine ont eu un taux de retour légèrement plus élevé que les utilisateurs non exposés à la fonctionnalité
Prochaines étapes

L'expérience a été menée sur des services cloud, ce qui n'est pas une solution durable. Il existe suffisamment d'indicateurs positifs pour rendre la fonctionnalité disponible aux communautés qui la souhaitent. L'équipe des applications travaillera en partenariat avec notre apprentissage automatique pour migrer le modèle vers Liftwing. Une fois qu'il aura été migré et sera suffisamment testé en termes de performances, nous réengagerons nos communautés linguistiques pour déterminer où activer la fonctionnalité et quelles améliorations supplémentaires peuvent être apportées au modèle. Les modifications qui sont actuellement au premier plan sont les suivantes:

  • Restreindre les biographies de personnes vivantes (BLP): Pendant l'expérience, nous avons permis aux utilisateurs avec plus de 50 modifications d'ajouter des descriptions aux biographies de personnes vivantes à l'aide de l'assistance automatique. Nous reconnaissons qu'il existe des inquiétudes concernant la suggestion permanente de descriptions courtes d'articles sur ces articles. Bien que nous n'ayons pas constaté de problèmes liés aux biographies de personnes vivantes, nous sommes heureux de ne pas afficher de suggestions sur les BLP.
  • Utiliser uniquement le faisceau 1: Le faisceau 1 a systématiquement surpassé le faisceau 2 en matière de suggestions. Par conséquent, nous n'afficherons qu'une seule recommandation, et elle proviendra du faisceau 1.
  • Modifier l'intégration et les conseils: Lors de l'expérience, nous avions un écran d'intégration sur les suggestions automatiques. Nous ajouterons des conseils sur les suggestions automatiques lors de la réédition de la fonctionnalité. Il serait utile de savoir quels sont les commentaires de la communauté sur les conseils qu'elle aimerait que nous fournissions aux utilisateurs pour rédiger des descriptions courtes d'articles efficaces afin que nous puissions améliorer l'intégration.

S'il y a d'autres erreurs évidentes, veuillez laisser un message sur notre page de discussion du projet afin que nous puissions les résoudre. Un exemple d'erreur évidente est l'affichage de dates incorrectes. Nous avons remarqué cette erreur lors des tests sur l'application et avons ajouté un filtre qui empêche les descriptions de recommandations qui incluent des dates qui ne sont pas mentionnées elles-mêmes dans le texte de l'article. Nous avons également remarqué que les pages de désambiguïsation étaient recommandées par le modèle d'origine et avons filtré les pages de désambiguïsation côté client, ce qui est un changement que nous prévoyons de maintenir. D'autres points comme la mise en majuscule de la première lettre seraient également une correction générale que nous pourrions apporter car il existe une heuristique claire que nous pourrions utiliser pour l'implémenter.

Pour les langues où le modèle n'est pas suffisamment performant pour être déployé, le plus utile est d'ajouter davantage de descriptions courtes d'articles dans cette langue afin que le réentraînement du modèle dispose de plus de données. Il n'y a cependant pas de date ou de fréquence définie à ce stade pour laquelle le modèle sera réentraîné, mais nous pouvons travailler avec l'équipe de recherche et d'apprentissage automatique pour que cela soit priorisé lorsque les communautés le demanderont.

July 2023: Early Insights from 32 Days of Data Analysis: Grading Scores and Editing Patterns

We can not complete our data analysis until all entries have been graded so that we have an accurate grading score. However we do have early insights we can share. These insights are based on 32 days of data:

  • 3968 Articles with Machine Edits were exposed to 375 editors.
    • Note: Exposed does not mean selected.
  • 2125 Machine edits were published by 256 editors
  • Editors with 50+ edits completed three times the amount of edits per unique compared to editors with less than 50 edits

May 2023: Experiment Deactivated & Volunteers Evaluate Article Short Descriptions

The experiment has officially been deactivated and we are now in a period of edits being graded.

Volunteers across several language Wikis have begun to evaluate both human generated and machine assisted article short descriptions.

We express our sincere gratitude and appreciation to all the volunteers, and have added a dedicated section to honor their efforts on the project page. Thank you for your support!

We are still welcoming support from the following language Wikipedias for grading: Arabic, English, French, German, Italian, Japanese, Russian, Spanish, and Turkish languages.

If you are interested in joining us for this incredible project, please reach out to Amal Ramadan. We look forward to collaborating with passionate individuals like you!

April 2023: FAQ Page and Model Card

We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.

This is the onboarding process:

January 2023: Updated Designs

After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.

If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.

This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.

November 2022: API Development

The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.

August 2022: Initial Design Concepts and Guardrails for Bias

User story for Discovery

When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?

User story for education

When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.

User story for adding descriptions

When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.

Guardrails for bias and harm

The team generated possible guardrails for bias and harm:

  • Harm: problematic text recommendations
    • Guardrail: blocklist of words never to use
    • Guardrail: check for stereotypes – e.g., gendered language + occupations
  • Harm: poor quality of recommendations
    • Guardrail: minimum amount of information in article
    • Guardrail: verify performance by knowledge gap
  • Harm: recommendations only for some types of articles
    • Guardrail: monitor edit distribution by topic