Applications Wikimédia/Équipe/Android/Descriptions d'articles assistées par machine/Mises à jour
Updates
Further changes
- We've used the same underlying machine-learning model for all of these experiments (so no re-training etc. of the actual model). What we've been adjusting throughout is how the user interacts with it.
- Our initial offline evaluation was of this model (Jan-April '23) lead us to put in place a few modifications to how users interacted with the model for the May-June 2023 piloting -- notably which outputs they could see (only higher confidence ones) and adjusting who could see the recommendations based on whether the article was a biography of a living person or not.
- The feedback from that pilot lead to us putting in place one final adjustment having to do with when a recommended article description included a year in it (only show it if there's support for that year in the article text because this was one source of hallucinations by the model). That's now part of the officially deployed model on LiftWing (the link I shared above) that Android users would see.
- At this point we aren't planning on any model updates beyond trying to reduce the latency of the model so Android users can see the recommendations more quickly. If we got feedback about errors that we thought we could address though, we'd try to make those fixes
August 2024
- We are beginning to reach out to some Wikis to implement the feature, based on the results from the experiment that was updated and published last January.
July 2024: API available through LiftWing
We appreciate everyone's patience as we've worked with the Machine Learning team to migrate the model to LiftWing. In August we will clean up the client side code to remove test conditions and add in improvements mentioned in the January 2024 update. In the following months we will reach out to different language communities to make the feature available to them in the app.
If you are a developer and would like to build a gadget using the API, you can read the documentation here.
Janvier 2024: Résultats de l'expérience
Langues incluses dans la notation:
- Allemand
- Anglais
- Arabe
- Espagnol
- Français
- Gujarati
- Hindi
- Italien
- Japonais
- Russe
- Tchèque
- Turc
Langues supplémentaires suivies par le personnel qui n’avaient pas d’évaluateurs communautaires:
- Birman
- Coréen
- Finnois
- Kazakh
- Néerlandais
- Roumain
- Vietnamien
Y a-t-il une différence entre les notes moyennes et médianes des modifications acceptées par machine et celles générées par les humains?
Modifications notées | Note moyenne | Note médiane |
Modifications acceptées par machine | 4.1 | 5 |
Modifications générées par les humains | 4.2 | 5 |
- Remarque: 5 était le score le plus élevé possible
Comment le modèle a tenu à travers les langues?
Langue | Accepté par la machine
Note moyenne des modifications |
Généré par les humains
Note moyenne des modifications |
Moyenne de la machine
Note supérieure? |
Recommandation d'activation de la fonctionnalité |
ar* | 2.8 | 2.1 | VRAI | Non |
cs | 4.5 | Non applicable | Oui | |
de | 3.9 | 4.1 | FAUX | Plus de 50 modifications requises |
en | 4.0 | 4.5 | FAUX | Plus de 50 modifications requises |
es | 4.5 | 4.1 | VRAI | Oui |
fr | 4.0 | 4.1 | FAUX | Plus de 50 modifications requises |
gu* | 1.0 | Non applicable | Non | |
hi | 3.8 | Non applicable | Plus de 50 modifications requises | |
it | 4.2 | 4.4 | FAUX | Plus de 50 modifications requises |
ja | 4.0 | 4.5 | FAUX | Plus de 50 modifications requises |
ru | 4.7 | 4.3 | VRAI | Oui |
tr | 3.8 | 3.4 | VRAI | Oui |
Autres communautés linguistiques | Non applicable | Non applicable | Non applicable | Peut être activé sur demande |
- Remarque: Nous n'activerons pas la fonctionnalité sans engager d'abord les communautés.
* Indique les communautés linguistiques où il n'y a pas eu beaucoup de suggestions à noter, ce qui, selon nous, a eu un impact sur le score
À quelle fréquence les suggestions de la machine ont-elles été acceptées, modifiées ou rejetées?
Type de modification | % du total des modifications par machine |
Suggestion de la machine acceptée | 23,49% |
Suggestion de la machine modifiée | 14,49% |
Suggestion de la machine rejetée | 62,02% |
- Remarque: Le rejet signifie que la suggestion de la machine n'a pas été sélectionnée bien qu'elle soit disponible. Les suggestions de la machine étaient derrière une potentialité mentionnant "Suggestions par machine". Les utilisateurs qui n'ont pas du tout consulté les suggestions de la machine sont comptabilisés dans le groupe "rejeté". Le rejet est destiné à communiquer que l'utilisateur a préféré saisir la courte description de son article à la place.
Quelle était la distribution des descriptions courtes d'articles par machine acceptés avec un score de 3 ou plus?
Score | Distribution en pourcentage |
< 3 | 10,0% |
>= 3 | 90,0% |
Comment le score des descriptions courtes des articles par machine acceptés a-t-il changé en prenant en compte l'expérience des rédacteurs?
Expérience des rédacteurs | Note moyenne de la modification | Note médiane de la modification |
Moins de 50 modifications | 3,6 | 4 |
Plus de 50 modifications | 4,4 | 5 |
Notre expérience a testé deux faisceaux pour voir lequel était le plus précis et le plus performant. Pour éviter tout biais, le placement de la suggestion à l'utilisateur a changé de position à chaque fois. Les résultats sont:
Faisceau sélectionné | Note moyenne de la modification | Distribution en% |
1 | 4,2 | 64,7% |
2 | 4,0 | 35,3% |
- Remarque: Lors de la réédition de la fonctionnalité, nous afficherons uniquement le faisceau 1.
À quelle fréquence les gens modifient-ils la suggestion de la machine avant de la publier?
Type de modification | Répartition des modifications |
Acceptée par la machine, non modifiée | 61,85% |
Acceptée par la machine, modifiée | 38,15% |
Comment les utilisateurs modifiant la suggestion de la machine affectent-ils la précision?
Modifications notées par la machine | Score moyen |
Non modifiée | 4.2 |
Modifiée | 4.1 |
- Remarque: Étant donné que la modification d'une suggestion n'a pas d'impact sur la précision, nous ne voyons pas la nécessité d'obliger les utilisateurs à modifier la recommandation, mais nous devons néanmoins conserver une interface utilisateur qui encourage les modifications des suggestions par machine.
À quelle fréquence ont les évaluateurs déclaré qu'ils annuleraient ou réécriraient une modification en fonction de si elle était suggérée par une machine ou générée par un humain?
Modifications notées | % des modifications qui seront annulées | % des modifications qui seront réécrites |
Le rédacteur a accepté la suggestion | 2,3% | 25,0% |
Le rédacteur a vu la suggestion mais a écrit sa propre description à la place | 5,7% | 38,4% |
Modification humaine: Aucune exposition à la suggestion | 15,0% | 25,8% |
- Remarque: Nous avons défini la réversion comme une modification tellement inexacte qu'il n'est pas utile d'essayer d'y apporter une modification mineure pour l'améliorer en tant que patrouilleur. La réécriture a été définie comme un patrouilleur qui modifierait simplement ce qui a été publié par l'utilisateur pour l'améliorer. Au cours de l'expérience, seules 20 modifications automatiques ont été annulées sur l'ensemble des projets, ce qui n'était pas statistiquement significatif. Nous n'avons donc pas pu comparer les réversions réelles, nous nous sommes plutôt basés sur les recommandations des évaluateurs. Seules deux communautés linguistiques ont leurs brèves descriptions d'articles en ligne sur Wikipédia, ce qui signifie que la patrouille est moins fréquente pour la plupart des communautés linguistiques en raison des descriptions hébergées sur Wikidata.
Quelles informations avons-nous obtenu grâce à la fonction de signalement de la fonctionnalité?
0,5% des utilisateurs uniques ont signalé la fonctionnalité. Vous trouverez ci-dessous une répartition du type de commentaires que nous avons reçus :
Commentaires/Réponses | % Répartition des commentaires |
Pas assez d'informations | 43% |
Suggestion inappropriée | 21% |
Dates incorrectes | 14% |
Impossible de voir la description | 7% |
"Accroche inutile" | 7 % |
Faute d'orthographe | 7% |
Est-ce-que la fonctionnalité a un impact sur la rétention?
Période de rétention | Groupe 0
(Pas de traitement) |
Groupes 1 et 2 |
Taux de retour moyen après 1 jour: | 35,4% | 34,9% |
Taux de retour moyen après 3 jours: | 29,5% | 30,3% |
Taux de retour moyen après 7 jours: | 22,6% | 24,1% |
Taux de retour moyen après 14 jours: | 14,7% | 15,8% |
- Remarque: Les utilisateurs exposés aux descriptions courtes d'articles assistées par machine ont eu un taux de retour légèrement plus élevé que les utilisateurs non exposés à la fonctionnalité
Prochaines étapes
L'expérience a été menée sur des services cloud, ce qui n'est pas une solution durable. Il existe suffisamment d'indicateurs positifs pour rendre la fonctionnalité disponible aux communautés qui la souhaitent. L'équipe des applications travaillera en partenariat avec notre apprentissage automatique pour migrer le modèle vers Liftwing. Une fois qu'il aura été migré et sera suffisamment testé en termes de performances, nous réengagerons nos communautés linguistiques pour déterminer où activer la fonctionnalité et quelles améliorations supplémentaires peuvent être apportées au modèle. Les modifications qui sont actuellement au premier plan sont les suivantes:
- Restreindre les biographies de personnes vivantes (BLP): Pendant l'expérience, nous avons permis aux utilisateurs avec plus de 50 modifications d'ajouter des descriptions aux biographies de personnes vivantes à l'aide de l'assistance automatique. Nous reconnaissons qu'il existe des inquiétudes concernant la suggestion permanente de descriptions courtes d'articles sur ces articles. Bien que nous n'ayons pas constaté de problèmes liés aux biographies de personnes vivantes, nous sommes heureux de ne pas afficher de suggestions sur les BLP.
- Utiliser uniquement le faisceau 1: Le faisceau 1 a systématiquement surpassé le faisceau 2 en matière de suggestions. Par conséquent, nous n'afficherons qu'une seule recommandation, et elle proviendra du faisceau 1.
- Modifier l'intégration et les conseils: Lors de l'expérience, nous avions un écran d'intégration sur les suggestions automatiques. Nous ajouterons des conseils sur les suggestions automatiques lors de la réédition de la fonctionnalité. Il serait utile de savoir quels sont les commentaires de la communauté sur les conseils qu'elle aimerait que nous fournissions aux utilisateurs pour rédiger des descriptions courtes d'articles efficaces afin que nous puissions améliorer l'intégration.
S'il y a d'autres erreurs évidentes, veuillez laisser un message sur notre page de discussion du projet afin que nous puissions les résoudre. Un exemple d'erreur évidente est l'affichage de dates incorrectes. Nous avons remarqué cette erreur lors des tests sur l'application et avons ajouté un filtre qui empêche les descriptions de recommandations qui incluent des dates qui ne sont pas mentionnées elles-mêmes dans le texte de l'article. Nous avons également remarqué que les pages de désambiguïsation étaient recommandées par le modèle d'origine et avons filtré les pages de désambiguïsation côté client, ce qui est un changement que nous prévoyons de maintenir. D'autres points comme la mise en majuscule de la première lettre seraient également une correction générale que nous pourrions apporter car il existe une heuristique claire que nous pourrions utiliser pour l'implémenter.
Pour les langues où le modèle n'est pas suffisamment performant pour être déployé, le plus utile est d'ajouter davantage de descriptions courtes d'articles dans cette langue afin que le réentraînement du modèle dispose de plus de données. Il n'y a cependant pas de date ou de fréquence définie à ce stade pour laquelle le modèle sera réentraîné, mais nous pouvons travailler avec l'équipe de recherche et d'apprentissage automatique pour que cela soit priorisé lorsque les communautés le demanderont.
July 2023: Early Insights from 32 Days of Data Analysis: Grading Scores and Editing Patterns
We can not complete our data analysis until all entries have been graded so that we have an accurate grading score. However we do have early insights we can share. These insights are based on 32 days of data:
- 3968 Articles with Machine Edits were exposed to 375 editors.
- Note: Exposed does not mean selected.
- 2125 Machine edits were published by 256 editors
- Editors with 50+ edits completed three times the amount of edits per unique compared to editors with less than 50 edits
May 2023: Experiment Deactivated & Volunteers Evaluate Article Short Descriptions
The experiment has officially been deactivated and we are now in a period of edits being graded.
Volunteers across several language Wikis have begun to evaluate both human generated and machine assisted article short descriptions.
We express our sincere gratitude and appreciation to all the volunteers, and have added a dedicated section to honor their efforts on the project page. Thank you for your support!
We are still welcoming support from the following language Wikipedias for grading: Arabic, English, French, German, Italian, Japanese, Russian, Spanish, and Turkish languages.
If you are interested in joining us for this incredible project, please reach out to Amal Ramadan. We look forward to collaborating with passionate individuals like you!
April 2023: FAQ Page and Model Card
We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.
-
Suggested edits home
-
Suggested edits feed
-
Suggested edits onboarding
-
Active text field
-
Dialog Box
-
What happens after tapping suggestions
-
Manual text addition
-
The preview
-
Tapping the report flag
-
Confirmation
-
Gender bias support text
This is the onboarding process:
-
Article Descriptions Onboarding
-
Keep it short
-
Machine Suggestions
-
Tooltip
January 2023: Updated Designs
After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.
-
Tooltip to as onboarding of feature
-
Once the tooltip is dismissed the keyboard becomes active
-
Dialog appears with suggestions when users tap "show suggested descriptions"
-
Tapping a suggestion populates text field and publish button becomes active
If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.
This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.
November 2022: API Development
The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.
August 2022: Initial Design Concepts and Guardrails for Bias
User story for Discovery
When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?
User story for education
When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.
User story for adding descriptions
When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.
-
Concept for selecting a suggested article description
-
Design concept for a user deciding the description should be an alternative to what is listed
-
Design concept for a user editing a suggestion before hitting publish
-
Design concept for what users see when pressing other
-
Screen displaying options for if a user says they are not sure what the correct article description should be
Guardrails for bias and harm
The team generated possible guardrails for bias and harm:
- Harm: problematic text recommendations
- Guardrail: blocklist of words never to use
- Guardrail: check for stereotypes – e.g., gendered language + occupations
- Harm: poor quality of recommendations
- Guardrail: minimum amount of information in article
- Guardrail: verify performance by knowledge gap
- Harm: recommendations only for some types of articles
- Guardrail: monitor edit distribution by topic