Moderator Tools/Automoderator/Testing/nl
Om gemeenschappen te helpen de nauwkeurigheid van Automoderator te testen en te evalueren, stellen we een testspreadsheet beschikbaar met gegevens over eerdere bewerkingen en of Automoderator deze zou hebben teruggedraaid of niet.
De beslissingen van Automoderator zijn het gevolg van een mix van een machine learning model score en interne instellingen. Hoewel het model met de tijd beter zal worden door ervaring en leren, willen we ook de nauwkeurigheid verbeteren door een aantal extra interne regels te definiëren. We hebben bijvoorbeeld gezien dat Automoderator gebruikers misidentificeert als vandalisme als die gebruikers hun eigen bewerkingen terugdraaien. Om te verbeteren, zoeken we vergelijkbare voorbeelden en we waarderen uw hulp bij het identificeren daarvan.
Let op dat deze test niet noodzakelijkerwijs de definitieve vorm van Automoderator weerspiegelt - we zullen de resultaten van deze test gebruiken om het beter te maken!
Het testen van Automoderator
- Als u een Google-account heeft:
- Gebruik de onderstaande link 'Google Sheet' en maak er een kopie van
- U kunt dit doen door te klikken op Bestand > Een kopie maken... na het openen van de link.
- Nadat uw kopie is geladen, klikt u op Delen in de bovenste hoek, en geeft u dan toegang tot swaltonwikimedia.org (laat 'Notify' aangevinkt), zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de juistheid van Automoderator.
- U kunt ook de 'Algemene toegang' wijzigen in 'Iedereen met de link' en een link rechtstreeks of op de wiki met ons delen.
- Gebruik de onderstaande link 'Google Sheet' en maak er een kopie van
- U kunt ook de link naar het .ods bestand gebruiken om het bestand naar uw computer te downloaden.
- Stuur ons na het invullen het bestand terug op swaltonwikimedia.org, zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de nauwkeurigheid van Automoderator.
Na toegang tot het spreadsheet...
- Volg de instructies in het blad om een willekeurige dataset te selecteren, 30 bewerkingen te bekijken en ontdek vervolgens welke beslissingen Automoderator zou nemen voor elke bewerking.
- Voel u vrij om de volledige gegevens te verkennen in het tabblad 'Edit data & scores'.
- Als u een andere dataset wilt bekijken, moet u een nieuwe kopie van het blad maken om tegenstrijdige gegevens te voorkomen.
- Discussieer mee op de overlegpagina.
Als alternatief kunt u gewoon in de individuele project tabbladen duiken en de gegevens direct onderzoeken.
Wij ontvangen graag vertalingen van dit blad - indien u een vertaling wilt indienen, kunt u een kopie maken, de teksten in het tabblad 'String translations' vertalen en deze terugsturen aan ons op swaltonwikimedia.org.
Als u wilt dat we gegevens van een andere Wikipedia toevoegen, laat het ons dan weten, we doen het graag.
Over Automoderator
Het model van Automoderator wordt uitsluitend opgeleid op de belangrijkste namespace pagina's van Wikipedia, waarbij de dataset wordt beperkt tot bewerkingen van Wikipedia-artikelen. Meer informatie vindt u hieronder:
Interne configuratie
In de huidige versie van het spreadsheet neemt Automoderator naar de modelscore kijkend, geen maatregelen tegen:
- Bewerkingen gedaan door beheerders
- Wijzigingen gedaan door bots
- Wijzigingen die terugdraaiingen zijn door de bewerker zelf
- Aanmaken nieuwe pagina's
De gegevenssets bevatten bewerkingen die aan deze criteria voldoen, maar Automoderator mag nooit zeggen dat het deze zal terugdraaien. Dit gedrag en de bovenstaande lijst zullen worden bijgewerkt naarmate de tests vorderen als we nieuwe uitsluitingen of configuratie toevoegen.
Voorzichtigheid
In deze test heeft Automoderator vijf 'voorzichtigheidsniveaus', die de probabiliteitsdrempel definiëren boven welke Automoderator een bewerking zal terugdraaien.
- Automoderator moet zeer zelfverzekerd zijn om een bewerking terug te draaien. Dit betekent dat het minder bewerkingen in het algemeen ongedaan zal maken, maar dit met een hogere nauwkeurigheid gebeurt.
- Bij lage voorzichtigheid zal Automoderator minder streng zijn met betrekking tot zijn vertrouwensniveau. Het zal meer bewerkingen terugdraaien, maar het zal minder nauwkeurig zijn.
De voorzichtigheidsniveaus in deze test zijn vastgesteld door het team van Moderator Tools op basis van onze waarnemingen van de nauwkeurigheid en dekking van de modellen. Voor een illustratie van het aantal keren terugdraaien dat bij verschillende waarschuwingsniveaus wordt verwacht, zie hieronder:
Dagelijkse bewerkingen | Dagelijkse aantal terugdraai acties | Gemiddelde aantal keer terugdraaien door Automoderator per dag | |||||
---|---|---|---|---|---|---|---|
Heel voorzichtig .
>0,99 |
Voorzichtig
>0,985 |
Beetje voorzichtig .
>0,98 |
Minder voorzichtig
>0,975 |
Niet voorzichtig
>0,97 | |||
Engelstalige Wikipedia | 140.000 | 14.600 | 152 | 350 | 680 | 1.077 | 1.509 |
Franstalige Wikipedia | 23.200 | 1.400 | 24 | 40 | 66 | 98 | 136 |
Duitse Wikipedia | 23.000 | 1.670 | 14 | 25 | 43 | 65 | 89 |
Spaanstalige Wikipedia | 18.500 | 3.100 | 57 | 118 | 215 | 327 | 445 |
Russische Wikipedia | 16.500 | 2.000 | 34 | 57 | 88 | 128 | 175 |
Japanse Wikipedia | 14.500 | 1.000 | 27 | 37 | 48 | 61 | 79 |
Chinese Wikipedia | 13.600 | 890 | 9 | 16 | 25 | 37 | 53 |
Italiaanse Wikipedia | 13.400 | 1.600 | 40 | 61 | 99 | 151 | 211 |
Poolse Wikipedia | 5.900 | 530 | 10 | 16 | 25 | 35 | 45 |
Portugese Wikipedia | 5.700 | 440 | 2 | 7 | 14 | 21 | 30 |
Hebreeuwse Wikipedia | 5.400 | 710 | 16 | 22 | 30 | 38 | 48 |
Perzische Wikipedia | 5.200 | 900 | 13 | 26 | 44 | 67 | 92 |
Koreaanse Wikipedia | 4.300 | 430 | 12 | 17 | 23 | 30 | 39 |
Indonesische Wikipedia | 3.900 | 340 | 7 | 11 | 18 | 29 | 42 |
Turkse Wikipedia | 3.800 | 510 | 4 | 7 | 12 | 17 | 24 |
Arabische Wikipedia | 3.600 | 670 | 8 | 12 | 18 | 24 | 31 |
Tjechische Wikipedia | 2.800 | 250 | 5 | 8 | 11 | 15 | 20 |
Roemeense Wikipedia | 1.300 | 110 | 2 | 2 | 4 | 6 | 9 |
Kroatische Wikipedia | 500 | 50 | 1 | 2 | 2 | 3 | 4 |
... | ... | ... | ... | ... | ... | ... | ... |
Alle Wikipedia projecten | 538 | 984 | 1.683 | 2.533 | 3.483 |
Deze gegevens kunnen worden bekeken voor andere Wikimedia-projecten hier.
Score van een bepaalde bewerking
We hebben een eenvoudig gebruikersscript gemaakt om de kans op terugdraaien van een bepaalde bewerking op te vragen.
Importeer gewoon User:JSherman (WMF)/revertrisk.js in uw commons.js met mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );
U moet dan een 'Get revert risk score' zien staan in het menu Hulpmiddelen in de zijbalk. Let op dat dit alleen de modelscore weergeeft en niet rekening houdt met de interne configuraties van Automoderator zoals hierboven beschreven. Zie bovenstaande tabel voor de scores boven welke we de vals positieve snelheid van Automoderator onderzoeken.
Eerste resultaten
Kwantitatief
We hebben 22 spreadsheets om te testen terugontvangen, er waren meer dan 600 bewerkingen van 6 Wikimedia-projecten beoordeeld. We hebben de gegevens samengevoegd om te analyseren hoe nauwkeurig Automoderator zou zijn op verschillende waarschuwingsniveaus:
Niet voorzichtig (0.97) | Minder voorzichtig (0.975) | Beetje voorzichtig . (0.98) | Voorzichtig (0.985) | Heel voorzichtig . (0.99) |
---|---|---|---|---|
75% | 82% | 93% | 95% | 100% |
In onze Moderator Tools/Automoderator/Measurement plan/nl zeiden we dat we wilden dat de meest tolerante optie waarop Automoderator kon worden ingesteld een nauwkeurigheid van 90% zou hebben. De niveaus 'Niet voorzichtig' en 'Minder voorzichtig' liggen hier duidelijk onder, wat niet verrassend is omdat we geen duidelijke gegevens hadden om deze eerste drempels te selecteren. We zullen de drempel 'Niet voorzichtig' verwijderen, omdat een foutcijfer van 25% duidelijk te laag is voor gemeenschappen. We zullen voorlopig 'Minder voorzichtig' behouden en monitoren hoe de nauwkeurigheid verandert naarmate er verbeteringen in het model en de Automoderator plaatsvinden. We willen het zekere voor het onzekere nemen als Automoderator slechte bewerkingen niet verwijdert, dus dit is een prioriteit voor ons om door te gaan met beoordelen.
Als we de echte nauwkeurigheid van de gegevens van de pilot van Automoderator hebben, kunnen we dit verder onderzoeken en de beschikbare drempels verder veranderen.
Kwalitatief
Op deze overlegpagina en elders ontvingen we ook kwalitatieve gedachten van patrollers.
De algemene feedback over de nauwkeurigheid van Automoderator was positief, waarbij redacteuren zich op verschillende drempels comfortabel voelden, waaronder sommige aan het onderkant van de schaal.
Sommige redacteurs hebben hun zorgen geuit over het aantal bewerkingen dat Automoderator zou terugdraaien relatief laag is. Dit is iets waar we verder over zullen praten met de gemeenschappen. Uit onze analyse (T341857#9054727) ontdekten we dat Automoderator zou werken met een enigszins vergelijkbare capaciteit als bestaande anti-vandalismebots die door vrijwilligers zijn ontwikkeld, maar we zullen doorgaan met het onderzoeken van manieren om de dekking van Automoderator te vergroten en tegelijkertijd valse positieven te minimaliseren.
Volgende stappen
Op basis van de bovenstaande resultaten hebben we vertrouwen in de nauwkeurigheid van het model en zijn we van plan ons werk aan Automoderator voort te zetten. We gaan nu aan de slag met het technische werk aan de software, terwijl we de ontwerpen voor de gebruikersinterface bekijken. We verwachten dat de volgende update die we delen configuratie van wireframes voor feedback zal bevatten.
Voel u zich in de tussentijd vrij om Automoderator via het bovenstaande proces te blijven testen. Meer gegevens en inzichten zullen een positieve impact blijven hebben op dit project.