Moderator Tools/Automoderator/Measurement plan/nl
Dit is een samenvatting van het huidige ontwerp van het Automoderator-meetplan, waarin wordt uiteengezet hoe we zullen evalueren of het project succesvol is in het bereiken van zijn doelen, en om te begrijpen welke impact het heeft op Wikimedia-projecten.
De pagina is verdeeld in drie hypothesen die we hebben over Automoderator. Elke hypothese heeft twee top-level datapunten (de belangrijkste getallen die ons interesseren) gevolgd door een tabel met details van onze huidige onderzoeksvragen en de evaluatiemethoden of metingen die we zullen gebruiken om ze te testen. De onderzoeksvragen zijn gebaseerd op zowel onze interne discussies over het project, als op gesprekken die we hebben gehad met redacteuren (bijv. hier op MediaWiki).
Dit document is niet vast of definitief en zal veranderen naarmate we meer weten. Helaas kunnen we niet garanderen dat deze pagina up-to-date blijft na de eerste discussies in de gemeenschap die we erover hebben. We kunnen merken dat sommige vragen niet met de beschikbare gegevens kunnen worden beantwoord, of kunnen nieuwe vragen identificeren die we later zullen hebben. We willen alle belangrijke wijzigingen in de projectupdates met u delen.
We willen echt weten wat u van dit plan vindt op de Project Overleg Pagina - Legt dit de belangrijkste gegevenspunten vast waarvan u denkt dat we ze moeten volgen? Ontbreekt er iets of heeft u ideeën die we kunnen verwerken? Welke gegevens zouden u helpen beslissen of dit project succesvol was?
QN = Kwantitatieve maatstaf (data)
QL = Kwalitatieve meting (bijv. enquêtes, ongestructureerde feedback)
Hypothese #1
Hypothese: Automoderator zal het bereik van patrouilles vergroten door hun algehele werklast bij het beoordelen en terugdraaien van recente wijzigingen te verminderen, en hen effectief in staat te stellen meer tijd aan andere activiteiten te besteden.
Topniveau gegevens:
- Automoderator heeft een basisnauwkeurigheid van 90%.
- De bewerkingsactiviteit van de moderator neemt met 10% toe in werkstromen die niet in het kader van de patrouille worden uitgevoerd (bijv. contentcontributies of andere moderatieprocessen).
Onderzoeksvragen | Evaluatiemethode/metriek | Opmerkingen |
---|---|---|
Is Automoderator effectief bij het bestrijden van vandalisme op wiki's?
|
[QN] Hoewel de drempels voor succes kunnen variëren op basis van de gemeenschap, beschouwt het team het volgende als successen:
|
We weten nog niet wat een redelijk niveau van dekking is voor Automoderator, dus we zullen X definiëren naarmate we doorgaan met het project. Elke gemeenschap zal de nauwkeurigheid en het dekkingsniveau voor haar gemeenschap kunnen aanpassen, zodat 90% een basiscijfer is die van toepassing is op de meest toelaatbare optie die beschikbaar is. |
[QN] Hoe lang blijft vandalisme in artikelen staan voordat het wordt teruggedraaid, en hoeveel lezers zien dat vandalisme.
|
Pageview-gegevens zijn nu niet beschikbaar per versie van een pagina, maar dit is iets wat we kunnen beginnen te verzamelen (T346350). | |
Vermindert Automoderator de werklast van menselijke patrouilleurs bij het bestrijden van vandalisme? | [QN] Percentage bewerkingen dat is teruggedraaid door Automoderator, menselijke patrouilles en door gereedschap ondersteunde menselijke patrouilles gedurende de tijdsperioden van 1 uur, 8 uur, 24 uur en 48 uur, nadat een bewerking heeft plaatsgevonden. | "Patrouilleurs met hulpmiddelen": patrouilleurs die hulpmiddelen als Huggle en SWViewer gebruiken. |
[QN/QL] Neemt het volume van verschillende achterstanden bij het modereren van inhoud af?
|
We denken dat patrollers hun extra tijd op andere plaatsen kunnen doorbrengen. Het is mogelijk dat we hier met een aantal kwalitatieve onderzoeken moeten beginnen om te begrijpen welke achterstandsbepalingen we kunnen/moeten volgen. | |
Helpt Automoderator patrollers hun tijd te besteden aan andere activiteiten die hen interesseren?
|
[QN] Verdeling van bijdragen/acties (voor en na de inzet) door patrollers over:
Voorlopige lijst van bijdragen
Aan de patrollers van de pilot wiki's zal worden gevraagd om
|
Er zijn een breed scala aan mogelijke manieren om dit te bekijken, dus we moeten misschien met patrollers praten om te begrijpen welke activiteiten we moeten overwegen. |
[QL] Perceptie van patrollers in hoe ze bijdragen aan de wiki na de implementatie.
Kwalitatieve veranderingen in workflows in vergelijking met pre-Automoderator-implementatie. Zoals in - doen ze eigenlijk niet-patrouillewerk of gewoon meer gespecialiseerd patrouillewerk dat Automoderator niet aankan? |
Hypothese #2
Hypothese: Gemeenschappen zijn enthousiast om Automoderator te gebruiken en ermee in contact te komen omdat ze erop vertrouwen dat het effectief is in het tegengaan van vandalisme.
Topniveau gegevens:
- Automoderator is ingeschakeld op twee Wikimedia-projecten tegen het einde van het boekjaar 23/24 (juni 2024).
- 5% van de patrollers maakt gebruik van Automoderator-hulpmiddelen en -processen bij projecten waar dat mogelijk is.
Onderzoeksvragen | Evaluatiemethode/metriek | Opmerkingen |
---|---|---|
Zijn de gemeenschappen enthousiast om Automoderator te gebruiken? | [QL] Sentiment ten opzichte van Automoderator specifiek en/of geautomatiseerde moderatiehulpmiddelen in het algemeen, zowel onder beheerders als niet-beheerders.
[QL] Aanwezigheid van aangepaste documentatie voor Automoderator (bijv. richtlijnen of richtlijnen voor gebruik) [QL] Acceptatie van Automoderator door gespecialiseerde anti-vandalisme groepen (vooral crosswiki groepen) - stewards, global sysops, SWMT [QN] Tekst (TranslateWiki) en documentatie (MediaWiki) vertaalactiviteit. |
|
[QN] Schakelen gemeenschappen Automoderator in en houden ze het ingeschakeld? Zo ja, hoe lang?
|
||
Zijn de gemeenschappen actief betrokken bij Automoderator omdat ze geloven dat het een belangrijk onderdeel van hun werkstromen is? | Opmerking: kan veranderen op basis van het eindontwerp/vorm
[QN] Welk deel van de fout-positieve rapportlogboeken wordt beoordeeld en moet nog worden beoordeeld? |
|
Opmerking: kan veranderen op basis van het uiteindelijke ontwerp/vorm
[QN] Wat is het gebruik van modelverkennings-/visualisatiehulpmiddelen?
|
||
Opmerking: kan worden uitgebreid op basis van het eindontwerp/vorm
[QN] Hoe vaak wordt de configuratie van Automoderator aangepast?
|
Dit kan alleen relevant zijn wanneer Automoderator aanvankelijk is ingeschakeld en geconfigureerd. Na dit moment kunnen we niet meer veel activiteit verwachten. | |
Kunnen gemeenschappen de impact van Automoderator op de gezondheid van hun gemeenschap begrijpen? | [QL] UX-testen van Automoderator-configuratiepagina en dashboards (indien relevant) | Op onze eerste pilot wiki's moeten we misschien gewoon een json of een soortgelijke pagina hebben, voordat Community Configuration klaar is om een betere front-end-ervaring te bieden. |
Hypothese #3
Hypothese: Wanneer bewerkingen te goeder trouw worden teruggedraaid door Automoderator, kunnen de bewerkers in kwestie valse positieven rapporteren, en de terugdraaiacties zijn niet schadelijk voor de beleving van de bewerkers, omdat het duidelijk is dat Automoderator een geautomatiseerd hulpmiddel is die geen oordeel velt over hen individueel.
Opmerking: Aangezien de ervaringen van de redacteuren sterk variëren op basis van het apparaat, moeten de volgende metingen, indien relevant, worden verdeeld per platform en apparaat.
Topniveau gegevens:
- 90% van de valse positieve rapporten krijgt een reactie of actie van een andere redacteur.
Onderzoeksvragen | Evaluatiemethode/metriek | Opmerkingen |
---|---|---|
Zijn redacteuren van goede trouw op de hoogte van de omdraaiingen van Automoderator en in staat te melden als ze geloven dat het een vals positief is? | [QL/QN] Wat is de perceptie van nieuwkomers te goeder trouw wanneer hun bewerking is teruggedraaid door Automoderator?
|
Dit kan een enquête, interviews of gebruik QuickSurveys zijn. |
Kunnen gebruikers die van plan zijn een fout-positieve melding in te dienen, er een indienen? | [QN] Welk deel van de gebruikers die zijn begonnen met het indienen van het rapport, heeft het voltooid?
[QL] UX-testen van de vals-positieve rapportagestroom. |
|
Wat is het effect van Automoderator op het bijdragen door nieuwe redacteuren?
|
[QN] A/B-experiment: Automoderator zal willekeurig kiezen tussen het wel of niet uitvoeren van een terugdraaiactie op een bewerking van een nieuwkomer (details moeten nog worden gedefinieerd). De testgroep zal bestaan uit nieuwkomers op wie Automoderator een terugdraaiactie uitvoert, en de controlegroep zal bestaan uit nieuwkomers op wie Automoderator een terugdraaiactie had moeten ondernemen (op basis van de revert risicoscore) maar dat niet heeft gedaan, als onderdeel van het experiment, maar waar later actie op werd ondernomen door menselijke moderators.
[QL] Quicksurveys of een vergelijkbare korte enquête hulpmiddel kan haalbaar zijn.
|
Het behouden en enquêteren van nieuwe bewerkers is moeilijk, maar we hebben hier veel ervaring mee bij de Wikimedia Foundation in het Growth-team. We gaan met hen om tafel om meer te weten te komen over de mogelijkheden die we hebben om deze onderzoeksvraag te evalueren. |
Vangnetten
Naast dit doelgerichte meetplan zijn we ook van plan om 'vangnetten' te definiëren - metingen die we zullen controleren om ervoor te zorgen dat we negatieve effecten van Automoderator vermijden. Blijven er bijvoorbeeld minder nieuwe bewerkers hangen omdat het terugdraaien van Automoderators frustrerend is, of worden patrouilles te zelfgenoegzaam omdat ze "te veel" vertrouwen stellen in Automoderator? Deze vangnetten zijn nog niet gedocumenteerd, maar we delen die documentatie dan hier.
Als u ideeën heeft over wat er mis kan gaan met dit project en over gegevenspunten die we zouden kunnen monitoren om deze scenario's te verifiëren, laat het ons dan weten.
Metingen pilotfase
Hoewel het meetplan nuttig kan zijn om de impact van het project op de lange termijn te begrijpen en te evalueren, hebben we enkele maatstaven geïdentificeerd waarop we ons moeten concentreren voor de pilotfase. Het doel hiervan is om een overzicht te geven van de activiteit van Automoderator aan het team en ook aan de community, en om ervoor te zorgen dat er niets abnormaals is. Als u suggesties heeft voor andere metingen die we zouden moeten volgen tijdens de pilotfase, laat dan een bericht achter op de overlegpagina.
Indicator voor | Meting(en) | Dimensies |
---|---|---|
Volume | Aantal bewerkingen die ongedaan zijn gemaakt door Automoderator (absoluut & percentage van alle ongedaan makingen) | Anonieme gebruikers, nieuwkomers[1], niet nieuwkomers[2] |
Nauwkeurigheid (fout-positieven) | Percentage van het ongedaan maken van het ongedaan maken door Automoderator | |
Nauwkeurigheid (fout-negatieven) | Verhouding van het ongedaan maken die niet door de Automoderator zijn gedaan (terwijl het ingeschakeld was) | - |
Efficiëntie | Gemiddelde tijd voor Automoderator om een bewerking ongedaan te maken | - |
- | Gemiddelde tijd voor het ongedaan maken van bewerkingen die Automoderator ongedaan heeft gemaakt | - |
Guardrail | Na implementatie, percentage bewerkingen dat door de uitvoerder ongedaan is gemaakt | Automoderator, mensen en met hulpmiddel geholpen mens (indien van toepassing) |