Рост/позитивное подкрепление
Positive reinforcement
Features to encourage newcomers to continue editing by showing that their contributions matter
|
На этой странице описывается работа по "позитивному подкреплению" в рамках комплекта функций "Рост". На этой странице есть основные активы, дизайн, открытые вопросы и решения.
Большинство дополнительных обновлений о ходе работ будут публиковаться на общей странице обновлений команды роста, а некоторые крупные или подробные обновления будут публиковаться здесь.
Текущее состояние
- 2021-03-01: создана страница проекта
- 2022-02-25: Проект начался с обсуждения в команде
- 2022-03-01: расширена страница проекта
- 2022-05-11: обсуждение сообществом
- 2022-08-12: пользовательское тестирование завершено
- 2022-11-24: Добавлены текущие проекты и план измерений и экспериментов
- 2022-12-01: новый модуль воздействия выпущен для пилотных вики
- 2023-02-07: Началось повышение уровня и персонализированная работа по похвале и началось второе обсуждение сообщества
- 2023-02-14: published Newcomer task milestone analysis which will help guide Leveling up work
- 2023-03-22: Уровень повышения функций, опубликованных в качестве теста A/B на пилотных вики Роста
- 2023-03-24: опубликовано Спасибо Анализ использования
- 2023-05-25: выпущен персонализированный модуль похвалы на пилотных вики "Роста"
- 2023-10-01: выпущен новый модуль Impact на всех Википедиях и опубликован Результаты эксперимента по повышению уровня
- Next: релиз Персонализированная похвала на всех Википедиях
Краткое описание
Команда по развитию сосредоточилась на создании «целостного опыта для новичков», который обеспечивает новичкам «доступ», необходимый им для присоединения к практикующему сообществу Википедии. Например, с помощью задач для новичков мы предоставили им доступ к «возможностям участия», а с помощью модуля наставничества мы предоставили им доступ к «наставничеству». Предлагаемые изменения способны заставить большее количество новичков сделать свои первые правки. После этого успеха мы хотим предпринять шаги, чтобы побудить новичков продолжать делать больше правок. Это обращает наше внимание на неразвитый элемент, к которому ноички должны иметь доступ: оценка производительности. Мы называем этот проект "положительным усилением".
Мы хотим, чтобы новички понимали, что есть прогресс и ценность устойчивых вкладов в Википедию, увеличивая удерживание пользователей, которые сделали первый шаг в редактировании.
Наш главный вопрос здесь: «Как мы можем поощрить новичков, которые посетили нашу домашнюю страницу и попробовали наши функции, продолжать редактировать и наращивать свой импульс?»
Предыстория
Когда в 2019 году была запущена домашняя страница для новичков, она содержала базовый "модуль воздействия", в котором было перечислено количество просмотров страниц, которые новичок редактировал. Это единственная часть функций "Роста", которая даёт новоприбывшему осознание своего влияния, и мы не улучшили его с момента его внедрения.
С этой точки зрения мы собрали некоторые важные уроки о положительном укреплении:
- Мы слышали хорошие отзывы от членов сообщества о модуле, опытные редакторы сказали, что он интересен и ценен для них.
- Было показано, что благодарность от других пользователей увеличивает удержание, например, в случае «спасибо» (здесь и здесь) и в эксперименте в немецкой Википедии. Мы считаем, что эти подкрепления от реальных людей будут более эффективными, чем автоматические, исходящие от системы.
- Члены Сообщества объяснили, что для новичков высокий приоритет - перейти к более ценным задачам после того, как они начали с легких, а не просто застрять на легких.
- Другие платформы, такие как Google, Duolingo и GitHub, используют многочисленные механизмы положительного усиления, такие как значки и цели.
- Общество опасается поощрения неблагоприятного редактирования. Мы заметили, что соревнования по правкам за денежные призы, или зависимость статуса редактора от количества правок, может побудить людей делать много проблемных правок.
Личность пользователя
Есть много моментов на пути новичков, в которых мы можем попытаться увеличить удержание. Мы могли бы сосредоточиться на новичках, которые перестали редактировать после одной или нескольких правок, или мы могли бы изучать новичков, которые перестали редактировать через несколько недель. Для этого проекта мы решили сосредоточиться на тех новичках, которые завершили свою первую сессию редактирования, и которых мы хотим вернуть на вторую сессию. На схеме это иллюстрировано желтой звездой.
Мы хотим сосредоточиться на новичках на этом этапе, так как это следующий этап воронки редактора, в котором мы можем помочь улучшить удержание. Также мы видим очень значительный показатель текучки в настоящее время, поэтому если мы сможем помочь сохранить новичков в этом месте, то со временем это должно привести к значительному увеличению числа редакторов.
Исследования и открытия
Были проведены исследования различных механизмов для поощрения людей вносить контент как в продукты, которые доступны на вики, так и вне вики. Вот некоторые из ключевых выводов исследования:
- Мотивации редакторов Википедии многогранны и меняются с течением времени и с приобретённым опытом. Новые редакторы часто больше движимы любопытством и социальными связями, чем идеологией.
- Внутренние проекты сосредоточены на внутренних стимулах, обращаются к альтруистическим мотивациям и не применяются систематически.
- Расширение сферы интересов за пределы идеологических мотивов может улучшить разнообразие оставшихся редакторов Википедии.
- Доказано, что положительные сообщения от опытных пользователей и наставников эффективны для краткосрочного удержания.
Чтобы увидеть сводку текущих идей проекта для положительного подкрепления, см. это Design Brief. Chtoby uvidet' svod Наши проекты будут развиваться через обратную связь с сообществом и несколько раундов тестирования пользователей.
Идеи
У нас есть три основных идеи для положительного усиления. Мы можем преследовать несколько идей, когда работаем над этим проектом.
Влияние
- Воздействие : переработанный модуль «Воздействие», основанный на включении статистики, графиков и другой информации о вкладе. Ревизионный модуль влияния предоставит новым редакторам больше контекста о своем влиянии, а также поощряет их продолжать вносить свой вклад. В области исследования входят:
- Предлагаемые изменения - это вехи, чтобы побудить пользователей попробовать предложенные изменения.
- Статистика того, сколько страниц отредактировал пользователь с течением времени (аналогично тому, что есть в X Tools).
- Подсчёт «полученных благодарностей» подчеркивает возможность получения общественного признания.
- Недавняя активность редактирования — включая дни подряд, когда новички вносили изменения («серии»), чтобы поощрить людей к дальнейшему участию или напомнить им о необходимости возобновить свои публикации.
- Просмотр активности чтения статей, отредактированных новичками с течением времени (аналогично информации на en:Wikipedia:Pageview_statistics).
-
Конструкция модуля воздействия A — больший акцент на влиянии пользователя на других (читателей и редакторов)
-
Дизайн модуля воздействия B - подчеркивает недавнюю редактирующую деятельность пользователей
Настройка
- Повышение уровня: для сообществ важно, чтобы новички продвигались к более ценным задачам. Выполняющих много легких задач мы хотим побудить попробовать более сложные задачи. Это может произойти после того, как они выполнят определенный ряд простых задач или по поощрению на своей домашней странице. В области исследования входят:
- Новичок увидит сообщения об успехе после редактирования, мотивирующее его делать больше правок не одного и того же, а разных уровней сложности.
- В модуле "Предлагаемые правки" предоставляйте возможности для более сложных правок, чтобы новички могли стать более опытными редакторами.
- В модуле "Влияние" включите счетчик или зону награждения.
- На странице "Домашняя страница" добавьте новый модуль с задачами, чтобы получить определенную награду (отметка/сертификат).
- Добавьте уведомления, чтобы побудить новичков попробовать более сложную задачу.
-
Идея дизайна, включающая в себя ежедневную цель редактирования
-
Новички могут выполнить более сложные задачи и получить признание
-
Модуль награждения на домашней странице для новичков
-
Новички, которые делают "быстрые правки" плохого качества, могут получить консультацию
-
Новички, которые выполнили задачу, получили награду "Прокаченный новичок"
Персонализированная похвала
- Персонализированная похвала»: исследования показывают, что похвала и поощрение от других пользователей повышают удержание новичков. Мы хотим подумать о том, как побудить опытных пользователей поблагодарить и наградить новичков за хорошие вклады. Возможно, наставников можно было бы поощрить делать это на своих панелях наставников или через уведомления. Мы можем использовать существующие механизмы связи, которые в прошлых исследованиях доказали, что имеют определённый положительный эффект. Areas of exploration include:
- Личное сообщение от наставника новичка, которое появляющееся на домашней странице.
- Эхо-уведомление от наставника или команды Wikimedia Growth.
- "Спасибо" за конкретную правку.
- Новый значок, присужденный наставником или командой "Роста", связанный с конкретным редактированием.
-
Показать "Спасибо" на странице "Новоприбывшие"
-
Показывать Wikilove на домашней странице "Новоприбывшие"
Обсуждение сообществом
We discussed the Positive Reinforcement project with community members from Арабская Википедия, Бенгальская Википедия, Чешская Википедия и Французская Википедия, and here on mediawiki.org.
Мы получили прямую обратную связь о трёх основных идеях, а также много других идей по улучшению сохранения редакторов.
Ниже приведены основные темы отзывов, а также то, как мы планируем повторять их на основе отзывов.
Влияние
Мы слышали... | Планы по итерации на основе отзывов |
---|---|
😊 - Хорошо выглядит! | Эта идея кажется наименее противоречивой и наиболее поддерживаемой. Мы планируем начать разработку в первую очередь именно с этого и выделить больше времени на доработку других идей. |
😐 Модуль воздействия будет более эффективным, если он будет масштабироваться с редакторами по мере того, как они наберут опыт. | На данный момент мы планируем сосредоточиться на новичках, но новый модуль воздействия будет построен с возможностью расширения для учета будущих улучшений. |
Повышение уровня
Мы слышали... | Планы по итерации на основе отзывов |
---|---|
😊 Повышение уровня гарантирует, что новички не застрянут в лёгких задачах. | Как только у пользователей накопится определенное количество неотмененных правок одного типа, мы должны предложить им попробовать более сложные задачи. |
😊 Новички часто жаждут наград. | Если мы будем давать награды, они должны быть значимыми для новичков и, в идеале, ими можно будет поделиться либо на вики (на странице пользователя), либо за ее пределами. |
❌ Целевые стимулы могут быть проблематичными и могут привести к низкому качеству правок | Поощрения, включающие временной элемент (аналогично премиям за обслуживание), могут быть эффективным подходом, поскольку они учитывают не только количество правок, но и продолжительность времени регистрации. Определенные «контрольные показатели качества» могут помочь замедлить и направить новичков, если они вносят изменения, которые впоследствии будут отменены. На данный момент мы планируем сократить объём наград в рамках «Повышения уровня» и сосредоточиться больше на поощрении пользователей пробовать выполнять более сложные типы заданий, поскольку они успешно справляются с более простыми. |
❌ Ежедневные цели могут вызывать стресс и демотивировать некоторых людей. | Мы рассмотрим эту идею более подробно и, вероятно, допустим возможность настройки целей, если мы ее реализуем. |
=== Персонализированная похвала ===
Мы слышали... | Планы по итерации на основе отзывов |
---|---|
😊 Распространение похвалы и позитива может помочь повысить удержание новичков. | Мы все еще работаем над тем, как поощрять новичков выражать больше благодарностей и персонализировать приветствия, но надеемся вскоре представить новые идеи дизайна. |
😐 Масштабирование персонализированной похвалы может оказаться сложной задачей, поскольку для опытных редакторов это занимает больше времени. | Наставники и так заняты, поэтому мы надеемся найти способ выявить «достойных похвалы» подопечных. Мы также проведем мозговой штурм и других идей, которые не зависят от наставников. |
😐 Нам следует использовать существующие системы (Спасибо, WikiLove и т. д.) | Планы еще не окончательны, но мы определенно планируем воспользоваться существующими системами. |
Другие идеи:
Члены сообщества предложили несколько других идей по улучшению вовлеченности и удержания новичков Мы считаем, что все это ценные идеи (некоторые из них мы уже изучаем или хотим реализовать в будущем), но следующие идеи не вписываются в рамки текущего проекта:
- Отправляйте новичкам приветственные и ознакомительные письма (в настоящее время команда по развитию изучает возможность электронных писем для вовлечения совместно с командами по маркетингу и сбору средств).
- Познакомьте новичков с википроектами, которые соответствуют их интересам.
- Включите настраиваемый виджет на домашней странице для новичков, чтобы вики-ресурсы могли продвигать определенные задачи или события для новичков.
- Отправлять уведомления пользователям, которые приветствуют новичков, как только новичок достигает определенных этапов редактирования (чтобы побудить пользователя выразить благодарность или поставить оценку Wikilove).
Вторая консультация с общественностью:
В феврале 2023 года мы завершили консультации с сообществом, в ходе которых рассмотрели самые последние проекты повышения уровня с помощью вики-проектов Growth Pilot. Эта консультация была завершена в English на MediaWiki, а также в арабской Википедии, бенгальской Википедии, чешской Википедии и испанской Википедии. (T328356) В целом отзывы были весьма положительными. Эти две задачи помогают учесть замечания, высказанные теми, кто ответил на наши вопросы:
- Повышение уровня: конфигурация сообщества (T328386)
- Повышение уровня: вторая итерация дизайна диалогового окна «Попробуйте новую задачу» (T330543)
В марте 2023 года мы завершили консультации с сообществом, в ходе которых рассмотрели самые последние разработки персонализированных похвал с использованием вики-ресурсов Growth Pilot. Эта консультация была завершена в английской, арабской, бенгальской, чешской, французской, испанской Википедии и в MediaWiki на английском языке. (T328356) Большинство отзывов были положительными для функций персонализированной похвалы, но было предложено несколько дополнительных улучшений. Для реализации этих дальнейших улучшений мы создали задачи Phabricator.
- В арабской Википедии и других вики с помеченными правками наставники хотят видеть не только количество правок, внесенных пользователем, но и более подробную информацию о статусе проверки правок. (T333035)
- Наставники хотят иметь возможность просматривать количество или процент отмен, которые есть у подопечного, и настраивать, сколько отмен может иметь новичок, чтобы считаться достойным похвалы. (T333036)
- Наставники были бы признательны, если бы знали, за какую правку ученик получил благодарность. (T51087)
Пользовательское тестирование
Наряду с обсуждением в сообществе мы хотели проверить и дополнить наши первоначальные проекты и гипотезы, протестировав проекты с читателями и редакторами из нескольких стран. Поэтому наша исследовательская группа по дизайну провела тестирование с участием пользователей Positive Reinforcement, чтобы лучше понять влияние проекта на вклад новичков на нескольких разных языках.
Мы протестировали несколько статических схем положительного подкрепления с читателями и редакторами Википедии на арабском, испанском и английском языках. Наряду с тестированием дизайнов положительного подкрепления мы внедрили визуализацию данных из xtools, чтобы лучше понять, как эти визуализации данных воспринимаются новичками.
Результаты пользовательского тестирования
- Сделайте данные о влиянии применимыми на практике: Данные о влиянии оказались привлекательной особенностью для участников с большим опытом редактирования, что многие связывали с их интересом к данным — неудивительное качество для Википедиста. Для новичков в редактировании данные о влиянии, выходящие за рамки представлений и базовой деятельности по редактированию, могут оказаться более интересными, если они связаны с постановкой целей и оптимизацией воздействия.
- Оцените идеальный интервал редактирования: В разных статьях ежедневные интервалы, по всей видимости, оказались слишком амбициозными для новых и нерегулярных редакторов. Участники также размышляли об игнорировании аналогичных механизмов на других платформах, когда они нереалистичны. Подумайте о том, чтобы обратиться к аналитике использования, чтобы определить «естественные» интервалы для новых и случайных редакторов, что позволит сделать цели более достижимыми.
- Обеспечение достоверности оценок: Участники-новички из числа редакторов были заинтересованы в подтверждении своих навыков и прогресса, которые предлагают показатель качества, оценка статей и значки. Некоторые надеялись, что значки придадут их работам больше доверия со стороны более опытных редакторов. Учитывая этот потенциал, было бы полезно оценить, являются ли оценки значимыми показателями навыков, и более подробно изучить, как лучше всего использовать их для завоевания доверия сообщества новичками.
- Поощряйте качество и сотрудничество, а не количество: Как редакторы, так и читатели, участвовавшие в исследовании esWiki, были больше заинтересованы в признании их знаний или опыта (качество), чем в количестве внесенных ими правок (количество). Аналогичным образом, некоторые редакторы арабских и английских текстов мотивированы на правки по своим профессиональным интересами и развитие навыков. Ориентация целей и вознаграждений на другие показатели квалифицированного редактирования, такие как добавление ссылок или тематических материалов, а также сотрудничество или участие в сообществе, также может помочь снизить опасения по поводу того, что конкуренция преобладает над сотрудничеством.
- Отдайте приоритет человеческому распознаванию: Хотя баллы и значки, полученные за задания по развитию, потенциально ценны, признание со стороны других редакторов, по-видимому, является более мотивирующим фактором. Функции, способствующие выражению, получению и повторному использованию благодарностей, показались наиболее убедительными, и редакторам может быть полезно выбрать данные о влиянии, которые демонстрируют наиболее убедительное для них взаимодействие с читателями или редакторами.
- Экспериментируйте с игривостью дизайна: Хотя некоторые функции позитивного подкрепления можно рассматривать как продукт «геймификации», некоторые участники (в основном из EsWiki) посчитали, что простые, забавные проекты были слишком детскими или игривыми по сравнению с серьёзностью Википедии. Поэкспериментируйте с визуальными дизайнами, различающимися по уровню игривости, чтобы оценить более широкую реакцию на слово «веселье» в Википедии.
Дизайн
Ниже приведены текущие проекты для Positive Reinforcement. Мы усовершенствовали три основные идеи, изложенные выше, но сфера действия планов и фактические проекты развивались на основе отзывов, полученных в ходе обсуждений в сообществе и тестирования пользователями.
Влияние
Пересмотренный модуль воздействия предоставляет новым редакторам больше контекста об их влиянии. Новый дизайн включает гораздо больше персонализированной информации и визуализации данных, чем предыдущий дизайн. Этот новый дизайн похож на дизайн, которым мы поделились ранее при обсуждении этой функции с сообществами. Вы можете просмотреть текущий прогресс разработки на beta wiki, и мы надеемся вскоре выпустить эту функцию в Growth pilot wiki.
Повышение уровня
Функции Повышения уровна направлены на поощрение новичков к переходу к более ценным задачам. Идеи также включают некоторые подсказки для новых редакторов, чтобы попробовать предлагаемые правки, поскольку структурированные задачи, как было показано, улучшают активацию и удержание новичков.
- Диалоговое сообщение после редактирования «Level up»: добавлен новый тип диалогового сообщения после редактирования, чтобы побудить новичков попробовать новый тип задачи. Мы надеемся, что это побудит некоторых пользователей освоить новые навыки редактирования по мере продвижения к другим, более сложным задачам.
- Диалоговое окно постредактирования для непредложенных правок: знакомьте новичков, которые выполняют «обычные» правки, с предложенными правками. Мы планируем провести эксперимент, показывая новичкам подсказку о 3-й и 7-й правке. Пользователи настольных компьютеров, которые нажимают, чтобы попробовать предложенную правку, также увидят свой модуль Impact, который, как мы надеемся, помогает вовлекать новичков и обеспечивает небольшую степень автоматического положительного подкрепления. Мы тщательно измерим этот эксперимент и обеспечим отсутствие непреднамеренных отрицательных эффектов.
- Новые уведомления: Новые уведомления- эхо, побуждающие новичков начинать или продолжать предлагаемые правки. Это действует как прокси для «возврата» писем для тех, у кого есть адрес электронной почты и настройки для получения уведомлений по электронной почте.
-
Диалоговое сообщение после редактирования «Повысить уровень»
-
Диалоговое окно после редактирования для непредложенных правок
-
Новое уведомление
Персонализированная похвала
Personalized praise features are based on research results that show that encouragement and thanks from other users increases editor retention.
- Поощрение от наставников: Мы добавим новый модуль в панель управления наставниками, который предназначен для поощрения наставников отправлять персонализированные сообщения новичкам, которые соответствуют определенным критериям. Мы позволим наставникам настраивать и контролировать, как и когда будут появляться «достойные похвалы» подопечные.
- Растущее количество благодарностей на вики: Мы планируем выполнить пункт списка пожеланий сообщества Включить кнопку «Спасибо» по умолчанию в списках наблюдения и последних изменениях (T51541, T90404). Мы надеемся, что это увеличит количество благодарностей и позитива на вики, и надеемся, что новички получат от этого прямую или косвенную выгоду.
-
Разработка нового модуля панели инструментов Mentor
-
Дизайн представления настроек нового модуля панели управления
Измерение и результаты
Гипотезы
Функции позитивного подкрепления направлены на предоставление или улучшение инструментов, доступных новичкам и наставникам в трех конкретных областях, которые будут более подробно описаны ниже. Наша гипотеза заключается в том, что как только новичок внес свой вклад (например, внеся структурированное редактирование задания), эти функции помогут создать цикл положительной обратной связи, который повысит мотивацию новичка.
Ниже приведены конкретные гипотезы, которые мы стремимся проверить среди вновь прибывших. У нас также будут гипотезы для каждого из трех наборов функций, которые команда планирует разработать. Эти гипотезы определяют, какие именно данные мы будем собирать и как мы будем их анализировать.
- Функции позитивного подкрепления повышают наши основные показатели удержания и производительности.
- Поскольку функции позитивного подкрепления не содержат призыва к действию, предлагающего новичкам вносить изменения, мы не увидим никакой разницы в нашей основной метрике активации.
- Новички, которые получают функции положительного подкрепления, могут определить, что внесение неотмененных правок желательно, и мы увидим снижение доли отмен.
- Положительный цикл обратной связи, созданный функциями положительного подкрепления, приведет к значительному увеличению доли «высокоактивных» новичков.
- Функции положительного подкрепления увеличивают количество ежедневных активных пользователей предлагаемых правок.
- Среднее количество сеансов редактирования в течение периода новичка (первые 15 дней) увеличивается.
- «Персонализированная похвала» повысит активность наставника в общении со своими подопечными, что приведет к повышению удержания и производительности труда.
План эксперимента
Как и в предыдущих проектах команды "Роста", мы хотим проверить наши гипотезы с помощью контролируемых экспериментов (также называемых «A/B-тестами»). Это позволит нам установить причинно-следственную связь (например, «Функции повышения уровня приводят к увеличению удержания на xx%»), а также позволит нам обнаружить меньшие эффекты, чем если бы мы предоставили их всем и проанализировать эффекты до и после развертывания.
In this controlled experiment, a randomly selected half of users will get access to Positive Reinforcement features (the "treatment" group), and the other randomly selected half will instead get the current (September 2022) Growth feature experience (the "control" group). In previous experiments, the control group has not gotten access to the Growth features. The team has decided to move away from that (T320876), which means that the current set of features is the new baseline for a control group.
The Personalized Praise feature is focused on mentors. There is a limited number of mentors on every wiki, whereas when it comes to newcomers the number increases steadily every day as new users register on the wikis. While we could run experiments with the mentors, we are likely to run into two key challenges. First, the limited number of mentors could mean that the experiments would need to run for a long time. Second, and more importantly, mentors are well integrated into the community and communicate with each other, meaning they are likely to figure out if some have access to features that others do not. We will therefore give the Personalized Praise features to all mentors and examine activity and effects on newcomers pre/post deployment in order to understand the feature’s effectiveness.
In summary, this means we are looking to run two consecutive experiments with the Impact and Leveling up features, followed by a deployment of the Personalized Praise features to all mentors. These experiments will first run on the pilot wikis. We can extend this to additional wikis if we find a need to do that, but it would only happen after we have analyzed the leading indicators and found no concerns.
Each experiment will run for approximately one month, and for each experiment we will have an accompanying set of leading indicators that we will analyze two weeks after deployment. The list below shows what the planned experiments will be:
- Impact: treatment group gets the updated Impact module.
- Leveling up: treatment group gets both the updated Impact module and the Leveling up features.
- Personalized praise: all mentors get the Personalized praise features.
Leading indicators and plan of action
While we believe that the features we develop are not detrimental to the wiki communities, we want to make sure we are careful when experimenting with them. It is good practice to define a set of leading indicators together with plans of what action to take based if a leading indicator suggests something isn't going the way it should. We have done this for all our past experiments and do so again for the experiments we plan to run as part of this project.
Impact
Indicator | Expected result | Plan of action | Results |
---|---|---|---|
Impact module interactions | No difference or increase | If Impact module interactions decrease, then this suggests that we might have performance or compatibility issues with the new Impact module. If the proportion of newcomers who interact with the new Impact module is significantly lower than the old module we investigate the cause, reverting back to the old module if necessary. | Significant decrease |
Mentor module interactions | No difference | The new Impact module takes up more screen real estate than the old module, which might lead to newcomers not finding the Mentor module as easily as before. If the number of newcomers who interact with the Mentor module is significantly lower for those who get the new Impact module, we investigate the need for design changes. | No signifiant difference |
Mentor module questions | No difference | Similar concerns as for interactions with the Mentor module, if the number of questions asked to mentors is significantly lower for newcomers who get the new Impact module, we investigate the need for design changes. | No signifiant difference |
Edits and revert rate | No difference in both edits and reverts, or an increase in edits and a decrease in revert rate | If there is an increase in the revert rate, this may suggest that newcomers are making unconstructive edits in order to inflate their edit or streak count. If the revert rate of newcomers who get the new Impact module is significantly higher than the old, we investigate their edits and decide whether changes are needed. | No signifiant difference (once outliers are removed) |
Impact module interactions: We find that the proportion of newcomers who interact with the old module (6,1%) is significantly higher than for the new module (5,0%): This difference showed up early on in the experiment, and we have examined the data more closely understand what is happening. One issue we identified early on was that not all interaction events were instrumented, which we subsequently resolved. Examining further, we find that many of those who get the old module click on links to the articles or the pageviews. In the new module, a graph of the pageviews is available, thus removing some of the need for visiting the pageview tool. As a result, we decided that no changes were needed.
Mentor module interactions: We find no significant difference in the proportion of newcomers who interact with the Mentor module. The proportion for newcomers who get the old module is 2,4%, for those who get the new module it's 2,2%. A Chi-square test finds this difference not significant:
Mentor module questions: We do not see a substantial difference in the number of questions asked between the old module (269 edits) and the new module (281 edits). The proportion of newcomers who asks their mentor a question is also the same for both groups, at 1,5%.
Edits and revert rate: We do not see a substantial difference in the number of edits nor in the revert rate between the two groups measured on a per-user average basis. There are differences between the groups, but these are driven by some highly prolific editors, particularly on the mobile platform.
Levelling up
Indicator | Expected result | Plan of action | Results |
---|---|---|---|
Levelling up post-edit dialog: interactions | No difference or increase | The percentage of users who click / tap on a Levelling up post-edit dialog should be similar or higher than the percentage of users who click / tap on the standard post-edit dialog. If there is a decrease, then we need to investigate what causes this difference. | Higher on mobile, no difference on desktop |
Levelling up post-edit dialog: "Try a suggested edit" click through | >10% click through to suggested edits | If the "try a suggested edit" dialog isn't resulting in more newcomers exploring suggested edits, then this notice is just extra noise for newcomers and we should investigate or consider removing the feature. | Significantly higher than 10% |
Levelling up post-edit dialog: "Increase your skill level" click through | >10% click through to Try new task | If the "increase your skill level" isn't resulting in more newcomers trying more difficult tasks, then this notice is just extra noise for newcomers and we should investigate or consider removing the feature. | Significantly higher than 10% |
Levelling up notifications: "get started" click through | >5% of users who view this notification click on it | We don't have a great baseline to compare this to, but if this number is too low we should investigate if there are technical issues or an issue with the language used. | More than 5% on desktop, less than 5% on mobile |
Levelling up notifications: "keep going" click through | >5% of users who view this notification click on it | We don't have a great baseline to compare this to, but if this number is too low we should investigate if there are technical issues or an issue with the language used. | More than 5% on desktop, less than 5% on mobile |
Activation | No difference or increase | If we see a significant decrease in the treatment group, similar to what we discovered for the New Impact Module experiment, then we examine monitoring and event data to try to identify a cause of this difference. | Decrease |
Levelling up post-edit dialog interactions: We find a higher proportion of newcomers interacting with the post-edit dialog in the Levelling Up group (90,8%) compared to the standard post-edit dialog (86,5%). This is largely driven by mobile where the Levelling Up interaction proportion (88,0%) is a lot higher than the other group (81,6%). The proportion is still higher for the Levelling Up group on desktop (93,6%) compared to the control (92,2%), but we regard it as "virtually identical" because the high proportion in the control group means there is little room for an increase.
Try a suggested edit click through rates: 21,9% of newcomers who see the "Try a suggested edit" post-edit dialogue chooses to click through, which is significantly higher than the threshold set. The proportion is higher on desktop (24,0%) than on mobile (19,7%), but in neither case is there a reason for concern.
Increase your skill level click through rates: We find that 73,1% of newcomers who see the "increase your skill level" dialog click through to see the new task, which is a lot higher than our expected threshold of less than 10%. Proportions are high on both desktop (71,1%) and mobile (77,3%).
Get started click through rates: 3,8% of newcomers who get the "Get started" notification clicks through to the Homepage. Users who registered on desktop are more likely to click the notification (5,5%) than those on mobile (2,5%). Because the threshold of 5% is met, we are investigating further to understand this difference between desktop and mobile behaviour, particularly to understand if our 5% threshold is reasonable.
Keep going click through rates: We find that 9,6% of users who get the "Keep going" notification clicks through to the Homepage. Similarly as we do for the "Get started" notifications, we find a much higher proportion on desktop (16,2%) compared to mobile (4,7%). Our investigations into differences in notification behaviour by platform will hopefully give us more insight into this difference.
Activation: We find a decrease in constructive article activation (making a non-reverted article edit within 24 hours of registration) of 27,0% compared to 27,7%. As soon as we noticed this we opened T334411 to investigate the issue, with a focus on patterns in geography (countries and wikis) and technology (devices and browsers). We did not find clear patterns explaining the issue. The investigation of this decrease in activation will be investigated further: T337320.
Personalized praise
Indicator | Expected result | Plan of action | Results |
---|---|---|---|
Personalized praise notification click through | At least 10% of Mentors who view a Personalised praise notification click on it | If this number is much lower than the click through on other notifications, then we should investigate if there are technical issues or an issue with the language used. | 73% of Mentors who received a notification clicked on it |
Personalized praise mentor dashboard module click through | At least 10% of Mentors who view a Personalised praise suggestion on their Mentor dashboard end up clicking through to send praise | If this threshold is met then we should investigate if there are technical issues or an issue with how Mentors are interpreting this call to action. | 27.5% of Mentors who view a Personalized praise list click through |
Data was gathered on 2023-06-13, from the four pilot wikis where the feature is deployed (Arabic Wikipedia, Bengali Wikipedia, Czech Wikipedia, and Spanish Wikipedia).
Personalized praise notification click through: Although this is still a relatively small sample, results seem healthy and show that Mentors are indeed receiving notifications and clicking through to view their praise-worthy mentees.
Personalized praise mentor dashboard module click through: Only 27.5% of Mentors are clicking through to a mentee's talk page, however it's to be expected that some of the mentees we are surfacing aren't deserving of praise. Based on this data and feedback from Mentors, the Growth team will pursue the following tasks to help improve this feature:
- Add revert scorecard to Personalized praise module on Mentor dashboard (T337510)
- Exclude blocked accounts from the Personalized praise suggestions (T338525)
Experiment Results
Many of the experiments that the Growth team runs will focus on the same set of key metrics (commonly referred to as KPIs), and this includes all of the Positive Reinforcement experiments. The key metrics are defined as follows:
- Constructive activation is defined as a newcomer making their first edit within 24 hours of registration, and that edit not being reverted within 48 hours.
- Activation is similarly defined as constructive activation, but without the non-revert requirement.
- Constructive retention is defined as a newcomer coming back on a different day in the two weeks after constructive activation and making another edit, with said edit also not being reverted within 48 hours.
- Retention is similarly defined as constructive retention, but without the non-revert requirements.
- Constructive edit volume is the overall count of edits made in a user's first two weeks, with edits that were reverted within 48 hours removed.
- Revert rate is the proportion of edits that were reverted within 48 hours out of all edits made. This is by definition 0% for users who made no edits, and we generally exclude these users from the analysis.
Impact module experiment results
We initially found a significant decrease in constructive activation for newcomers who registered on mobile web and got the New Impact module.
There was no difference in activation for newcomers who registered on desktop.
This was quite surprising as the empty state for the old Impact module was nearly identical to the empty state of the new Impact module.
First-day activity correlates strongly with later activity, and as a result we also found a significant decrease in edit volume for mobile web users.
Again, there was no difference for desktop users.
We found no difference in retention rates and revert rates. While there are features in the New Impact module that focuses on staying active and making good contributions, such as the number of thanks received and the streak counter, we often do not see significant impacts on metrics unless there's a clear call to action or we are able to isolate a specific subgroup motivated by the feature.
As soon as we learned about the decrease in activation we started investigations into probable causes of this in T330614. Unfortunately we could not identify a specific reason and we also found that the issue was not replicated in another dataset.
We decided to add activation as a leading indicator to the Levelling Up experiment so that we could take action more quickly. When we noticed that the issue persisted, we started a new investigation in T334411 and created an "epic" task that connects all relevant subtasks: T342150. We restarted experiment data collection after making several small changes, and we now see that activation is identical between the experiment and control group, which is what we would expect.
Although we are pleased that we have received positive feedback from new editors regarding the new Impact module, we have found that the Impact module alone hasn't resulted in significant changes in newcomer retention, edit volume, or revert rates. Our next experiment will combine the new Impact module with the Leveling up features. We hope that this combination of Positive Reinforcement features will lead to substantial improvements in activation, retention, and edit volume. We will soon publish a detailed report that highlights the outcomes of this experiment.
Levelling up experiment results
For this experiment, we completed both an analysis of the overall effects across the whole newcomer population, and individually for each of the four components of the Levelling up features. These consist of the two notifications sent to newcomers 48 hours after registration, and two post-edit dialogues. The notifications are based on the number of suggested edits a newcomer might have done. If the newcomer has not made any suggested edits they get the "Get started" notification, and if they have made one to four suggested edits they get the "Keep going" notification. Newcomers who have made five or more suggested edits do not get any notifications.
The post-edit dialogues are shown after completed edits to articles based on certain criteria. If a newcomer has made three or eight article edits and not yet made any suggested edits, they get the "Try suggested edits" dialogue asking them if they want to try that feature. If a newcomer has completed five suggested edits of a specific task type, they get the "Try new task" dialogue suggesting a different type of task.
Our overall analysis did not find any significant effects on the team's key metrics (described above), and so we focus instead on the individual components. For the "Get started" notification, we find that this is sent to the vast majority of newcomers as making suggested edits is fairly uncommon. In our dataset, more than 97% of newcomers got this notification. We find that the notification leads to a significant increase in newcomer activity in the week following the notifications being sent. Newcomers are more likely to return and make an edit, which also increases the average number of edits made during that week. We also find that this effect is lower for those who registered on mobile web, and reduced or negative for highly active newcomers. Based on this, we decided to introduce a threshold so that those who make ten or more edits will not receive the notification. (T342819)
When it comes to the "Keep going" notification, we again find a significant increase in newcomer activity in the week following notifications being sent for those who registered on the desktop platform. For users who registered on mobile web, we find that it does not increase their probability of returning to edit but does increase the average number of edits made.
For the "Try suggested edits" dialogue, our analysis finds that while it has a reasonably high click-through rate it does not lead to newcomers successfully completing suggested edits. In our leading indicators report above, the click-through rate was 21.9%, and in a dataset from late July 2023 we found the rate to be higher at 25.3%. Using event data, we find that few newcomers find a task they are interested in, and subsequently only a fraction of newcomers go through and complete an edit. We plan to make a few improvements to this "Try suggested edits" dialog to see if we can increase the percentage of editors who click through and go on to complete an edit. (T348205)
For the "Try new task" dialogue, which is shown to users who complete five suggested edits of a given task type, we find both high click-through rates and a reasonably high rate of completed edits. We reported a click-through rate of 73.1% in our leading indicators, and in our more recent dataset from late July 2023 the rate is 81.9%. Our analysis of subsequent edits shows that 33.3% of desktop users and 20.0% of mobile web users go through and complete a suggested edit of the new task type. One thing to keep in mind is that this dialogue is not shown to a large number of newcomers, and we therefore cannot draw conclusions about whether there are meaningful differences between platforms. What we can conclude, is that this dialogue is successful in introducing new task types. In order to show the dialogue to a larger number of newcomers, we decided to reduce the number of edits needed to see it from five to three. (T348814)
Personalized praise experiment results
For this experiment, we focused on the effect of praise on newcomer retention and productivity. Since praise is a response to editing activity, it means there will be some time period between registration and receiving a praise message. We therefore started with an analysis of the time between registration and a mentor clicking the "Send praise" button. In that analysis, we found that most newcomers get it within 30 days of registration. This led us to redefine the time period for retention and productivity to also use this 30-day period (instead of our default of 14 days).
The Personalized praise feature was deployed to the Arabic, Bangla, Czech, and Spanish Wikipedias in late May 2023. We analyzed the Spanish Wikipedia separately from the other three because on the Spanish Wikipedia 50% of newcomers are randomly assigned a mentor, which means the feature is part of a controlled experiment. All newcomers are assigned a mentor on the other three Wikipedias.
Using a Difference-in-Differences analysis approach, we compared a three-month period prior to deployment (January through March) with a similar period after deployment (June through August), and compared data from 2023 with data from 2022 and 2018. We use two comparison time periods as a robustness check since 2022 was affected by the COVID pandemic.
For the Arabic, Bangla, and Czech Wikipedia, we found no significant impact of Personalized praise on neither retention nor productivity. Digging further into this we found that usage of the feature was limited (we're not releasing specific counts in accordance with our data publication guidelines). In discussions with wiki ambassadors we learned that sending praise is a time-consuming process as the mentors need to check a mentee's edits, thus explaining why the feature isn't more widely used.
When it comes to the Spanish Wikipedia, we found the feature has been more widely used. While we again found no significant impact on retention, we found a significant positive impact on newcomer productivity. This finding is encouraging since our preliminary analysis of mentorship found conflicting results of none or a negative impact.
As these results were not positive enough to justify the time investment from Mentors, we have decided to start conversations with our ambassadors and communities and consider further improvements before releasing the feature more widely. We will consider improvements related to reducing the amount of work needed by Mentors, potential design improvements, and improvements to how newcomers are selected to be displayed in the Personalized praise module.