Jump to content

Приложения Викимедии/Команда/Android/Машинно-генерируемые описания статей/Обновления

From mediawiki.org
This page is a translated version of the page Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates and the translation is 38% complete.

Обновления

Further changes

  • We've used the same underlying machine-learning model for all of these experiments (so no re-training etc. of the actual model). What we've been adjusting throughout is how the user interacts with it.
  • Our initial offline evaluation was of this model (Jan-April '23) lead us to put in place a few modifications to how users interacted with the model for the May-June 2023 piloting -- notably which outputs they could see (only higher confidence ones) and adjusting who could see the recommendations based on whether the article was a biography of a living person or not.
  • The feedback from that pilot lead to us putting in place one final adjustment having to do with when a recommended article description included a year in it (only show it if there's support for that year in the article text because this was one source of hallucinations by the model). That's now part of the officially deployed model on LiftWing (the link I shared above) that Android users would see.
  • At this point we aren't planning on any model updates beyond trying to reduce the latency of the model so Android users can see the recommendations more quickly. If we got feedback about errors that we thought we could address though, we'd try to make those fixes

August 2024

  • We are beginning to reach out to some Wikis to implement the feature, based on the results from the experiment that was updated and published last January.

July 2024: API available through LiftWing

We appreciate everyone's patience as we've worked with the Machine Learning team to migrate the model to LiftWing. In August we will clean up the client side code to remove test conditions and add in improvements mentioned in the January 2024 update. In the following months we will reach out to different language communities to make the feature available to them in the app.

If you are a developer and would like to build a gadget using the API, you can read the documentation here.

Январь 2024: Результаты эксперимента

Языковые разделы, включённые в оценку:
  • арабский
  • чешский
  • немецкий
  • английский
  • испанский
  • французский
  • гуджарати
  • хинди
  • итальянский
  • японский
  • русский
  • турецкий

Дополнительные языковые разделы, не имевшие собственных оценщиков и проанализированные сотрудниками, включают:

  • финский
  • казахский
  • корейский
  • бирманский
  • голландский
  • румынский
  • вьетнамский
Наблюдалось ли различие между средними и медианными оценками для машинного редактирования и редактирования, выполненного человеком:
Оценённые правки Средняя оценка Медианная оценка
Правки машинным способом 4.1 5
Правки, выполненные человеком 4.2 5
  • Примечание: 5 — наивысшая возможная оценка.
Как модель проявила себя в разных языковых версиях?
Языковые разделы Средняя оценка правок машинным способом Средняя оценка правок, выполненные человеком Превышает ли средняя оценка машинных правок человеческие? Рекомендации по активации функции
ar* 2.8 2.1 ИСТИНА Нет
cs 4.5 Н/П Да
de 3.9 4.1 ЛОЖЬ Требуется более 50 правок
en 4.0 4.5 ЛОЖЬ Требуется более 50 правок
es 4.5 4.1 ИСТИНА Да
fr 4.0 4.1 ЛОЖЬ Требуется более 50 правок
gu* 1.0 Н/П Нет
hi 3.8 Н/П Требуется более 50 правок
it 4.2 4.4 ЛОЖЬ Требуется более 50 правок
ja 4.0 4.5 ЛОЖЬ Требуется более 50 правок
ru 4.7 4.3 ИСТИНА Да
tr 3.8 3.4 ИСТИНА Да
Другие языковые разделы Н/П Н/П Н/П Можно активировать по запросу
  • Примечание: мы не будем активировать эту функцию без предварительной консультации с сообществами.

* Указывает на языковые разделы, где было мало предложений по оценке, что, по нашему мнению, повлияло на результаты.

Как часто машинно-генерируемые предложения принимались, изменялись или отклонялись?
Тип правок % от общего числа машинных правок
Машинно-генерируемое предложение принято 23.49%
Машинно-генерируемое предложение изменено 14.49%
Машинно-генерируемое предложение отклонено 62.02%
  • Примечание: Термин "отклонено" означает, что машинно-сгенерированное предложение было доступно, но не выбрано. Машинно-генерированные предложения предоставлялись через функцию «Машинные предложения». Машинно-генерированные предложения, не просмотренные пользователями, автоматически попадали в категорию «отклонено». «Отклонено» также подразумевает, что пользователь предпочёл самостоятельно написать краткое описание статьи.
Какова доля принятых машинно-генерированных кратких описаний статей, получивших оценку 3 и выше?
Оценка Процентное распределение
< 3 10.0%
>= 3 90.0%
Как менялась оценка машинно-генерированных кратких описаний статей в зависимости от уровня опыта оценивающих редакторов?
Опыт редактора Средняя оценка правок Медианная оценка правок
Меньше 50 правок 3.6 4
Больше 50 правок 4.4 5
В рамках нашего эксперимента были протестированы две версии алгоритма для определения наиболее точного и эффективного алгоритма. Во избежание предвзятости, порядок отображения правок для пользователей менялся случайным образом. Вот результаты:
Выбранный алгоритм Средняя оценка правок Процентное распределение
1 4.2 64.7%
2 4.0 35.3%
  • Примечание: при повторном запуске функции мы будем использовать только первую версию алгоритма.
Как часто пользователи вносят правки (изменения) в машинно-генерированные предложения перед публикацией?
Тип правок Распределение модификаций
Машинные правки не модифицированы 61.85%
Машинные правки модифицированы 38.15%
Как правки, вносимые пользователями в машинно-генерированные предложения, влияют на точность?
Оценки машинных правок Средняя оценка
Не модифицированы 4.2
Модифицированы 4.1
  • Примечание: Поскольку точность не зависит от того, вносит ли пользователь изменения в предложение или нет, мы не считаем необходимым требовать от пользователей редактирования рекомендаций. Однако нам всё равно следует иметь пользовательский интерфейс, который поощряет пользователей редактировать машинно-генерируемые предложения.
Как часто оценивающий указывал на необходимость отмены или переписывания правки в зависимости от её происхождения (машинного или человеческого)?
Оценка правок: % правок будут отменены % правок будут переписаны
Редактор принял предложение 2.3% 25.0%
Редактор увидел предложение, но вместо этого написал своё собственное описание 5.7% 38.4%
Человеческое редактирование 15.0% 25.8%
  • Примечание: Мы определяем «отмену» как правку, настолько неточную, что патрульному нецелесообразно вносить незначительные изменения для её улучшения. «Переписывание» определяется как изменение, вносимое патрульным для улучшения опубликованного пользователем контента. В ходе эксперимента было отменено лишь 20 машинных правок по всем проектам, что статистически незначимо. Поэтому мы не могли сравнивать фактические отмены и опирались на рекомендации оценщиков. Только два языковых раздела размещают краткие описания статей непосредственно в Википедии, что приводит к снижению частоты проверок для большинства языковых разделов, так как описания размещаются в Викиданных.
Какую информацию мы получили из отчёта о функциональности?

0.5% уникальных пользователей предоставили отзыв о функции. Вот распределение полученных отзывов:

Отзыв % распределение отзывов
Недостаточно информации 43%
Неподходящее предложение 21%
Неправильные даты 14%
Не вижу описания 7%
Нерелевантное предложение 7%
Орфографическая ошибка 7%
Влияет ли эта функция на удержание пользователей?
Продолжительность удержания Группа 0

(не подвержены воздействию)

Группы 1 и 2
Средний показатель за 1 день: 35.4% 34.9%
Средний показатель за 3 дня: 29.5% 30.3%
Средний показатель за 7 дней: 22.6% 24.1%
Средний показатель за 14 дней: 14.7% 15.8%
  • Примечание: пользователи, которым была предоставлена возможность создавать краткие описания статей с помощью машинного метода, демонстрировали несколько более высокий процент возврата по сравнению с теми, кто не был ознакомлен с этой функцией.
Следующие шаги:

Эксперимент проводился на облачных сервисах, что не представляет собой долгосрочное решение. Положительных показателей достаточно, чтобы сделать функцию доступной для сообществ, заинтересованных в её использовании. Группа разработки мобильных приложений будет взаимодействовать с нашей командой специалистов по машинному обучению для переноса модели в Liftwing. По завершении миграции и тщательной проверки эффективности модели мы вновь обратимся к языковым сообществам, чтобы решить, где активировать функцию, и определить любые дальнейшие улучшения, которые можно внести в модель. На данный момент приоритетными считаются следующие модификации:

  • Ограничение биографий живущих людей: в рамках эксперимента участникам с более чем 50 правками было разрешено добавлять описания к биографиям ныне живущих людей, машинным способом. Мы признаём, что существуют опасения относительно постоянного предложения машинным способом кратких описаний для этих статей. Хотя мы не обнаружили никаких проблем, связанных с биографиями современников, мы готовы приостановить отображение предложений для этих статей.
  • Применение исключительно первого алгоритма: Первый алгоритм неизменно демонстрировал превосходство над вторым алгоритмом в генерации предложений. Соответственно, мы будем отображать только одно предложение, сгенерированное первым алгоритмом.
  • Переработка процесса адаптации и инструктирования: во время эксперимента использовался интерфейс, предоставляющий информацию о машинно-генерированных предложениях. При перезапуске функции мы восстановим руководство по использованию автоматических предложений. Мы будем признательны за отзывы сообщества касательно рекомендаций, которые они хотели бы получить от нас для создания эффективных кратких описаний статей, так как это поможет нам усовершенствовать процесс внедрения.

Если вы заметили какие-либо другие очевидные ошибки, пожалуйста, оставьте сообщение на странице обсуждения нашего проекта, чтобы мы могли их устранить. Одной из явных ошибок является отображение неверных дат. Мы выявили эту проблему во время тестирования приложения и внедрили фильтр, чтобы предотвратить включение в предложения дат, которых нет в тексте статьи. Мы также заметили, что исходная модель генерировала предложения для страниц значений, в связи с чем был внедрён клиентский фильтр для их исключения. Мы планируем сохранить это изменение. Другие аспекты, такие как заглавная буква в начале предложения, также можно легко исправить, поскольку у нас есть чёткие правила для этого.

Для языков, где эффективность модели не достигает уровня, необходимого для внедрения, наиболее эффективным шагом является добавление большего количества кратких описаний статей на этом языке. Это предоставит дополнительные данные для переобучения модели. На данный момент нет конкретной даты или графика переобучения модели. Однако мы готовы координировать действия с командой исследований и машинного обучения, чтобы расставить приоритеты в этом процессе на основе запросов сообщества.

July 2023: Early Insights from 32 Days of Data Analysis: Grading Scores and Editing Patterns

We can not complete our data analysis until all entries have been graded so that we have an accurate grading score. However we do have early insights we can share. These insights are based on 32 days of data:

  • 3968 Articles with Machine Edits were exposed to 375 editors.
    • Note: Exposed does not mean selected.
  • 2125 Machine edits were published by 256 editors
  • Editors with 50+ edits completed three times the amount of edits per unique compared to editors with less than 50 edits

May 2023: Experiment Deactivated & Volunteers Evaluate Article Short Descriptions

The experiment has officially been deactivated and we are now in a period of edits being graded.

Volunteers across several language Wikis have begun to evaluate both human generated and machine assisted article short descriptions.

We express our sincere gratitude and appreciation to all the volunteers, and have added a dedicated section to honor their efforts on the project page. Thank you for your support!

We are still welcoming support from the following language Wikipedias for grading: Arabic, English, French, German, Italian, Japanese, Russian, Spanish, and Turkish languages.

If you are interested in joining us for this incredible project, please reach out to Amal Ramadan. We look forward to collaborating with passionate individuals like you!

April 2023: FAQ Page and Model Card

We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.

This is the onboarding process:

January 2023: Updated Designs

After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.

If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.

This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.

November 2022: API Development

The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.

August 2022: Initial Design Concepts and Guardrails for Bias

User story for Discovery

When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?

User story for education

When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.

User story for adding descriptions

When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.

Guardrails for bias and harm

The team generated possible guardrails for bias and harm:

  • Harm: problematic text recommendations
    • Guardrail: blocklist of words never to use
    • Guardrail: check for stereotypes – e.g., gendered language + occupations
  • Harm: poor quality of recommendations
    • Guardrail: minimum amount of information in article
    • Guardrail: verify performance by knowledge gap
  • Harm: recommendations only for some types of articles
    • Guardrail: monitor edit distribution by topic