Jump to content

Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates/tr

From mediawiki.org
This page is a translated version of the page Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates and the translation is 34% complete.
Outdated translations are marked like this.

Updates

Further changes

  • We've used the same underlying machine-learning model for all of these experiments (so no re-training etc. of the actual model). What we've been adjusting throughout is how the user interacts with it.
  • Our initial offline evaluation was of this model (Jan-April '23) lead us to put in place a few modifications to how users interacted with the model for the May-June 2023 piloting -- notably which outputs they could see (only higher confidence ones) and adjusting who could see the recommendations based on whether the article was a biography of a living person or not.
  • The feedback from that pilot lead to us putting in place one final adjustment having to do with when a recommended article description included a year in it (only show it if there's support for that year in the article text because this was one source of hallucinations by the model). That's now part of the officially deployed model on LiftWing (the link I shared above) that Android users would see.
  • At this point we aren't planning on any model updates beyond trying to reduce the latency of the model so Android users can see the recommendations more quickly. If we got feedback about errors that we thought we could address though, we'd try to make those fixes

August 2024

  • We are beginning to reach out to some Wikis to implement the feature, based on the results from the experiment that was updated and published last January.

July 2024: API available through LiftWing

We appreciate everyone's patience as we've worked with the Machine Learning team to migrate the model to LiftWing. In August we will clean up the client side code to remove test conditions and add in improvements mentioned in the January 2024 update. In the following months we will reach out to different language communities to make the feature available to them in the app.

If you are a developer and would like to build a gadget using the API, you can read the documentation here.

Ocak 2024: Deneyin Sonuçları

Puanlamaya dahil diller:
  • Arapça
  • Çekçe
  • Almanca
  • İngilizce
  • İspanyolca
  • Fransızca
  • Guceratça
  • Hindice
  • İtalyanca
  • Japonca
  • Rusça
  • Türkçe

Personel tarafından izlenen, topluluk puanlamacıları olmayan ek diller:

  • Fince
  • Kazakça
  • Korece
  • Birmanca
  • Felemenkçe
  • Rumence
  • Vietnamca
Kabul edilen Makine Düzenlemeleri ve İnsan Eliyle Oluşturulan Düzenlemelerin Ortalamaları ve Medyan Puanları arasında bir fark var mıydı:
Puanlanan Düzenlemeler Ortalama Puan Medyan Puan
Makine Düzenlemesi 4.1 5
İnsan Düzenlemesi 4.2 5
  • Not: En yüksek puan 5 idi.
Model diller arasında nasıl bir performans gösterdi?

Ortalama Düzenleme Puanı |İnsan Eliyle oluşturulmuş

Edits Avg. Grade |Makine Ortalaması

Daha mı yüksek puan? |Özelliğin etkinleştirilmesine dair öneri |- |ar* |2.8 |2.1 |DOĞRU |Hayır |- |cs |4.5 | |Geçerli değil |Evet |- |de |3.9 |4.1 |YANLIŞ |50+ Düzenleme gerekli |- |en |4.0 |4.5 |YANLIŞ |50+ Düzenleme gerekli |- |es |4.5 |4.1 |DOĞRU |Evet |- |fr |4.0 |4.1 |YANLIŞ |50+ Düzenleme gerekli |- |gu* |1.0 | |Geçerli değil |Hayır |- |hi |3.8 | |Geçerli değil |50+ Düzenleme gerekli |- |it |4.2 |4.4 |YANLIŞ |50+ Düzenleme gerekli |- |ja |4.0 |4.5 |YANLIŞ |50+ Düzenleme gerekli |- |ru |4.7 |4.3 |DOĞRU |Yes |- |tr |3.8 |3.4 |DOĞRU |Evet |- |Diğer dil toplulukları |Geçerli değil |Geçerli değil |Geçerli değil |Talep üzerine uygulanabilir |}

  • Not: Önce toplulukların katılımını sağlamadan bu özelliği etkinleştirmeyeceğiz.

*, skor üzerinde etkisi olduğuna inandığımız çok fazla puanlama önerisinin bulunmadığı dil topluluklarını gösterir.

Makine Önerileri ne sıklıkla Kabul edildi, Değiştirildi ya da Reddedildi?
Düzenleme türü % of Toplam Makine Düzenlemesi
Makine önerisi kabul edildi 23.49%
Makine önerisi değiştirildi 14.49%
Makine önerisi reddedildi 62.02%
  • Not: Reddetme, makine önerisinin mevcut olmasına rağmen seçilmediği anlamına gelir. Makine önerileri “Makine Önerileri” yazan bir nesnenin ardındaydı. Makine önerilerini hiç görüntülemeyen kullanıcılar “Reddedildi” kümesinde sayılırdı. "Reddedildi", kullanıcının bunun yerine kendi madde kısa açıklamasını yazmayı tercih ettiğini bildirmeyi amaçlamaktadır.

===== 3 veya daha yüksek puanlı Makine Eliyle Yapılıp Kabul Edilmiş Kısa Madde Açıklamalarının dağılımı nasıldı? ====={| class="wikitable" |Puan |Yüzde dağılımı |- |< 3 |10.0% |- |>= 3 |90.0%

Makine Eliyle Yapılıp Kabul Edilmiş Madde Kısa Açıklamaları puanlaması editör deneyimi dikkate alındığında nasıl değişti?"‘’
Editör Deneyimi Ortalama Düzenleme Puanı Medyan Düzenleme Puanı
50 Düzenlemenin altında 3.6 4
50 Düzenlemenin üstünde 4.4 5
Deneyimiz, hangisinin daha doğru ve performanslı olduğunu görmek için iki demeti test etti. Önyargıdan kaçınmak için, önerinin kullanıcıya eşleştirilmesi her seferinde yer değiştirdi. Sonuçlar şöyledir:
Seçilen Demet Ortalam Düzenleme Puanı % Dağılım
1 4.2 64.7%
2 4.0 35.3%
  • Not: Özelliği yeniden yayınlarken sadece 1 demet gösteririz.
İnsanlar yayınlamadan önce makine önerisinde ne sıklıkla düzenleme (değişiklik) yapıyor?
Düzenleme Türü Değişiklik Dağılımı
Makine Önerisinin Değiştirilmeden Kabülü 61.85%
Makine Önerisinin Değiştirilerek Kabülü 38.15%
Kullanıcıların makine önerisini değiştirmesi doğruluğu nasıl etkiler?
Puanlanan Makine Önerileri Ortalama Puan
Değiştirilmeyen 4.2
Değiştirilen 4.1
  • Not: Bir kullanıcının öneriyi değiştirip değiştirmemesinin doğruluk üzerinde bir etkisi olmadığından, kullanıcıların öneride bir değişiklik yapmasını zorunlu tutmaya gerek görmüyoruz, ancak yine de makine önerisinde düzenlemeleri teşvik eden bir kullanıcı arayüzünü sürdürmeliyiz
Puanlamacılar, Makine Tarafından Önerilen veya İnsan Eliyle Oluşturulan olmasına bağlı olarak bir düzenlemeyi ne sıklıkla geri alacaklarını veya yeniden yazacaklarını söylediler?
Puanlanan Düzenlemeler: geri alınacak olan düzenleme % yeniden yazılacak düzenleme %
Editör tarafından kabul edilmiş öneri 2.3% 25.0%
Editör öneriyi gördü fakat onun yerine kendi açıklamasını yazdı 5.7% 38.4%
Bir öneriye maruz kalmayan insan düzenlemesi. 15.0% 25.8%

Not: Düzenleme geri almayı, bir devriyenin ufak değişiklikler yaparak geliştirmeye çalışmasına değmeyecek akadar yanlış olan düzenleme olarak tanımladık. Yeniden yazma, bir devriyienin, kullanıcı tarafından yayınlamış olanı sadece değişikliklik yaparak geliştirmesi olarak tanımlandı. Deney boyunca proejlerin tamamında sadece 20 makine düzenlemesi geri alındı ve bu istatistiksel olarak o kadar önemsiz ki gerçek geri almalarla kıyaslama yapamadık; onun yerine puanlama yapanların tavsiyelerine dayalı gittik. Sadece iki dil topluluğunun kısa açıklamaları Vikipedi'de canlı olarak mevcut ki bu da tüm dil topluluklarında devriyeliğin yoğunluğunun Vikiverideki bulundurulan açıklamalar sayesinde daha az olduğunu gösterir.

Özelliğin raporlama işlevi yoluyla hangi bilgileri elde ettik?

Tekil kullanıcıların %0,5'i bu özellik ile ilgili bildirimde bulundu. Aşağıda aldığımız geri bildirim türlerinin dağılımı yer almaktadır:

Geribildirim/Yanıt Geribilirim dağılımı %
Bilgi yeterli değil 43%
Uygun olmayan öneri 21%
Yanlış tarihler 14%
Açıklama görülmüyor 7%
"Gereksiz vurgu" 7%
Hatalı yazım 7%
Özelliğin okuyucuyu muhafazada bir etkisi var mı?
Muhafaza sresi Grup 0

(Müdahale yok)

Grup 1 ve 2
Ortalama 1 günlük geri dönüş oranı: 35.4% 34.9%
Ortalama 3 günlük geri dönüş oranı: 29.5% 30.3%
Ortalama 7 günlük geri dönüş oranı: 22.6% 24.1%
Ortalama 14 günlük geri dönüş oranı: 14.7% 15.8%
  • Not: Makine Destekli Kısa Madde Açıklamalarına maruz kalan kullanıcılar, maruz kalmamış kullanıcılara kıyasla biraz daha yüksek bir geri dönüş oranına sahiptiler.
Sonraki Adımlar:

Deney, sürdürülebilir bir çözüm olmayan Bulut Hizmetleri üzerinde gerçekleştirilmiştir. Arzu eden toplulukların kullanımına bu özeliği sunmak için yeterli olumlu gösterge var. Uygulamalar Ekibi, modeli Liftwing'e taşımak için Makine Öğrenimi ile ortaklaşa çalışacak, model taşındıktan ve performans açısından yeterince test edildikten sonra, özelliği nerede etkinleştireceğimizi ve modelde hangi ek iyileştirmelerin yapılabileceğini belirlemek için dil topluluklarımızla yeniden iletişime geçeceğiz. Şu anda akılda olan değişiklikler şunlardır:

  • Yaşayan Kişilerin Biyografilerini (BLP) kısıtlayın: Deney sırasında, 50'den fazla düzenlemesi olan kullanıcıların Makine Yardımı yoluya Yaşayan Kişilerin Biyografilerine açıklama eklemelerine izin verdik. Bu maddelerde devamlı olarak madde kısa açıklamaları önerilmesi konusunda endişeler olduğunun farkındayız. Yaşayan Kişilerin Biyografileri ile ilgili sorunlara dair kanıt görmemiş olsak da, BLP'lerde öneri göstermemekten memnuniyet duyuyoruz.
  • Sadece Demet 1'i kullanın: Demet 1, öneriler bakımından sürekli Demet 2'den daha iyi performans gösterdi. Sonuç olarak, yalnızca bir öneri göstereceğiz ve bu da Demet 1'den olacak.
  • Rehberlik ve Yönlendirmeyi Değiştirin: Deney sırasında makine önerileri özeliği hakkında bir alıştırma ekranımız vardı. Özelliği yeniden yayınlarken makine önerileriyle ilgili rehberi yine ekleyeceğiz. Kullanıcılara etkili kısa madde açıklamaları yazma konusunda ne gibi rehberlik sağlamamızı istedikleri konusunda topluluktan geri bildirim almak yararlı olacaktır, böylece ilk katılımı iyileştirebiliriz.

Başka bariz hatalar varsa, lütfen proje tartışma sayfamıza bir mesaj bırakın, böylece sorunu ele alabiliriz. Bariz bir hataya örnek olarak yanlış tarihlerin gösterilmesi verilebilir. Uygulamayı test ederken bu hatayı fark ettik ve madde metninde bahsi geçmeyen tarihleri içeren öneri açıklamalarını engelleyen bir filtre ekledik. Ayrıca, anlam ayrımı sayfalarının orijinal model tarafından önerildiğini fark ettik ve anlam ayrımı sayfalarını istemci tarafında filtreledik, bu da sürdürmeyi planladığımız bir değişiklik. İlk harfin büyük yazılması gibi diğer şeyler de yapabileceğimiz genel bir düzeltme olacaktır çünkü bunu uygulamak için kullanabileceğimiz açık bir sezgisel durum vardır.

Modelin uygulamaya konacak kadar iyi performans göstermediği diller için en yararlı şey, o dilde daha fazla kısa madde açıklaması eklemektir, böylece modelin yeniden eğitilmesi için daha fazla veri olacaktır. Bu noktada modelin yeniden eğitileceği belirli bir tarih veya sıklık yoktur, ancak topluluklar talep ettikçe buna öncelik verilmesi için Araştırma ve Makine Öğrenimi ekibiyle birlikte çalışabiliriz.

July 2023: Early Insights from 32 Days of Data Analysis: Grading Scores and Editing Patterns

We can not complete our data analysis until all entries have been graded so that we have an accurate grading score. However we do have early insights we can share. These insights are based on 32 days of data:

  • 3968 Articles with Machine Edits were exposed to 375 editors.
    • Note: Exposed does not mean selected.
  • 2125 Machine edits were published by 256 editors
  • Editors with 50+ edits completed three times the amount of edits per unique compared to editors with less than 50 edits

May 2023: Experiment Deactivated & Volunteers Evaluate Article Short Descriptions

The experiment has officially been deactivated and we are now in a period of edits being graded.

Volunteers across several language Wikis have begun to evaluate both human generated and machine assisted article short descriptions.

We express our sincere gratitude and appreciation to all the volunteers, and have added a dedicated section to honor their efforts on the project page. Thank you for your support!

We are still welcoming support from the following language Wikipedias for grading: Arabic, English, French, German, Italian, Japanese, Russian, Spanish, and Turkish languages.

If you are interested in joining us for this incredible project, please reach out to Amal Ramadan. We look forward to collaborating with passionate individuals like you!

April 2023: FAQ Page and Model Card

We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.

This is the onboarding process:

January 2023: Updated Designs

After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.

If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.

This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.

November 2022: API Development

The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.

August 2022: Initial Design Concepts and Guardrails for Bias

User story for Discovery

When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?

User story for education

When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.

User story for adding descriptions

When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.

Guardrails for bias and harm

The team generated possible guardrails for bias and harm:

  • Harm: problematic text recommendations
    • Guardrail: blocklist of words never to use
    • Guardrail: check for stereotypes – e.g., gendered language + occupations
  • Harm: poor quality of recommendations
    • Guardrail: minimum amount of information in article
    • Guardrail: verify performance by knowledge gap
  • Harm: recommendations only for some types of articles
    • Guardrail: monitor edit distribution by topic