ウィキメディア横断構造化データ
Structured Data Across Wikimedia
A project to structure content on wikitext pages in a way that will be machine-recognizable and -relatable, to make reading, editing, and searching easier and more accessible across projects and on the Internet.
|
SDAW[1] (ウィキメディア横断構造化データ) は、ウィキテキストのページのコンテンツを、機械に認識可能かつ可読な方法で構造化し、ウィキメディア横断およびインターネット上で、閲読、編集、検索をやりやすくする役に立つプロジェクトです。
利用者にとってはウィキメディアのプロジェクト間でコンテンツのつながりを把握する手段であり、閲読者はウィキメディアの知識のエコシステムに踏みこむ深さが増え、寄稿者にはまるでウィキデータ式の汎用性を得たように情報を複数のプロジェクトに広めることができます。当プロジェクトはまた試行の場であり、コンピュータ援用の編集ツールを使って世界のどこにいる編集者の誰もが、より簡便に、また支障なく編集活動ができることを目指します。
The project ran from February 1, 2021 to June 30, 2023.
背景
このプロジェクトは、以前の SDC [2] の助成金の一部として、コモンズ上で完了した同様の開発のフォローアップであり、Sloan Foundation からの3年間の助成金が一部提供されました。 SDC に取り組む中で、すべてのコンテンツに対してより高度なメタデータと、よりよい検索結果を提供するための API が必要であることを認識しました。
このプロジェクトは、3 つの高い目標を掲げています:
- ウィキメディアのコンテンツを機械に認識させ、ウィキメディアの他のコンテンツとの連携をお奨めしてもらう。 この取り組みはまず最初に、画像のお奨めプロジェクトという形で道を探っています。
- 記事やページの構造化の方法を設計し、コンテンツに新しいフォーマットを導入する – 例えばコンテンツをもっと軽くて簡単に把握できる要素に分解し、読者が楽に使ったり共有できるようにするなど。
- ウィキメディアの利用者向けにコンテンツ検索とヒットをもっと親しみやすく効率の良い方法を提供するため、MediaSearchを基盤として構築し、また構造化データを使ってより良い検索をウィキペディアのどの言語版にも提供します。
何が変わるか
当プロジェクトの目的は柔軟な新システムを設計して試作版を作ることで、近い将来、メタデータをサポートする需要ができたとき、必要なものをすべて受け入れるように目指します。
この作業にあたり、開発の主眼となる以下のプロジェクト3件を識別しました。
- 画像の提案 の対象は経験を積んだ編集者で、ウィキペディアの記事を図解する役に立つ機能です。
- セクションのメタデータ は別称セクションのトピック といい、ウィキペディアの記事のあるセクションが何に関するものなのかを説明する機能です。
- 検索の改善 では構造化したコンテンツを利用して、ウィキペディアでコンテンツを探そうとする利用者に向けて、親しみやすく効率の良い方法の提供を目指します。
画像の提案
画像のお奨めUIの趣旨とは、ウィキメディアの全プロジェクトを横断する構造化データのシステム開発にあります。
この作業の下敷きには、既に始動した 構造化タスクの「画像を追加」プロジェクトの一部を使います。 しかしながら、焦点を当てる範囲は経験を積んだ寄稿者向きのプロセス改善へと移行すると予測されます。 特に、特定の記事もしくは記事群を編集したりウォッチリストに入れている編集者を対象とします。それらの人々はそのトピックに精通していたり、当該の記事の改善に関心がある可能性が高いからです。
セクションのトピック
セクションのトピックプロジェクトは、記事内のセクションを識別し、それらのセクションに対応するトピックを生成するため、以下に挙げるいくつかの要素を援用します:
- 当該のセクションにある青リンクに基づいてウィキデータ項目を検知するアルゴリズム(共同開発は構造化データ班、研究開発班、データプラットフォーム班と連携の予定)
- 特定の記事内で、どこが節か自動で判別する能力(共同開発に構造化データ班、データプラットフォーム班が参加予定。)
セクションのトピックに関して最初に想定した使用事例のひとつは、セクションレベルの画像のお勧めです。これは上述の青リンクのアルゴリズムおよびセクション識別機構を使用し、新規参加者の体験プログラムおよび経験を積んだ投稿者への通知を介して提供していく予定です。 この基盤として画像のお奨め機能に施した作業があり、共同作業は構造化データ、データプラットフォーム、調査研究、アンドロイド、Growth の各担当チームと連携して進めます。
これらの要素も、利用者の現状の編集体験を変えないし、影響も及ぼさない見込みです。 これらの活動は全て自動処理であり、編集者の手助けを必要としません。 現状では、当プロジェクトは開発段階にあり、まだ今後、よく検討するべき要素に加えて/あるいはフィードバックを利用者の皆さんにお願いすることになります。
検索の改善
検索の改善プロジェクトは利用者がもっと親しみやすく効率の良い検索方法でウィキペディアのコンテンツを探せるように、構造化コンテンツを用います。 特別:検索の改善とは、利用者が探している情報をきちんと得るように、あるいはそれまで見落としていたり、もしかして従来の検索で見過ごされた情報を拾えるように目指していきます。
構造化したコンテンツを利用して「特化した検索」の改善点は何でそれを段階的にどう定義するか、利用者が見つけたいコンテンツの検索をどう補佐するか、特に記事総数が少なめの言語版ウィキについて取り組む所存です。
私たちが 避けたい こととは?
- 利用者をプロセスの外に置き去りにしてしまう
- あまりにも多くの調整すべき新しいコンテンツで、利用者を圧倒してしまう
- ウィキメディアへの何らかのバイアス(先入観)を増やす
- 荒らしを助ける媒介を増やしてしまう
- 各種システムにいたずらに複雑さを取り込む
更新情報
- Search Preview deployed on Catalan, Dutch, Hungarian, Norwegian and Ukrainian Wikipedia.
- Section-level Image Suggestions deployed on Portuguese, Russian, Indonesian, Catalan, Finnish, Hungarian and Norwegian Wikipedia.
- The final report of DPLA[3] project funded by SDAW[1] to drive the reuse of described and attributed images was published.
- Survey about Image Suggestions notifications run on Portuguese, Russian and Indonesian Wikipedia.
- New feature Search Preview deployed on Portuguese, Russian and Indonesian Wikipedia.
- Started work on Section-level Image Suggestions, based on work done for Section Topics.
- 画像のおすすめテスト段階はウィキペディアの次の言語版で始まりました。カタロニア語版、フィンランド語版、ハンガリー語版、ノルウェー語版。(Image Suggestions)
- 初回の画像のお奨めテストはウィキペディアのポルトガル語版、ロシア語版、インドネシア語版で実施し、成功のうちに終了しました。
- プロジェクト:ページを更新して、イニシアチブの現状を反映させた。
- ウィキメディア横断構造化データについて、2年次の報告書を発行しました。
- DPLA[3] には SDAW[1] 助成金がつき、画像のうち説明文がついて継承を明示したものの再利用を促進します。 You can read more about it at DPLA's 2022 SDAW project announcement.
- 検索の改善に関して、広く聞き取り調査を始めました(Search improvements)。
- イニシアチブの刷新、また開発の主軸となるプロジェクト3件の決定に照らし、関連のページ類を更新しました。
- テスト対象コミュニティとして、インドネシア語版ウィキペディアが参加しました。
- 画像の提案に関した最初の試験コミュニティとなるポルトガル語版、ロシア語版のウィキペディアのコミュニティとコンタクトを確立。(Image Suggestions)
- プロジェクトは初めて試験ステージに進み、ウィキペディアの利用者に使えるかもしれない画像群をお知らせする実験として、通知機能の応用に取り組んでいます。
2021年5月 - 8月
- 画像提案プロジェクトに関してフィードバック募集中(Image Suggestions)、個別の聞き取りとコメント募集月間 month-long RfC 実施のウィキペディア + コモンズ 4 件
- これらの発想にフィードバックを募集。
- この発想を伸ばすため、ワイヤフレーム素案と試作版作りに取り組む。
- この作業に適したインフラを技術意思決定フォーラム(Technical Decision Making Forum)の場で検討。タスク T274181 を参照してください。
2020年後半
- MediaSearchをコモンズで構築。
- MediaSearch A/B テスト - 2020年9月10日より同17日に実施
フィードバック
プロジェクト:フィードバックは現在も今後もいつでも喜んでお受けします。 特に関心があるのは、トピックのメタデータ生成のプロセスにおいて「一連のループの中に人間」を維持すべきべきかどうかという点に関する皆さんの考えです。 以下の各質問に関して、皆さんから忌憚のないご意見を募集中です。
- プロジェクトに期待されることとは
- このプロジェクトに利用者が寄せる期待とは? こういう行動を実行しますよと表明するとして、欠かせないのは?
- これらメタデータの使い道として、どんな想定をしていますか? 皆さん自身のワークフローに照らして、具体的にどう役立つと予測しますか?
- メタデータの調整
- 荒しおよび/または偏向を予防するには、調整が必要でしょうか?
- 調整が必要な場合、効果的に管理する方法とは?
- メタデータの追加と検証
- 自動化されたシステムがメタデータをお奨めすると、利用者は承認か取り下げか 選びたいと考えているでしょうか?
- 自動化されたシステムが提供するものに上乗せして、利用者はその他のメタデータの追加を希望しているでしょうか?
- 必要に応じてですが、機械生成のメタデータをどう改善するか、フィードバックのチャンスを利用者に与えたら、それで対策は十分だと考えていませんか?
- 視覚化が編集にもたらす恩恵
- メタデータは誰にでも可視化する のか、それとも特定のクラスに分類される人々に限定しますか?
- メタデータの編集が可能 なのは全ての利用者が対象か、それとも特定のクラスに分類される一部の人々だけでしょうか?
さらにまた、関連のプロジェクトに関して特定の課題を述べたフィードバックは、通常はプロジェクトのトークページに投稿をお奨めしています。
資金計画
この作業には資金の一部を アルフレッド・P・スローン財団より目的特定型の補充助成金として受けており、助成対象事業「SDC」[2]の第1段階の満了後にさらに作業を充実させました。