Help:MediaSearch
Special:MediaSearch ist ein neues Back-End und Front-End fĂŒr die Suche nach Dateien auf Commons, wobei Bilder in einer regalĂ€hnlichen Ansicht erscheinen, die von Bildsuchmaschinen im Internet genutzt wird. RĂŒckmeldungen zu MediaSearch können auf der Diskussionsseite auf Commons hinterlassen werden.
Tue folgendes, um die Wahrscheinlichkeit zu erhöhen, dass Dateien ĂŒber Special:MediaSearch gefunden werden:
- FĂŒge einen relevanten und beschreibenden Titel hinzu
- FĂŒge in so vielen Sprachen wie möglich Beschreibungen hinzu, mit denen du beschreibst, was die Datei darstellt
- FĂŒge eine detaillierte Beschreibung hinzu, die erklĂ€rt, was die Datei darstellt und relevante ZusammenhĂ€nge aufzeigt
- FĂŒge die Datei zu relevanten Kategorien hinzu
- FĂŒge alle Aussagen zu Motiven hinzu, die deine Datei darstellt
Unten findet sich ein Ăberblick der Arten von Daten, die genutzt werden und wie sie dazu beitragen, Dateien zu finden. Es gibt zwei Hauptarten von Daten, die genutzt werden, um Dateien zu finden:
- VollstÀndiger Text
- Aussagen und strukturierte Daten
Volltextsuche
Wie
Dies ist eine traditionelle text-basierte Suche: Wenn der Text das Wort enthÀlt, nach dem gesucht wird, ist die Datei ein Treffer.
Der Rang wird auf zwei Arten beeinflusst:
- HĂ€ufigkeit der Begriffe
- Position der Begriffe
- HĂ€ufigkeit der Begriffe
Der Suchalgorithmus wird versuchen, anhand der HĂ€ufigkeit der Suchbegriffe festzustellen, wie relevant ein Ergebnis ist.
Je hÀufiger der Suchbegriff in einem Dokument auftaucht, desto relevanter scheint er zu sein (Beispiel: Wenn ein Dokument hÀufiger "Mona Lisa" erwÀhnt, als ein anderes, ist es wahrscheinlich relevanter).
Je hÀufiger der Suchbegriff in allen Dokumenten auftaucht, desto weniger relevant wird der Begriff sein (Beispiel: HÀufige Wörter wie "tut" werden zu der Platzierung nicht viel beitragen, da diese Wörter in sehr vielen Dokumenten vorkommen).
FĂŒr den Suchbegriff "Mona Lisa" im Wikitext der englischsprachigen Wikipedia hilft uns dies dabei, zu erkennen, dass der Artikel "Mona Lisa" (184 ErwĂ€hnungen des Begriffs) wahrscheinlich ein besseres Ergebnis ist, als der Artikel "Louvre museum" (7 ErwĂ€hnungen).
Auf Commons ergibt sich jedoch das Problem, dass diese HĂ€ufigkeit hĂ€ufig nur von geringer Bedeutung ist, wenn es um den Vergleich der Relevanz geht: Es handelt sich nicht um lange Artikel, sondern kurze Beschreibungen. Begriffe kommen meist nicht hĂ€ufiger als ein oder zwei Mal vor und es gibt nur wenig anderen Inhalt, mit dem verglichen werden kann. Daher berĂŒcksichtigen wir bei dem Ranking auch die Position der Begriffe.
- Position der Begriffe
Es gibt mehrere Wege, um Informationen zu einer Datei einzugeben. Alle tragen zur Relevanzeinstufung bei, jedoch auf unterschiedliche Art und Weise.
Wikitext-Beschreibungen werden traditionell als das wichtigste Mittel betrachtet, um Dateiinformationen zu prÀsentieren, jedoch enthalten sie manchmal so viele Informationen, dass die bedeutsamen Begriffe in der Suchrelevanz kaum hervorstehen. Manchmal enthalten sie hingegen so wenig Information, dass die Suche kaum die Möglichkeit hat, mit ihr zu arbeiten, um die Relevanz zu bestimmen.
Beispielsweise sind Details wie der Autor, der Ort oder das Datum, an dem die Mediendatei erstellt wurde, zu welchem Museum sie gehört oder unter welcher Lizenz sie veröffentlicht wurde â obwohl sie wichtig sind â hĂ€ufig nicht die Begriffe, nach denen Personen suchen werden. DarĂŒber hinaus sind wesentliche Teile der Beschreibung hĂ€ufig "kontextbezogene" Informationen, die nicht direkt zum Hauptthema gehören.
Obwohl Beschreibungen hĂ€ufig viele Informationen enthalten, die sehr wichtig sein könne, um die Datei zu finden, kann es schwierig sein, einzig anhand der Begriffe in der Beschreibung herauszufinden, was die Datei darstellt. Beschreibungen können lang sein (und in mehreren Sprachen vorliegen, sowie Informationen enthalten, die fĂŒr den Suchbegriff irrelevant sind). Anders gesagt ist es schwierig, die Relevanz anhand der Beschreibungen festzustellen.
ZusĂ€tzliche Daten, die Dinge prĂ€gnanter beschreiben (wie Titel, Untertitel, Kategorien) fokussieren sich hĂ€ufig auf sehr spezifische Informationen, was dabei hilft, festzustellen, was bei einer Mediendatei wichtig ist â in anderen Worten erleichtern es diese Daten, die Relevanz zu bestimmen. Daher ist auch die Position der Begriffe wichtig.
Beispiel: Wenn du nach "Mona Lisa" suchst, wird eine Datei, die "Mona Lisa" in der Beschreibung enthÀlt, normalerweise in den Suchergebnissen weiter hinten auftauchen, als eine, die den Begriff als Teil des Titels und/oder Untertitels und/oder (eine der) Mona-Lisa-Kategorien enthÀlt.
Beachte jedoch, dass die mehrfache Angabe von Informationen in Wikitext in unterschiedlichen Feldern ebenfalls unbeabsichtigte Auswirkungen haben kann, da die hÀufigkeitsbasierten Relevanzwerte gesenkt werden - stelle daher sicher, dass du die Datei durch einen relevanten Titel, eine detaillierte Beschreibung, Untertitel (idealerweise in mehreren Sprachen) und die angemessenen Kategorien genau beschreibst, ohne die gleiche Information an unterschiedlichen Orten zu wiederholen.
EinschrÀnkungen
Der oben erwÀhnte Volltextsuchalgorithmus ist sehr gut, hat aber auch einige Probleme - insbesondere in unserem Kontext:
- Sprache
Bei einer traditionellen textbasierten Suche wollen Benutzer normalerweise keine Ergebnisse in anderen Sprachen sehen, als in der Sprache, in der sie suchen (es wird angenommen, dass der Benutzer andere Sprachen nicht verstehen wĂŒrde). Das ist auf Commons anders, da die Leute nicht wirklich nach Beschreibungen suchen â sie wollen die Datei.
Wenn ein Benutzer also nach Bildern von Autos, wĂŒrde eine ideale Suche auch Dateien finden und ausgeben, die Treffer in anderen Sprachen sind, wie cars in Englisch oder voiture in Französisch. Sofern jedoch die Beschreibungen und/oder Untertitel jedes Bildes nicht Ăbersetzungen fĂŒr jede Sprache besitzen, wird eine textbasierte Suche Ergebnisse in anderen Sprachen nicht finden.
Ein weiteres Problem hierbei ist, dass manche Wörter in unterschiedlichen Sprachen gleich aussehen, aber unterschiedliche Bedeutungen haben. Zum Beispiel "Gift" in Englisch und Deutsch oder "Chat" in Englisch und Französisch; diese Unterschiede in den Sprachen bewirken aufgrund der unterschiedlichen Bedeutungen sehr unterschiedliche Ergebnisse in der textbasierten Suche.
- Synonyme
Gleiches gilt, wenn du in einer textbasierten Suche nach Fledertieren suchst, da die Suche keine Ergebnisse unter ihrem wissenschaftlichen Namen Chiroptera finden wird. Dies gilt auch fĂŒr AbkĂŒrzungen, wie NYCbei der Suche nach New York City.
- Treffer fĂŒr Wörter, keine Konzepte
Damit vergleichbar kann eine Textbeschreibung mehr implizite Informationen enthalten, die nicht einfach durch das Scannen des Wikitextes gefunden werden können.
Eine Britische Kurzhaar ist auch eine Katze und ein Volvo V40 ist ein Auto, sofern ihre Beschreibungen jedoch nicht ausdrĂŒcklich Katze oder Auto erwĂ€hnen, werden sie in einer traditionellen textbasierten Suche fĂŒr diese Suchbegriffe nicht gefunden.
Aussagen und strukturierte Daten
Wikidata-Aussagen haben das Potenzial, viele der zuvor genannten Probleme textbasierter Suchen zu lösen: Sie sind mehrsprachig, haben Aliasse und sind mit allen Arten von verwandten Konzepten verlinkt.
Wie
Seitdem der Reiter "Strukturierte Daten" zu Dateiseiten hinzugefĂŒgt wurde, ist es möglich, Wikidata-EintrĂ€ge mit einer Datei zu verknĂŒpfen, darunter auch Aussagen darĂŒber, was die Datei "abbildet".
Wenn ein Suchbegriff angegeben wird (wie "Anakonda"), durchsuchen wir auch Wikidata nach relevanten EintrĂ€gen. Hier sind einige der besten Ergebnisse fĂŒr diesen Fall:
- Anaconda (Q483539): Stadt im US-Bundesstaat Montana
- Anakondas (Q188622): Gattung der Familie Boas (Boidae)
- Anaconda (Q17485058): Lied von Nicki Minaj
ZusĂ€tzlich zu Ăbereinstimmungen im Volltext wird die Suche auch Ergebnisse umfassen, die eine "Motiv"-Aussage fĂŒr (eine oder mehrere der) EintrĂ€ge enthalten. Sie wird auch Ergebnisse enthalten, die eine Aussage "digitales Abbild von" besitzen, die fĂŒr Kunstwerke genutzt wird.
Potenziell können dadurch wesentlich mehr Suchergebnisse ausgegeben werden, da die EintrĂ€ge auch Synonyme (ĂŒber Wikidata-Aliasse) und sprachliche Unterschiede (ĂŒber Bezeichnungen & Aliasse in mehreren Sprachen) abdecken: Eine Datei muss nur eine Motiv-Aussage besitzen und die Suche wird dazu in der Lage sein, diese Aussage und all ihre Aliasse und Ăbersetzungen zu finden.
Wenn spĂ€ter Ăbersetzungen oder Aliasse zu diesen EintrĂ€gen hinzugefĂŒgt werden, werden die Dateien, die mit ihnen markiert sind, automatisch davon profitieren, da sie auch ĂŒber diese Begriffe zu finden sein werden. Deshalb ist es wichtig, zu EintrĂ€gen, die fĂŒr Motiv-Aussagen auf Commons verwendet werden, auf Wikidata weitere Aliasse, Bezeichnungen und andere Informationen hinzuzufĂŒgen.
Hinweis: Nicht alle EintrÀge werden werden in den Suchergebnissen gleich behandelt. Wenn ein Benutzer nach "Iris" sucht, erwartet er wahrscheinlich, Medien zu finden, die die Pflanzengattung (Q156901) abbilden oder den Teil eines Auges (Q178748), aber wahrscheinlich nicht Iris Murdoch, die britische Autorin und Philosophin (Q217495).
Basierend auf der Ăhnlichkeit zum Suchbegriff und der Wichtigkeit/HĂ€ufigkeit des Eintrags wird die Mediensuche mehr Multimedia-Dateien mit einem bestimmten Eintrag anzeigen, als mit anderen.
EinschrÀnkungen
Wikidata-EintrÀge sind ein hervorragendes Signal, um dabei zu helfen, zusÀtzliche relevante Multimedia-Dateien zu finden:
- Es gibt weniger Störungen (z.B. enthalten Textbeschreibungen hÀufig falsch positive Ergebnisse wie "Iris" als Vornamen einer Fotografin, nicht als Thema der Datei).
- Sie enthalten viel mehr Informationen (Aliasse & Ăbersetzungen) als individuelle Dateibeschreibungen.
- Sie können an einem zentralen Ort (Wikidata) ergÀnzt werden.
Sie sind jedoch auch ein schlechter Indikator zur Einstufung der RĂ€nge:
- Bei einer Datei mit mehreren Motiv-Aussagen ist es schwierig, festzustellen, welche Aussagen die wichtigsten oder relevantesten sind.
- Wikidata hat viele EintrÀge, die unterschiedlich detailliert sind.
- Relative RĂ€nge
Bei einer Datei mit mehreren Motiv-Aussagen ist es schwierig, festzustellen, welche Aussagen die wichtigsten oder relevantesten sind.
Sind beide gleichwichtig oder ist eine von ihnen offensichtlich das Thema und und die andere ein weniger relevantes Hintergrunddetail? Wenn ja, welche? Ist eine Motiv-Aussage in einer Datei prominenter als die gleiche Motiv-Aussage in einer anderen Datei?
Sieh dir das Bild "Pale Blue Dot" an: Obwohl die Erde weniger als ein Pixel des Bildes ausmacht, ist sie ein signifikantes Thema des Bildes.
Aussagen haben grundsĂ€tzlich nur zwei ZustĂ€nde: Sie sind in der Datei vorhanden oder nicht. Es gibt keine weitere Information darĂŒber, wie relevant etwas in der Datei ist.
Die Funktion âAls prominent markierenâ fĂŒr Aussagen soll einige dieser Probleme lösen, wird derzeit jedoch nicht einheitlich genutzt. ZusĂ€tzlich kann die Nutzung von Qualifikatoren wie 'betroffener Teil des Subjekts' dabei helfen, die Zuordnung von RĂ€ngen zu verbessern., wobei diese auf Commons kaum genutzt werden, obwohl sie bereits auf Wikidata Anwendung finden. Beispielsweise haben die Motive im Wikidata-Datenobjekt fĂŒr Mona Lisa Qualifikatoren 'betroffener Teil des Subjekts', die Vordergrund und Hintergrund kennzeichnen. Diese können sich auch auf den Algorithmus fĂŒr die SuchrĂ€nge auswirken, wenn sie auf Commons genutzt werden.
WĂ€hrend Motiv-Aussagen sehr hilfreich sind, um zusĂ€tzliche relevante Ergebnisse hervorzuheben, ist es schwierig, sie fĂŒr die Zuweisung von RĂ€ngen zu verwenden: Textbeschreibungen vermitteln die relative Bedeutung von Themen hĂ€ufig besser, als es diese einfachen Aussagen können.
- Detailgrad
Wikidata hat viele EintrÀge, die unterschiedlich detailliert sind. WÀhrend wir daran arbeiten, "Unterkonzepte" in Suchergebnisse aufnehmen zu können, ist es wichtig, die Gewichtung von bestimmten EintrÀgen, insbesondere im Vergleich mit der Volltextsuche, vorsichtig vorzunehmen.
Beispielsweise können die Aussagen BrĂŒcke (Q12280), HĂ€ngebrĂŒcke (Q12570), Golden Gate Bridge (Q44440) oder SehenswĂŒrdigkeit (Q570116) genutzt werden, um ein Bild der Golden Gate Bridge zu beschreiben, jedoch beinhaltet die Aussage Golden Gate Bridge (Q44440) ĂŒber unterschiedliche verwandte EintrĂ€ge bereits alle anderen.
Es gibt jedoch auch Beispiele, bei denen dies nicht so einfach ist.
Deutscher SchÀferhund (Q38280) ist eine Unterklasse von Hund (Q144), die eine Unterklasse von Heimtier (Q39201) ist - theoretisch sollten wir alle Bilder mit der Markierung "Deutscher SchÀferhund" finden, wenn wir nach "Heimtier" suchen.
Einige Fotos mit der Markierung "Deutscher SchÀferhund" zeigen jedoch Gebrauchshunde (Q1806324) und keine Heimtiere.