Lesen/Web/PDF-Dateien
Update zum PDF rendern, 15. Juli 2019
Wir haben den neuen PDF-renderer veröffentlicht. Wir schauen uns eure Rückmeldungen an, bisher sind jedoch keine dramatischen Probleme geschildert worden. Wir werden noch einige der Anmerkungen berücksichtigen. Bitte beachtet jedoch, dass die Arbeit am PDF-Renderer kein dauerhaftes Projekt bleibt! Das heißt, wenn es veröffentlicht wird und funktioniert, dann bleibt es so und wird nur noch gewartet, aber nicht weiter entwickelt. Die Diskussionsseite dieser Seite hier wird weiter offen bleiben, es könnte jedoch etwas dauern, eh ihr eine Rückmeldung erhaltet. Ganz einfach deswegen, weil jeder sich jetzt an die anderen offenen Projekte setzen wird.
Zur Büchergenerierung: dort haben wir noch ein paar freiwillige Entwickler und Leute von PediaPress an Bord. Wir freuen uns dort auch über eure Fragen, wir planen derzeitig aber keine Veränderungen der technischen Implementierung.
Update zum PDF rendern, 4. Juni 2019
Wir haben in allen Projekten den neuen Renderer für PDFs aus einem einzelnen Artikel freigeschaltet. Wir hoffen, dass dies die Probleme mit dem Electron-Renderer beseitigen wird, der oftmals nicht die gewünschten Ergebnisse erzielte. Probiert den neuen Renderer aus und lasst uns eure Fragen, Fehlermeldungen und Ideen zukommen.
Update der PDF-Darstellung, 18. März 2019
Es dauert nicht mehr lange, bis der neue PDF-Renderer (Proton) veröffentlicht wird. Derzeit sind nur noch wenige Probleme aus dem Weg zu räumen (wie es in der Grafik in phab:T181084 zu sehen ist). Sobald ein Veröffentlichungsdatum fest steht, werden wir es bekannt geben. Dieser Renderer wird den electron-Renderer als Standard-PDF-Anwendung ersetzen (für PDFs mit einzelnen Seiten).
Update der Buchfunktion, 17. August 2018
Hier ist ein aktualisiertes und umfassenderes Beispiel für den neuen Buch-Renderer. Das Layout hat sich gegenüber der ersten Version, die bei Wikimania vorgestellt wurde, stark verändert. Vielen Dank für das Feedback. Der Export hat noch eine Reihe wichtiger Probleme: Seitenumbrüche, Infofelder, Tabellen und mathematische Formeln müssen erheblich verbessert werden. Diese Beispieldatei mit Schwerpunkt auf internationalen Schriften und mathematischen Formeln zeigt einige der Probleme, die noch gelöst werden müssen. Matheformeln werden derzeit mit MathML gerendert - die Umstellung auf LaTeX sollte zu deutlichen Verbesserungen führen.
Update der Buchfunktion, 8. August 2018
Wir haben mit PediaPress an der Erstellung und Gestaltung der neuen Bücher gearbeitet. Sie haben uns ein Muster der aktuellen Ausgabe zur Verfügung gestellt, das der endgültigen Version sehr ähnlich sein wird. Wir haben mit dem PediaPress-Team Verbesserungspunkte besprochen, das es derzeit in Angriff nimmt. Wenn Sie Rückmeldungen oder andere Kommentare zu diesen Beispielen haben, lassen Sie es uns bitte auf der Diskussionsseite wissen.
Update April 2018
Die Buchfunktionalität wird über PediaPress zurückkehren. Nachdem wir den neuen Renderer eingehend untersucht hatten, stellten wir fest, dass die Kernfunktionen der ursprünglichen Buchfunktion (wie Seitenzahlen und Inhaltsverzeichnis) mit dem neuen Renderer nur sehr schwer zu implementieren sind. Außerdem hatten wir erhebliche Probleme mit unserem Verknüpfungscode. Daher mussten wir nach Alternativen suchen, um die PDF-Buchfunktionalität bei Wikimedia-Projekten wiederherzustellen. Wir wandten uns an PediaPress, die die ursprünglichen Förderer von Büchern auf Wikipedia waren, um zu sehen, ob sie daran interessiert wären, die PDF-Wiedergabe für Bücher wieder aufzunehmen. Sie haben zugestimmt und wir arbeiten gerade an den Details und dem Zeitplan. Sie werden zunächst an einer temporären Lösung arbeiten, die auf einer älteren Technologie basiert, die bisher zur Erstellung von PDF-Dateien verwendet wurde. Dies kann einige Nachteile haben, wenn es um grafische Elemente wie z.B. Karten geht, bedeutet aber eine schnellere Lösung. Anschließend planen sie die Arbeit an einem neuen HTML-zu-PDF-Renderer, basierend auf dem Feedback der ersten Implementierung.
Update im Januar 2018
Wir bereiten derzeit Leistungstests der PDF-to-Book-Funktion vor. Wir sollten Anfang Februar mehr wissen.
Update im September 2017
Unser aktueller PDF-Renderer (Service zur Erzeugung von PDF-Dateien), der Offline Content Generator (OCG), kann nicht mehr gewartet werden. Er gibt, verkürzt gesagt, den Geist auf. Das Reading Team bei der Wikimedia Foundation arbeitet seit Monaten daran, den Service zu ersetzen. OCG wurde auf veraltetem Code ausgeführt, der in der Zukunft Sicherheitslücken und andere gravierende Probleme verursachen kann. In den letzten drei Monaten wurde auf der Spezialseite "Als PDF herunterladen" um Rückmeldung zum Prototyp eines neuen PDF-Renderers gebeten. Der neue Renderer soll besser funktionieren als OCG – er wird in der Lage sein, Tabellen und Infoboxen zu drucken und das Design der PDFs wird zugunsten einer besseren Lesbarkeit optimiert. Wir haben viele gute Rückmeldungen zum Prototyp gesammelt und arbeiten daran, die erforderlichen Verbesserungen an der neuen PDF-Funktion zu machen.
Nachtrag: Kurzfristiges ABSCHALTEN der PDF-Bucherstellung
Leider machen es große Probleme mit unserem alten Renderer (OCG) erforderlich, dass wir ihn abschalten, bevor die notwendigen Verbesserungen für die Buchfunktion abgeschlossen sind. Damit findet die Abschaltung früher statt, als wir wollten. Zu dem Zeitpunkt, an dem wir OCG abschalten, werden die Arbeiten an Einzeldownloads (“Als PDF herunterladen”) abgeschlossen sein. Die Buchfunktion wird allerdings pausieren, während wir auswerten und die nötigen Arbeiten abschließen. Der ursprünglich von uns ausgewählte Ersatz-Renderer, der Electron Rendering Service, ist nicht in der Lage, größere PDFs zu unterstützen und scheitert, wenn man versucht, ein Buch mit mehreren Artikeln zu erzeugen. Wir werden daran arbeiten, ein neues Rendering-System für Bücher auszuwählen, das die Größe der Dateien verarbeiten und unsere Anforderungen unterstützen kann. Dies entspricht nicht unserer ursprünglichen Planung. Wir haben niemals angestrebt, die Bucherstellung vorübergehend zu entfernen.
Zeitplan:
- Bereitstellung des PDF-Renderers mit vollem Funktionsumfang für einzelne Artikel (als PDF drucken) - 1. Oktober 2017
- Pausieren der PDF - Bucherstellung - 1. Oktober 2017
- Abschalten des OCG-Renderers - 1. Oktober 2017
- Bereitstellung eines neuen PDF - Renderers mit vollem Funktionsumfang – Jan 2018 (vorläufig, abhängig von den Rechercheergebnissen zu alternativen Rendersystemen)
Funktionalität:
Für eine vollständige Liste der aktuellen und geplanten Funktionen, siehe unten.
Zusätzlich zu den Aktualisierungen auf dieser Seite wird dies in einem Banner auf PDF-Erstellungsseite kommuniziert, auf Tech News und auf einigen Wikimedia-Mailinglisten.
Einleitung
Unser aktueller Service zur Erzeugung von PDF-Dateien, der Offline Content Generator (OCG), kann nicht mehr gewartet werden. Verkürzt gesagt gibt er den Geist auf. Ursprünglich von einem Dritten erstellt, wurde OCG auf veraltetem Code ausgeführt, der in der Zukunft Sicherheitslücken und andere gravierende Probleme herbeiführen kann. Wenn wir eine PDF-Funktion haben wollen, müssen wir OCG leider ersetzen, sonst befinden wir uns möglicherweise plötzlich in einer Situation, in der wir den Service ungeplant abschalten müssen.
Darüber hinaus unterstützt OCG eine Reihe von Anforderungen aus der Community nicht; die wichtigste davon ist die Fähigkeit, Tabellen darzustellen. Als passenden Ersatz haben wir einen neuen Service ausgewählt, den Electron Rendering Service. Unser nächster Schritt ist es, die Funktionen von OCG im Electron Rendering Service zu duplizieren. Im Folgenden werden die wichtigsten Teile der Funktionalität beschrieben, die wir als notwendig identifiziert haben. Wir möchten zum Gespräch darüber einladen, was fehlt oder was in der Liste überflüssig ist. Wir möchten außerdem auf unsere zukünftigen Pläne für die PDF-Erzeugung hinweisen, um auch dazu Feedback zu erhalten.
Bekannte Probleme
- Es gibt derzeit einen Bug in Firefox (Upstream), der das Styling von Infoboxen betrifft, die über mehrere Seiten hinweg angezeigt werden. Der Fortschritt von Mozilla kann hier verfolgt werden: https://bugzilla.mozilla.org/show_bug.cgi?id=688556.
Nutzerbasis
Die folgende Tabelle zeigt den Datenverkehr (Traffic) zum Electron-Renderer, wenn die Funktion „Als PDF downloaden“ aufgerufen wird (über einen sechsstündigen Zeitraum). Der Datenverkehr wird nach Betriebssystem, Browser und der Browserversion aufgeschlüsselt (z. B. Windows 8, Chrome v61.*). Es ist klar erkennbar, dass der meiste Datenverkehr von Computern mit Windows kommt.
OS | Browser | Hauptversion des Browsers | % der Anfragen |
---|---|---|---|
Sonstige | Sonstige | - | 14.38 |
Windows 7 | Chrome | 61 | 12.42 |
Windows 10 | Chrome | 61 | 8.83 |
Windows 7 | IE | 11 | 7.33 |
Windows 7 | Firefox | 56 | 6.59 |
Windows 10 | Firefox | 56 | 3.82 |
Windows 10 | Edge | 15 | 3.24 |
Windows 8.1 | Chrome | 61 | 3.07 |
Windows XP | Chrome | 49 | 2.2 |
Windows 10 | Chrome | 59 | 1.53 |
Windows 10 | IE | 11 | 1.51 |
Windows 8.1 | Firefox | 56 | 1.31 |
Windows XP | Firefox | 52 | 1.22 |
Windows 8 | Chrome | 61 | 1.15 |
Windows 8.1 | IE | 11 | 1.15 |
Mac OS X | Safari | 11 | 0.9 |
Windows 7 | Firefox | 53 | 0.89 |
Windows 7 | Firefox | 52 | 0.78 |
Ubuntu | Firefox | 56 | 0.78 |
Windows XP | IE | 6 | 0.7 |
Windows 7 | Chrome | 55 | 0.68 |
Windows 7 | Firefox | 55 | 0.62 |
Mac OS X | Chrome | 61 | 0.62 |
Android | UC Browser | 11 | 0.6 |
Windows 10 | Edge | 14 | 0.59 |
Windows 7 | Opera | 48 | 0.53 |
Android | Chrome Mobile | 61 | 0.49 |
Windows 10 | Opera | 48 | 0.44 |
Windows 7 | Chrome | 60 | 0.4 |
Windows Vista | Chrome | 49 | 0.39 |
Windows 7 | Yandex Browser | 17 | 0.37 |
Windows 10 | Firefox | 55 | 0.37 |
Mac OS X | Safari | 10 | 0.36 |
Windows 10 | Chrome | 50 | 0.34 |
Android | Android | 4 | 0.33 |
Mac OS X | Firefox | 56 | 0.33 |
Windows 10 | Chrome | 60 | 0.32 |
Windows 8.1 | Chrome | 43 | 0.3 |
Android | Amazon Silk | 60 | 0.29 |
Windows 7 | Sogou Explorer | 1 | 0.27 |
Windows 8 | IE | 10 | 0.26 |
Windows 7 | IE | 8 | 0.26 |
Windows 7 | IE | 9 | 0.25 |
Windows 8 | Opera | 12 | 0.25 |
Linux | Firefox | 52 | 0.25 |
Mac OS X | Firefox | 53 | 0.24 |
Windows 7 | Firefox | 45 | 0.24 |
Windows 10 | Firefox | 57 | 0.24 |
Windows 7 | Firefox | 38 | 0.22 |
Windows 10 | Firefox | 47 | 0.21 |
Aktuelle Funktionalitätsanforderungen
Im Folgenden findet sich eine Liste der aktuellen Anforderungen für das PDF-Rendering für Einzelartikel-PDFs und für Bücher. Die von der aktuellen Implementierung abweichenden Anforderungen werden fett dargestellt.
Historie
- Die Erstellung von PDF-Artikeln und Büchern aus Wikipedia-Seiten erfolgt über einen Dienst namens OCG. Wenn "Bücher" mit den Buchgenerator erzeugt werden, greift dieser über die Mediawiki-Erweiterung Collection auf OCG zu. $1 OCG hat verschiedene Probleme, besonders mit der Darstellung von Tabellen.
When rendering "books" through the book creator, it uses OCG as embedded within the Collection extension. OCG has multiple issues, especially with tables.
- Verschiedene Probleme mit OCG wurden identifiziert, u.a. Beschwerden aus der Community rund um die fehlende Möglichkeit, mit OCG Tabellen darzustellen.
- Tabellen in PDFs darzustellen ist Rang Nummer 9 auf der deutschsprachigen Technischen Wunschliste.
- Wikimedia Deutschland beginnt damit, an einer zur Darstellung von Tabellen in PDFs zu arbeiten, und führt Electron PDF ein. Das Vorhaben ist, Electron PDF parallel zu OCG anzubieten, nicht OCG zu ersetzen.
- Während Wikimedia Deutschland am Electron Service arbeitet, kommen die verantwortlichen Maintainer von OCG bei der Wikimedia Foundation zu der Schlussfolgerung, dass OCG ersetzt werden muss.
- Das WMF Reading Team übernimmt die Verantwortung für die langfristige Wartung der PDF-Erstellung und beginnt mit der Planung, wie das Erzeugen von Tabellen in PDFs in alle Projekte implementiert werden kann.
- Das Reading Team beginnt eine Befragung der Benutzerinnen und Benutzer, um Rückmeldungen zu Electron zu erhalten.
- Die Teams Reading Infrastructure und Web beginnen eine genauere Betrachtung, was notwendig ist, um die Funktionen von OCG auf den Electron Service zu übertragen.
Update nach der Befragung von Benutzerinnen und Benutzern
Wir haben Anfang Juni 2017 um Rückmeldungen zur aktuellen Umsetzung des PDF-Renderers gebeten. Bei der Durchsicht der Rückmeldungen konnten wir folgende Beobachtungen machen:
- Eine größere Anzahl von Leuten bevorzugte das einspaltige Format gegenüber dem zweispaltigen.
- Jene, die das zweispaltige Format bevorzugen, hoben hervor, dass ihre Präferenz auf der Gestaltung und dem "Look-and-Feel" des Doppelspalten-Layouts basiert. Einige Benutzer äußerten auch Bedenken bzgl. Schriftgröße und Papierverschwendung beim Drucken von PDFs mit der einspaltigen Option.
- Die folgenden Funktionen wurden gewünscht:
- Funktionale Hyperlinks
- Datum und URL, "diese Datei wurde heruntergeladen am [Datum] von [URL]"
- Anpassbares CSS für Layout, Titel und Inhaltsverzeichnis
- Zweispaltiges Format als Option
- Bildversionen ein-/ausschließen
- Veränderbare Ränder
- Druck nach Abschnitten - erlaubt es, Einzelnachweise, ungewünschte Abschnitte, Index etc. zu entfernen
- Textgröße einstellbar machen
Auf Basis der Rückmeldungen haben wir Folgendes in unsere neuen Printstile integriert:
- Hyperlinks
- Artikelinformation
- kleinere Schriftgröße und buchähnliche Gestaltung
Der Rest der oben genannten Wünsche wird bis zur zweiten Iteration des PDF-Renderers verschoben. In dieser zweiten Iteration soll an einem Einstellungsmodus gearbeitet werden, der eine Anpassung anhand der verfügbaren Optionen ermöglicht.
Vorschlag
Im Folgenden werden Vorschläge für den Funktionsumfang der PDF-Erstellung gemacht:
- PDFs zu einzelnen Artikeln werden über den Link "Als PDF herunterladen" in der Seitenleiste erzeugt.
- PDFs mehrerer Artikel werden mit dem Buchgenerator-Werkzeug erstellt.
- Alle Artikel enthalten Quellenangaben für Text und Bilder
- Alle erzeugten PDFs sind in der Lage, Tabellen dazustellen.
- Nutzerinnen und Nutzer können das Layout ihres PDFs individuell anpassen (optional).
Unterschiede zwischen der aktuellen und der zukünftigen Lösung
OCG | Neuer Service | Anmerkungen | |
---|---|---|---|
PDF-Erzeugung für einzelne Artikel | Ja | Ja | |
PDF-Erzeugung für mehrere Artikel mithilfe des Buchgenerators | Ja | Ja | |
Enthält Inhaltsverzeichnisse für PDFs mit mehreren Artikeln | Ja | Ja | |
Stellt Tabellen dar. | Nein | Ja | |
Quellenangabe | Ja | Ja | Offene Frage: Ort der Quellenangabe innerhalb des neuen Services |
Gestaltung | Latex | Neue Stile | |
N-Spalten-Layout | Ja | Nein | |
2-spaltiges Layout als Standard | Ja | Vorläufig | Ob einspaltiges oder zweispaltiges Layout der Standard ist, wird auf Basis der Rückmeldungen und quantitativen und/oder qualitativen Tests entschieden. |
Ausgabeformat | PDF, Klartext | Nur PDF |
Design
Die neuen PDF-Stile werden auf verbesserte Lesbarkeit ausgelegt. Je nach Community-Rückmeldungen und Ergebnissen der qualitativen oder quantitativen Tests wird eventuell eine Unterstützung von zweispaltigem Layout für den Buchgenerator und/oder Einzel-PDFs gebaut.
-
Beispiele für die neue PDF-Ausgabe-Styles werden basierend auf dem Feedback aus der laufenden Konsultation aktualisiert
Plan für Entwicklung und Bereitstellung
Im Folgenden findet sich ein grober Überblick über den Ablauf von Entwicklung und Bereitstellung der Funktion. Änderungen vorbehalten.
- April - Mai 2017:
- Das Reading Team entwickelt die Backend-Unterstützung für die oben identifizierte Funktionalität.
- Die Benutzerinnen und Benutzer werden bei Erweiterung oder Verringerung des vorgeschlagenen Funktionsumfangs konsultiert.
- Ein qualitativer Test zur Gestaltung wird durchgeführt.
- Juni - Juli 2017:
- Neue Gestaltungsstile wurden eingebaut.
- Ein Prototyp für den PDF-Renderer (erste Iteration) wird gemeinsam mit OCG auf allen Projekten gestartet und die Performance wird verglichen.
- Iterationen auf der Grundlage von Nutzerbefragungen und identifizierten Grenzfällen
- August - September 2017:
- Zusätzliche Änderungen, falls nötig
- Oktober 2017
- Zweite Iteration beginnt ohne OCG auf allen Projekten
Einzelne Artikel
- Ein PDF für einen einzelnen Artikel wird erstellt, indem man den Link "Als PDF herunterladen" auswählt.
- Mit der Auswahl von "Als PDF herunterladen" wird die PDF-Datei erzeugt. Um die Datei herunterzuladen, wählt man den Link "Herunterladen".
- Jede PDF-Datei wird folgendes enthalten:
- Titel und Text des Artikels
- Infobox (falls vorhanden)
- Tabelle (falls vorhanden)
- einspaltiges Layout
- Seitenzahl
- Alle Bilder und Bildunterschriften des Artikels
- Links auf Seiten, die im Artikel verlinkt sind (blaue Links und externe Links)
- Text- und Bildquellen, Beiträge und Lizenzen
Phabricator Tracking
Alle PDF-bezogenen Änderungen, einschließlich des Auslaufens von OCG, des Ersetzens des Electron-PDF-Renderers und aller Aktualisierungen von Büchern oder der Sammlungserweiterung, werden unter dem phabricator-Projekt Protonverfolgt. Auf der Projektseite werden die letzten Aktualisierungen für alle Aufgaben im Zusammenhang mit PDFs angezeigt.
Bücher
Im Oktober 2017 verfügbare Funktionalität
Hinweis: Zum jetzigen Zeitpunkt werden keine Änderungen am aktuellen Buchgenerator vorgenommen.
- Benutzer starten den Buchgenerator, indem sie "Buch erstellen" auswählen.
- Dadurch wird zur aktuellen Seite zum Erstellen von Büchern navigiert.
- Um ein Buch herunterzuladen, klicken Benutzer auf den Link "Herunterladen" auf der Seite des Buchgenerators.
- Benutzer können Bücher nur im PDF-Format herunterladen.
- Über die Elemente der Einzelartikel-PDFs hinaus enthalten Bücher:
- Titelseite des Buches
- Die Einzelnachweise für jeden Artikel des Buches erscheinen am Ende des jeweiligen Artikels.
- Jeder Artikel beginnt auf einer neuen Seite.
- Ein einziger Abschnitt für Text- und Bildquellen, Mitwirkende und Lizenzen, der die gesammelten Beiträge aus allen Artikeln enthält.
Funktionalität, die im November/Dezember 2017 verfügbar ist
- Bücher werden ein Inhaltsverzeichnis mit Seitenzahlen enthalten.
- Wenn man einen Abschnitt im Inhaltsverzeichnis auswählt, navigiert man zum entsprechenden Abschnitt innerhalb des Buches.
Die Formatvorlagen für Bücher werden für eine bessere Lesbarkeit aktualisiert
Alternative
Es gibt eine alternative Möglichkeit zum Exportieren von MediaWiki to LaTeX, PDF, ODT und EPUB:
http://mediawiki2latex.wmflabs.org/
Die Rechenressourcen des Servers sind begrenzt.
Wenn du Ubuntu Linux verwendest und schnellere Ergebnisse wünscht, kannst du das m2l-pyqt
or mediawiki2latex
installieren.