Jump to content

مدد: واڌ: ویڪیسوریس/ویڪیمیڊیا او سی آر

From mediawiki.org
This page is a translated version of the page Help:Extension:Wikisource/Wikimedia OCR and the translation is 89% complete.

The Wikimedia OCR feature of the Wikisource extension adds a toolbar interface to the main editing toolbar when editing in the Page namespace, to quickly extract text from the page image and add it to the page body text-box. OCR جو مطلب آھي Optical Character Recognition، ۽ اھو عمل آھي جنھن ذريعي فوٽوگرافڪ تصوير ۾ موجود متن کي قابل تدوين متن ۾ تبديل ڪري سگھجي ٿو، ۽ اھڙي طرح وڪي ۾ شامل ڪيو وڃي ٿو.

بٽڻ ۽ ڊراپ ڊائون مينيو

To use this feature, click the Screenshot of a button with text 'Transcribe text'. button at the right side of the main editing toolbar. اهو او سي آر عمل کي هلائيندو، ۽ نتيجو متن کي صفحي جي باڊي فيلڊ ۾ ايڊيٽنگ فارم ۾ رکندو (ڪنهن به متن کي تبديل ڪرڻ جيڪو اڳ ۾ ئي موجود آهي). هڪ 'واپس ڪريو' بٽڻ ڏيکاريل آهي جسم جي ميدان جي چوٽي تي، توهان کي اجازت ڏئي ٿو ته توهان کي فيلڊ جي پوئين حالت ڏانهن موٽڻ جي ضرورت هجي.

ان جي بنيادي شڪل ۾، وڪيميڊيا او سي آر جي اها سموري ڪارڪردگي آهي، پر ڪجهه ترقي يافته خاصيتون آهن جيڪي ڪجهه حالتن ۾ ڪارائتو ٿي سگهن ٿيون، مکيه 'ٽيڪسٽ ڪڍو' بٽڻ جي ساڄي پاسي واري ڊراپ ڊائون مينيو ذريعي موجود آهن. اهي ترقي يافته خاصيتون توهان کي مختلف OCR انجڻ چونڊڻ جي اجازت ڏين ٿيون؛ سافٽ ويئر جي لفظن کي ڳولڻ ۾ مدد ڏيڻ لاء ٻولين جي هڪ فهرست مقرر ڪريو؛ يا صفحي جو ھڪڙو ننڍڙو علائقو چونڊيو جتان متن ڪڍڻو آھي. اهي سڀ هيٺ بيان ڪيا ويا آهن، ۽ نوٽ ڪريو ته انجڻ جي چونڊ کان سواءِ، سڀ موجود آهن 'اعلي اختيارن' مينيو آئٽم ذريعي، جيڪو هڪ نئون ٽيب کوليندو آهي.

The Advanced options form.

انجڻ

هن وقت ٽي OCR انجڻ موجود آهن: Tesseract، Google ۽ Transkribus. Tesseract هڪ کليل ذريعو اوزار آهي جيڪو اندر هلندو آهي ۽ ٻولين ۽ ٻين اختيارن جي وسيع رينج کي سپورٽ ڪري ٿو. گوگل او سي آر هڪ ملڪيت جي خدمت آهي، جيڪا ڪيترن ئي ٻولين کي پڻ سپورٽ ڪري ٿي، پر گهٽ اختيارن سان. Transkribus EU جي ڪوآپريٽو READ-COOP جي مدد سان آهي ۽ وڪيميڊيا فائونڊيشن سان ڀائيواري ڪئي آهي ته جيئن محدود تعداد ۾ مفت ڪريڊٽ مهيا ڪري سگھن ته جيئن Wikisource Loves Manuscripts پروجيڪٽ جي حمايت ڪن.

استعمال ڪرڻ جو انتخاب مختلف ٿي سگھي ٿو تصوير جي نوعيت تي منحصر ڪري ٿو پروسيس ٿيڻ.

انجڻ کي مٽائڻ لاءِ، منتخب ڪريو لاڳاپيل ريڊيو بٽڻ کي ڊراپ ڊائون مينيو ۾. توهان جي پسند کي توهان جي موجوده ڊوائيس لاء ياد ڪيو ويندو، ۽ ڪنهن به وقت تبديل ڪري سگهجي ٿو.

ٻوليون

Clicking the 'Advanced options' menu item opens a new tab with a transcription form containing a field for selecting the language or languages that are used in the page of text being extracted. This is useful because the OCR engines can be much more accurate when they know what languages to expect.

Note that not all languages are supported by all engines, and if you change the engine then the list of available languages will change too.

If your language is not in the list, you can leave the Languages field empty and the OCR engine will attempt to extract what text it can. This can have varying results, and is worth trying.

Crop area

The crop button.

To extract text from only a part of an image (for example, a single column of a page from a newspaper), it is possible to select a crop area. Do this by first clicking the crop button (, see screenshot at right), and then clicking and dragging over the page image to draw a rectangle. The image can be zoomed and panned, and the crop rectangle moved and resized as required. There are buttons above the image with which to switch between moving and cropping. Once you've selected the desired area, click 'Extract area' and the text for only that area will be shown in the right-side text box.

Returning from Advanced options

After using the advanced options form to extract text, it's necessary to copy and paste the resulting text back into the body field of the page editing form. To make this a bit quicker, a 'Copy to clipboard' button is provided.

First-time use

The first time you open a page for editing, a pulsating blue dot is shown on the 'Extract text' button. Clicking this dot or either of the buttons will open a popup explaining what this feature is. After this popup is dismissed, it will not be shown again (on the same device).

Issues

If you encounter any issues with using Wikimedia OCR, please report them on Phabricator, under the Wikisource OCR tag.

PD نوٽ: جڏنهن توهان هن صفحي کي ترميم (ايڊٽ) ڪندوُ, ته توهان جو ان ۾ راضپو هوندو ته توهان پنهنجي ڀاڱيداري CC0 تحت جاري ڪندا. ڏسو Public Domain Help Pages وڌيڪ معلومات لاءِ. PD