10 January, 2013

हिन्दी ओसीआर : टेसरैक्ट और जी_इमेज_रीडर की जोड़ी द्वारा

आप सभी को पता है कि टेसरैक्ट एक उत्कृष्ट मुक्तस्रोत ओसीआर है। किन्तु इसमें ग्राफिकल-यूजर-इण्टरफेस नहीं है। किन्तु इससे इसकी उपयोगिता कम नहीं हो जाती। इसके लिए अलग से अनेकों फ्रॉण्ट-एन्ड जीयूआई हैं, जैसे जी_इमेज_रीडर  (gimagereader) तथा VietOCR . मैने जी_इमेज_रीडर को फ्राण्ट-एण्ड के रूप में बहुत उपयोगी और सुविधाजनक पाया है।

जी-इमेज-रीडर की कुछ अच्छाइयाँ:

१) इसमें पीडीएफ, कई प्रकार के इमेज इम्पोर्ट करके  ओसीआर कर सकते हैं।

२) इमेज (या पीडीएफ) का कोई चुना हुआ  भाग, एक पेज, चुने हुए कुछ पेज या सभी पेज का ओसीआर करने का विकल्प है।

३) इमेज को घुमाने तथा इसी प्रकार के अन्य औजार दिए गये हैं।

४) एक साथ कई फाइले लोड कर सकते हैं।

५) प्राप्त  टेक्स्ट आउटपुट (जो टेसरैक्ट द्वारा यूनिकोड में मिलता है) को वहीं पर फाइण्ड-रिप्लेस करने की सुविधा।

६) ओपेन_आफिस का स्पेल_चेकर फाइल इसे देने पर स्पेल-चेक की सुविधा भी देता है।


मैं देख रहा था कि इसके आ जाने से अनेकों अन्य सुविधाओं के अलावा  फॉण्ट-कनवर्जन की सुविधा भी मिल जाएगी।  वस्तुतः यह एक प्रकार का  'सभी फॉण्टों का यूनिकोड परिवर्तक' है।

यह मुक्तस्रोत ओसीआर है और इससे हिन्दी को बहुत आशाएँ हैं। इसका प्रयोग कीजिए। कुछ समस्याएँ हों तो उन्हें उचित मंच पर ले जाइये। अगले संसकरणों में हिन्दी का आउटपुट इससे भी अच्छा आएगा, यह भरोसा रखिए।

स्थापना विधि
( टेसरैक्ट + जिमेजरीडर ) को हिन्दी ओसीआर के रूप में प्रयोग करने के लिए तीन फाइले डाउनलोड करनी होंगी-

१) टेसरैक्ट इंस्टालर (अंग्रेजी भाषा के डेटा सहित ; लगभग १३ एमबी) 
२) जीमेजरीडर  (लगभग १९ एमबी)
          http://sourceforge.net/projects/gimagereader/

३) हिन्दी के लिए आवश्यक डेटा फाइलें (लगभग १० एमबी)
tesseract-ocr-3.02.hin.tar.gz

प्रथम दो प्रोग्रामों को यथास्थान इंस्टाल कीजिए। ये दोनो बड़ी आसानी से इंस्टाल हो जाते हैं। तीसरी फाइल को अनजिप करके (7-zip का प्रयोग कीजिए)  प्राप्त फाइलों को टेसरैक्ट के उस डायरेक्टरी में डाल दीजिए जिसका नाम , उदाहरण के लिए , C:\Program Files\Tesseract OCR\tessdata.  है। यदि आपने कहीं और इंस्टाल किया है तो देखिए कि tessdata डायरेक्टरी कहाँ है और उसमें हिन्दी की डेटा फाइलों को डालें।


निम्नलिखित स्थानों पर इनके इंस्टाल करने एवं चलाने की विधि का विस्तार से वर्णन है-

A front-end GUI for the Tesseract OCR engine (Windows)  

firstandtech.wordpress.com/2012/08/22/a-front-end-gui-for-the-tesseract-ocr-engine-windows/


gImageReader: Open source, Google-powered OCR (optical character recognition) program that actually works 

dottech.org/21372/gimagereader-open-source-google-powered-ocr-optical-character-recognition-program-that-actually-works/


अब जब आप जीइमेजरीडर को चलायेंगे तो आपको इसे दो सूचनाएँ बतानी पड़ेंगी, ताकि यह टेसरैक्ट के साथ सम्बन्ध स्थापित कर सके-

(क)  “Directory containing tesseract:”  : हो सकता है आपने  टेसरैक्ट को  “C:\Program Files\Tesseract-OCR” में स्थापित किया है। यदि हाँ, तो C:\Program Files\Tesseract-OCR वहाँ पेस्ट कर दीजिए

(ख) “Directory containing tesseract languages:” : यहाँ भाषाओं के डेटा की डाययरेक्टरी बतानी है। हो सकता है आपने  “C:\Program Files\Tesseract-OCR\tessdata” में भाषा के आंकड़े रखे हैं। इसे वहाँ कॉपी कर दीजिए। यदि आपने अलग डायरेक्टरी में रखा हो तो वह पाथ वहां चिपका दीजिए।


एक महत्वपूर्ण जानकारी आपको और बतानी पड़ेगी।  हिन्दी सम्बन्धी जानकारी । जीइमेजरीडर में कुछ 'बिल्ट-इन' भाषाएँ हैं जिनमें हिन्दी अभी नहीं है। इसे आपको जोड़ना पड़ेगा।
File -->Configure_languages में जाकर हिन्दी के बारे में यह जानकारी भर दीजिए। इसके लिए :  Add बटन पर क्लिक कीजिए और क्रमशः तीन चीजें टाइप कर दीजिए-

Filename prefix     Native name      ISO 639-1 code

        hin                  हिन्दी                   hi_IN

इसके बाद 'ओके' बटन दबाइए। फिर 'अप्लाई' बटन दबाइए।

अब इसमें वह पीडीएफ या इमेज फाइल खोलिए जिसके किसी भाग या पूरे भाग का ओसीआर ( इमेज को मशीन द्वारा पठनीय टेक्स्ट में बदलना) करना है। इसके बाद आपको वह भाषा भी बतानी है। अभी आप किसी हिन्दी में लिखे पीडीएफ या इमेज को टेक्स्ट में बदलने जा रहे हैं। इसलिए सबसे उपर टूल-बार मीनू में दाहिनी तरफ English (US_en) के जगह पर क्लिक करके हिन्दी चुन लीजिए। फिर मीनू-बार में सबसे दाहिने वाले (Recognise) पर क्लिक करिए।  काम शुरू हो गया। थोड़ी देर प्रतीक्षा कीजिए।  आपके स्क्रीन पर दाहिने तरफ एक नई विण्डो में कुछ टेक्स्ट प्रकट होगा।  आपको इसी की तलाश थी। मिल गया। आप चाहें तो इस टेक्स्ट में कुछ 'खोजो-पाओ' प्रक्रिया यहीं कर सकते हैं या इसे 'सेव' करके बाहर आ जाइये और सम्पादन या शुद्धीकरण का काम किसी अधिक तेजस्वी टूल (जैसे टेक्स्ट क्राउलर) से कीजिए या स्वयं करिए।


प्रशिक्षण औजार (ट्रेनिंग टूल्स)
टेसरैक्ट के बारे में एक और जानकारी महत्वपूर्ण है कि बहुत से ट्रेनिंग टूल उपलब्ध हैं जिनकी सहायता से हम किसी भी लिपि के किसी भी फॉण्ट के साथ काम करने के लिए प्रशिक्षित कर सकते हैं। इसका मतलब है कि कि हम दूसरों पर निर्भर रहने के बजाय अपनी आवश्यकता के अनुरूप अपना ट्रेनिंग डाटा खुद तैयार कर सकते हैं।

यहाँ बहुत से ऐसे टूल्स की सूची दी गई है-

External Tools, Wrappers And Projects

code.google.com/p/tesseract-ocr/wiki/AddOns#Tesseract_box_editors_and_traning_tools

बाहरी कड़ियाँ
(१)  टेसरैक्ट-ओसीआर (tesseract-ocr)  : प्रसिद्ध मुक्तस्रोत ओसीआर परियोजना ; पचासों भाषाओं के ओसीआर (हिन्दी सहित) इससे बने हैं।

(२) परिचित - भारतीय लिपियों के लिए टेसरैक्ट पर आधारित  ओसीआर निर्माण की परियोजना

(३) linux-intelligent-ocr-solution  (LIOS) : पाइथन में रचित एक मुक्तस्रोत ओसीआर परियोजना (लिनक्स के लिए)

देवनागरी फॉण्टालय

Annapurna SIL Fonts ( देवनागरी यूनिकोमुक्त स्रोत, ओपेन-टाइप, ग्रेफाइट-फॉण्ट तकनीक)
http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=AnnapurnaSIL



GNU FreeFont   ( एक ही फाइल में पचासों लिपियों एवं संकेतों के यूनिकोड-फॉण्ट ; GNU FreeFont is a free family of scalable outline fonts, suitable for general use on computers and for desktop publishing. It is Unicode-encoded for compatibility with all modern operating systems. )
www.gnu.org/software/freefont/index.html


छन्दस् , उत्तरा तथा सिद्धान्त फॉण्ट (मुक्तस्रोत)
http://www.sanskritweb.net/cakram/



लोहित फॉण्ट (सभी भारतीय भाषाओं के लिए लिनक्स में उपयोग हेतु)
https://fedorahosted.org/lohit/


देवनागरी_फॉण्ट्स_डॉट_नेट  ( लगभग ३०० देवनागरी फॉण्ट)
http://www.devanagarifonts.net/

देवनागरी_फॉण्ट्स_डॉट_नेट  Devanagari Font list (page 1 to 20)
http://www.devanagarifonts.net/fonts/page1.html

Free 219 Devanagari fonts (Hindi Typing)

http://www.hindityping.com/free-219-devanagari-fonts/


Free 189 hindi fonts (Hindi Typing)

www.hindityping.com/free-189-hindi-fonts/



Download Devnagri Fonts : Collection of most popular free to download fonts for Windows and Mac

http://fonts.webtoolhub.com/?tag=devnagri

Hindi, Marathi, Nepali Fonts ( South Asia language resource  Centre)

http://salrc.uchicago.edu/resources/fonts/available/hindi/


WAZU JAPAN's Gallery of Unicode Fonts 
www.wazu.jp/gallery/Fonts_Devanagari.html

नेपाली यूनिकोड फॉण्ट्स (मदन पुरस्कार पुस्तकालय ;  पचासों फॉण्ट)
http://mpp.org.np/index.php?option=com_docman&task=cat_view&gid=19&dir=DESC&order=name&Itemid=63&limit=5&limitstart=0


Nepali Fonts 

www.nepalhomepage.com/reference/fonts/

50 Fantastic free Hindi fonts

http://www.antsmagazine.com/fonts/50-fantastic-free-hindi-fonts/


Hindi Free Fonts Download  »  (50)
http://www.ffonts.net/Hindi.html


देवनागरी फॉण्ट्स : सम्पूर्ण मार्गदर्शिका
http://www.cs.colostate.edu/~malaiya/devafonts.htm


devanagari unicode fonts free download - Keyword Stats 
www.webstatschecker.com/stats/keyword/devanagari_unicode_fonts_free_download

आनन्द कुमार महर्जन का फॉण्ट-संसार
http://www.anandakm.com.np/?tag=font-design

आनन्द द्वारा उपलब्ध कराए गए मुफ्त फॉण्ट
http://www.anandakm.com.np/?cat=11



इण्डियन टाइप फाउण्ड्री (ITF) के फॉण्ट
http://www.indiantypefoundry.com/fonts/


Creating a Digital Tool for Designing Devanagari Font (Chitra Gohad)
http://www.behance.net/gallery/Creating-a-Digital-tool-for-Designing-Devanagari-font/3328047


Developing OpenType Fontsfor Devanagari Script (2 of 3):Shaping Engine  lb1.www.ms.akadns.net/typography/otfntdev/devanot/shapingO.aspx

 Classification of Conjunct Glyphs of Devanagari Script  
  www.aa.tufs.ac.jp/~kmach/gicas/ASTI/conj_e.htm