轉(zhuǎn)帖|使用教程|編輯:黃竹雯|2016-07-18 11:41:20.000|閱讀 1169 次
概述:在很多情況下,我們需要將掃描文件中的文本提取出來,轉(zhuǎn)化為文本搜索的格式,如doc、PDF等。LeadTools為開發(fā)者提供了快速的、高精度的OCR SDK技術(shù)。利用LeadTools OCR工具包,可以快速的開發(fā)健壯的、可擴展的、高性能識別的文檔處理應(yīng)用程序,這些應(yīng)用程序可提取出掃描文件中的文本,將圖像轉(zhuǎn)化為文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
在很多情況下,我們需要將掃描文件中的文本提取出來,轉(zhuǎn)化為文本搜索的格式,如doc、PDF等。LeadTools為開發(fā)者提供了快速的、高精度的OCR SDK技術(shù)。利用LeadTools OCR工具包,可以快速的開發(fā)健壯的、可擴展的、高性能識別的文檔處理應(yīng)用程序,這些應(yīng)用程序可提取出掃描文件中的文本,將圖像轉(zhuǎn)化為文本搜索格式,如PDF、PDF/A、DOC、DOCX、XML、XPS等。
本文主要包括兩大部分:
步驟1:選擇將要使用的引擎類型,并創(chuàng)建IOcrEngine接口的一個實例。
//在本段代碼中我們使用了LeadTools OCR Advantage引擎 IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false);
步驟2:啟動引擎。
//使用了默認(rèn)的參數(shù) ocrEngine.Startup(null, null, null, @"C:\LEADTOOLS 18\Bin\Common\OcrAdvantageRuntime");
步驟3:創(chuàng)建一頁或多頁的OCR文檔。
IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument(); //將多頁TIF圖像的所有頁添加至文檔。 ocrDocument.Pages.AddPages(@"C:\Users\Public\Documents\LEADTOOLS Images\Ocr.tif", 1, -1, null);
步驟4:自動或手動的在頁面中創(chuàng)建區(qū)域。
// 自動分區(qū) ocrDocument.Pages.AutoZone(null);
步驟5:(可選)設(shè)置OCR引擎將要使用語言。
// 啟用中文簡體 ocrEngine.LanguageManager.EnableLanguages(new string[] { "zh-Hans" });
步驟6:(可選)設(shè)置拼寫檢查的語言。
// 啟用拼寫檢查系統(tǒng),并將英文設(shè)置為拼寫語言 ocrEngine.SpellCheckManager.SpellCheckEngine = OcrSpellCheckEngine.Native; ocrEngine.SpellCheckManager.SpellLanguage = "en";
步驟7:(可選)設(shè)置任意的識別模塊選項。
//改變第一個區(qū)域的填充方法,設(shè)置為默認(rèn) OcrZone ocrZone = ocrDocument.Pages[0].Zones[0]; ocrZone.FillMethod = OcrZoneFillMethod.Default; ocrDocument.Pages[0].Zones[0] = ocrZone;
步驟8:識別
ocrDocument.Pages.Recognize(null);
步驟9:保存識別結(jié)果
// 將結(jié)果保存為docx文件 ocrDocument.Save(@"C:\Users\Public\Documents\LEADTOOLS Images\Document.docx", DocumentFormat.Docx, null); ocrDocument.Dispose();
步驟10:結(jié)束時關(guān)閉OCR引擎
ocrEngine.Shutdown(); ocrEngine.Dispose();
更多詳細(xì)步驟及代碼,可參照LeadTools中文入門教程(7):使用OCR識別圖像中的中文
下面為您提供了”使用OCR識別掃描文件中的中文“的示例代碼。為了運行此代碼,請點擊下載LeadTools全功能試用版。
安裝全功能試用版后,由于此應(yīng)用程序要識別中文,因此在創(chuàng)建應(yīng)用程序之,請點擊下載LeadTools OCR語言擴展包。
下面就讓我們使用本文提供的Demo,識別掃描文件中的中文吧!
1 啟動程序。選擇您想要使用的引擎類型。本次我們將選擇LeadTools Professional OCR引擎。
2 啟動引擎后,點擊文件->打開…將我們要識別的文件打開。如果不只有一個頁面,點擊頁面->插入…將隨后的頁面添加進來。
原掃描文件的一部分如下圖所示:
將文件添加到應(yīng)用程序中。
3 點擊引擎->語言…彈出“啟用語言”對話框,將中文簡體添加到已啟用語言中。點擊“確定”完成。
4 點擊OCR->識別文檔進行識別。若只需識別當(dāng)前頁,點擊OCR->識別當(dāng)前頁。此操作會對文檔進行自動分區(qū),隨后進行識別。結(jié)果如下圖所示:
如果我們不需要識別圖片上包含的文字,可以調(diào)整自動識別的區(qū)域或?qū)⒛承﹨^(qū)域刪除(右擊區(qū)域,點擊刪除即可)。例如下圖,若不需識別圖片上的文字,紅色矩形框標(biāo)出的區(qū)域即可刪除。
點擊OCR->顯示識別出的字符…可將識別出的字符顯示出來。
5 點擊OCR->保存文檔…可將識別的結(jié)果保存為想要的格式,如Adobe PDF、Microsoft Word、Text、HTML等。
保存的文檔如下圖所示:
至此,我們使用此應(yīng)用程序識別出了掃描文件中的中文并保存為Word文檔。本博文提供的Demo還包含了其他很多Ocr的功能,如設(shè)置拼寫檢查引擎,拼寫語言、相關(guān)OMR選項等等。還在等什么!快快下載Demo親自嘗試下吧!
DEMO下載:
文章轉(zhuǎn)自:葡萄城控件產(chǎn)品博客,//blog.gcpowertools.com.cn
Demo提供了OCR的多種功能,為了運行此demo,不妨查看并免費下載LeadTools試用版,快快點擊下載吧!
如需幫助,請聯(lián)系!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn