精品久久无码久97影院,欧美极品少妇x,日韩久久无码一区二区三区

LeadTools中文入門教程（8）：使用OCR識別掃描文件中的中文

轉(zhuǎn)帖|使用教程|編輯：黃竹雯|2016-07-18 11:41:20.000|閱讀 1169 次

概述：在很多情況下，我們需要將掃描文件中的文本提取出來，轉(zhuǎn)化為文本搜索的格式，如doc、PDF等。LeadTools為開發(fā)者提供了快速的、高精度的OCR SDK技術(shù)。利用LeadTools OCR工具包，可以快速的開發(fā)健壯的、可擴展的、高性能識別的文檔處理應(yīng)用程序，這些應(yīng)用程序可提取出掃描文件中的文本，將圖像轉(zhuǎn)化為文本搜索格式，如PDF、PDF/A、DOC、DOCX、XML、XPS等。

# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

相關(guān)鏈接：

在很多情況下，我們需要將掃描文件中的文本提取出來，轉(zhuǎn)化為文本搜索的格式，如doc、PDF等。LeadTools為開發(fā)者提供了快速的、高精度的OCR SDK技術(shù)。利用LeadTools OCR工具包，可以快速的開發(fā)健壯的、可擴展的、高性能識別的文檔處理應(yīng)用程序，這些應(yīng)用程序可提取出掃描文件中的文本，將圖像轉(zhuǎn)化為文本搜索格式，如PDF、PDF/A、DOC、DOCX、XML、XPS等。

本文主要包括兩大部分：

1 “使用OCR識別掃描文件中的中文” 的主要步驟及關(guān)鍵代碼片段
2 “使用OCR識別掃描文件中的中文” 的Demo使用講解及下載

主要步驟及關(guān)鍵代碼片段

步驟1：選擇將要使用的引擎類型，并創(chuàng)建IOcrEngine接口的一個實例。

 //在本段代碼中我們使用了LeadTools OCR Advantage引擎
 IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false);

步驟2：啟動引擎。

 //使用了默認(rèn)的參數(shù)
 ocrEngine.Startup(null, null, null, @"C:\LEADTOOLS 18\Bin\Common\OcrAdvantageRuntime");

步驟3：創(chuàng)建一頁或多頁的OCR文檔。

 IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument();
 //將多頁TIF圖像的所有頁添加至文檔。
 ocrDocument.Pages.AddPages(@"C:\Users\Public\Documents\LEADTOOLS Images\Ocr.tif", 1, -1, null);

步驟4：自動或手動的在頁面中創(chuàng)建區(qū)域。

 // 自動分區(qū)
 ocrDocument.Pages.AutoZone(null);

步驟5：（可選）設(shè)置OCR引擎將要使用語言。

 // 啟用中文簡體
 ocrEngine.LanguageManager.EnableLanguages(new string[] { "zh-Hans" });

步驟6：（可選）設(shè)置拼寫檢查的語言。

 // 啟用拼寫檢查系統(tǒng)，并將英文設(shè)置為拼寫語言
 ocrEngine.SpellCheckManager.SpellCheckEngine = OcrSpellCheckEngine.Native;
 ocrEngine.SpellCheckManager.SpellLanguage = "en";

步驟7：（可選）設(shè)置任意的識別模塊選項。

 //改變第一個區(qū)域的填充方法，設(shè)置為默認(rèn)
 OcrZone ocrZone = ocrDocument.Pages[0].Zones[0];
 ocrZone.FillMethod = OcrZoneFillMethod.Default;
 ocrDocument.Pages[0].Zones[0] = ocrZone;

步驟8：識別

 ocrDocument.Pages.Recognize(null);

步驟9：保存識別結(jié)果

 // 將結(jié)果保存為docx文件
 ocrDocument.Save(@"C:\Users\Public\Documents\LEADTOOLS Images\Document.docx", DocumentFormat.Docx, null);
 ocrDocument.Dispose();

步驟10：結(jié)束時關(guān)閉OCR引擎

 ocrEngine.Shutdown();
 ocrEngine.Dispose();

更多詳細(xì)步驟及代碼，可參照LeadTools中文入門教程（7）：使用OCR識別圖像中的中文

Demo使用講解及下載

下面為您提供了”使用OCR識別掃描文件中的中文“的示例代碼。為了運行此代碼，請點擊下載LeadTools全功能試用版。

安裝全功能試用版后，由于此應(yīng)用程序要識別中文，因此在創(chuàng)建應(yīng)用程序之，請點擊下載LeadTools OCR語言擴展包。

下面就讓我們使用本文提供的Demo，識別掃描文件中的中文吧！

1 啟動程序。選擇您想要使用的引擎類型。本次我們將選擇LeadTools Professional OCR引擎。

2 啟動引擎后，點擊文件->打開…將我們要識別的文件打開。如果不只有一個頁面，點擊頁面->插入…將隨后的頁面添加進來。

原掃描文件的一部分如下圖所示：

將文件添加到應(yīng)用程序中。

3 點擊引擎->語言…彈出“啟用語言”對話框，將中文簡體添加到已啟用語言中。點擊“確定”完成。

4 點擊OCR->識別文檔進行識別。若只需識別當(dāng)前頁，點擊OCR->識別當(dāng)前頁。此操作會對文檔進行自動分區(qū)，隨后進行識別。結(jié)果如下圖所示：

如果我們不需要識別圖片上包含的文字，可以調(diào)整自動識別的區(qū)域或?qū)⒛承﹨^(qū)域刪除（右擊區(qū)域，點擊刪除即可）。例如下圖，若不需識別圖片上的文字，紅色矩形框標(biāo)出的區(qū)域即可刪除。

點擊OCR->顯示識別出的字符…可將識別出的字符顯示出來。

5 點擊OCR->保存文檔…可將識別的結(jié)果保存為想要的格式，如Adobe PDF、Microsoft Word、Text、HTML等。

保存的文檔如下圖所示：

至此，我們使用此應(yīng)用程序識別出了掃描文件中的中文并保存為Word文檔。本博文提供的Demo還包含了其他很多Ocr的功能，如設(shè)置拼寫檢查引擎，拼寫語言、相關(guān)OMR選項等等。還在等什么！快快下載Demo親自嘗試下吧！

DEMO下載：

文章轉(zhuǎn)自：葡萄城控件產(chǎn)品博客，//blog.gcpowertools.com.cn

Demo提供了OCR的多種功能，為了運行此demo，不妨查看并免費下載LeadTools試用版，快快點擊下載吧！

如需幫助，請聯(lián)系！

標(biāo)簽：OCR SDK 掃描識別 OCR 掃描與圖像

本站文章除注明轉(zhuǎn)載外，均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載，但請務(wù)必注明出處、不得修改原文相關(guān)鏈接，如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn

上一篇：Highcharts基礎(chǔ)教程（九）：HTML標(biāo)簽（labels）下一篇：Zend Studio使用教程：集成Apigility（一）

相關(guān)產(chǎn)品

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10780

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Imaging Pro Developer Toolkit

20多年的老牌圖像處理控件，支持TWAIN掃描、200多種圖像效果、150多種圖像格式…

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10781

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Document Suite Developer Toolkit

LEADTOOLS Document Imaging Suite SDK是LEADTOOLS SDK中各種特點的精選組合，這套強大的工具利用了LEAD行業(yè)領(lǐng)先的圖像處理技術(shù)來智能地識別文檔的特征，而根據(jù)文檔的特征可以識別掃描的或傳真的任何類型的表格圖像。

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10782

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Document Imaging Developer Toolkit

多語言的文檔圖像處理控件，支持光符識別處理、條形碼掃描識別等。

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10783

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Medical Developer Toolkit

LEADTOOLS Medical Imaging是一款醫(yī)療成像控件，包含了一些精心挑選的、經(jīng)過優(yōu)化的特性，可以滿足醫(yī)療成像應(yīng)用程序開發(fā)的特殊需要。

控件

產(chǎn)品功能：位圖圖像處理

源碼：非開源

產(chǎn)品編號：10784

當(dāng)前版本：v23 [銷售以商家最新版為準(zhǔn)，如需其他版本，請來電咨詢]

開發(fā) 商： LEADTOOLS

正式授權(quán)

">LEADTOOLS Medical Imaging Suite Developer Toolkit

LEADTOOLS Medical Imaging Suite幫您開發(fā)功能強大的PACS和醫(yī)學(xué)成像應(yīng)用程序

最新文章 MORE

金喜正規(guī)買球相關(guān)的文章 MORE

老司机夜插-理伦理片-理伦片免费-理伦片免费观看-理伦片免费看-理伦日韩-理论福利片-理论片第一页-理论片电影-理论片理论

金喜正规买球

在線采購

中文文檔庫

試用/Demo下載

開發(fā)社群

LeadTools中文入門教程（8）：使用OCR識別掃描文件中的中文

主要步驟及關(guān)鍵代碼片段

Demo使用講解及下載

用科技創(chuàng)就卓越

Create excellence with technology

老司机夜插-理伦理片-理伦片免费-理伦片免费观看-理伦片免费看-理伦日韩-理论福利片-理论片第一页-理论片电影-理论片理论

金喜正规买球

在線采購

中文文檔庫

試用/Demo下載

開發(fā)社群

LeadTools中文入門教程（8）：使用OCR識別掃描文件中的中文

主要步驟及關(guān)鍵代碼片段

Demo使用講解及下載

為你推薦

用科技創(chuàng)就卓越

Create excellence with technology