翻譯|行業(yè)資訊|編輯:胡濤|2024-08-28 11:11:11.820|閱讀 78 次
概述:當(dāng)今的數(shù)字時(shí)代,組織被各種格式的大量文檔所淹沒,包括 Adobe PDF、Office Open XML、DOCX 或 DOC 或 RTF 等舊格式。在較舊的舊應(yīng)用程序中,這些文檔中包含的信息可能未存儲(chǔ)在數(shù)據(jù)庫或其他易于訪問的形式中。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
TX Text Control 是一款功能類似于 MS Word 的文字處理控件,包括文檔創(chuàng)建、編輯、打印、郵件合并、格式轉(zhuǎn)換、拆分合并、導(dǎo)入導(dǎo)出、批量生成等功能。廣泛應(yīng)用于企業(yè)文檔管理,網(wǎng)站內(nèi)容發(fā)布,電子病歷中病案模板創(chuàng)建、病歷書寫、修改歷史、連續(xù)打印、病案歸檔等功能的實(shí)現(xiàn)。
在當(dāng)今的數(shù)字時(shí)代,組織被各種格式的大量文檔所淹沒,包括 Adobe PDF、Office Open XML、DOCX 或 DOC 或 RTF 等舊格式。在較舊的舊應(yīng)用程序中,這些文檔中包含的信息可能未存儲(chǔ)在數(shù)據(jù)庫或其他易于訪問的形式中。
提取這些信息的過程非常耗時(shí)且勞動(dòng)密集。借助智能文檔處理 (IDP),開發(fā)人員現(xiàn)在可以集成自動(dòng)化并增強(qiáng)與文檔相關(guān)的工作流程,以提高業(yè)務(wù)應(yīng)用程序中的準(zhǔn)確性、效率和決策能力。
智能文檔處理是一種使用人工智能 (AI) 和自然語言處理 (NLP) 自動(dòng)從文檔中提取數(shù)據(jù)的過程。所使用的 AI 模型可以理解文檔的內(nèi)容、上下文和結(jié)構(gòu),從而實(shí)現(xiàn)復(fù)雜的任務(wù),例如文檔分類、數(shù)據(jù)提取,甚至查詢文檔中的特定信息。IDP 可用于自動(dòng)處理各種文檔,包括發(fā)票、采購訂單、合同等。
在 Text Control 中,我們專注于研究最佳可用模型和 AI 提供商,以將基于 AI 的文檔處理集成到 .NET 應(yīng)用程序中。我們?yōu)楦鞣N典型的 IDP 應(yīng)用程序創(chuàng)建了幾個(gè)示例,以展示如何結(jié)合 TX Text Control 技術(shù)的強(qiáng)大功能來從 PDF 文檔中提取文本或使用基于 AI 模型的查詢從 MS Word 文檔訪問內(nèi)容。
IDP 最重要的功能之一是文檔分類。組織處理各種各樣的文檔 - 合同、發(fā)票、收據(jù)、表格、法律文件等。在現(xiàn)代應(yīng)用程序中使用 TX Text Control 創(chuàng)建這些文檔時(shí),數(shù)據(jù)將存儲(chǔ)在數(shù)據(jù)庫中或以機(jī)器可讀的形式存儲(chǔ),然后以 ISO 標(biāo)準(zhǔn)格式(例如 PDF/A-3b)附加到創(chuàng)建的 PDF 文檔中。此數(shù)
據(jù)可用于根據(jù)文檔的內(nèi)容、結(jié)構(gòu)或元數(shù)據(jù)對(duì)其進(jìn)行分類。例如,可以根據(jù)特定關(guān)鍵字、模式或其他標(biāo)準(zhǔn)的存在將發(fā)票歸類為發(fā)票。
但是,使用 TX Text Control 以外的其他較舊技術(shù)創(chuàng)建的文檔缺少這一重要元數(shù)據(jù),必須在單獨(dú)的流程中提取。自動(dòng)化流程可以幫助確定文檔是發(fā)票、報(bào)價(jià)單還是合同,并將其路由到適當(dāng)?shù)墓?作流程。我們構(gòu)建了一個(gè)原型,使用 TX Text Control 導(dǎo)入 PDF 文檔的文本并使用 OpenAI 進(jìn)行分析。
例如,使用 TX Text Control 加載和解析以下 PDF:
輸入文檔名稱后,文檔將被導(dǎo)入并發(fā)送給OpenAI進(jìn)行分析。結(jié)果將寫入控制臺(tái)。
Enter the path to the document to classify:
Documents\invoice.pdf
invoice:0.8, receipt:0.2, contract:0, quotation:0, agreement:0, other:0
Highest probability: invoice
應(yīng)用程序已確定輸入文檔是發(fā)票,這是完全正確的。
IDP 的另一個(gè)重要方面是數(shù)據(jù)提取。這些數(shù)據(jù)可用于填充數(shù)據(jù)庫、觸發(fā)工作流或執(zhí)行任何其他操作。例如,發(fā)票可能包含發(fā)票號(hào)、日期、總金額和明細(xì)項(xiàng)目等信息。IDP 現(xiàn)在用于從發(fā)票中提取特定詳細(xì)信息,以便與原始采購訂單進(jìn)行價(jià)值核對(duì)。
許多業(yè)務(wù)文檔不遵循固定格式,這使得傳統(tǒng)系統(tǒng)難以提取信息。使用 TX Text Control,有兩種方法可以在 PDF 文檔中查找特定值:
通過結(jié)合這兩種方法,我們可以從文檔中提取特定值,并使用 AI 模型仔細(xì)檢查結(jié)果。
根據(jù)文檔內(nèi)容回答問題的能力是現(xiàn)代 IDP 系統(tǒng)最強(qiáng)大的功能之一。假設(shè)您擁有大量合同,您需要找出哪些合同包含特定條款或取消條款是什么。手動(dòng)搜索,即使使用高級(jí)搜索,找到正確答案也會(huì)花很長時(shí)間。
使用 NLP 和 AI,用戶可以詢問有關(guān)文檔或文檔列表內(nèi)容的自然問題。發(fā)票上的典型問題包括:
對(duì)于企業(yè)來說,這意味著決策速度更快,生產(chǎn)效率更高。員工無需花費(fèi)數(shù)小時(shí)搜索信息,而是可以專注于更有價(jià)值的任務(wù),因?yàn)樗麄冎浪麄兪诸^有準(zhǔn)確的數(shù)據(jù)。
我們開發(fā)了一個(gè)帶有完整源代碼的原型,名為 Chat PDF,它使用 TX Text Control 從 PDF 文檔中提取文本,并使用 OpenAI 分析內(nèi)容。該示例還展示了如何通過將內(nèi)容分解為具有特定重疊的小塊來準(zhǔn)備內(nèi)容,以獲得準(zhǔn)確的答案。
該應(yīng)用程序是一個(gè)簡單的 .NET 控制臺(tái)應(yīng)用程序,它使用 ASP.NET 的 TX Text Control .NET 服務(wù)器導(dǎo)入 PDF 文檔并顯示 OpenAI 生成的答案。
string question = "Is contracting with other partners an option?"; //string question = "How will disputes be dealt with?"; //string question = "Can the agreement be changed or modified?"; string pdfPath = "Sample PDFs/SampleContract-Shuttle.pdf"; // load the PDF file byte[] pdfDocument = File.ReadAllBytes(pdfPath); // split the PDF document into chunks var chunks = DocumentProcessing.Chunk(pdfDocument, 2500, 50); Console.WriteLine($"{chunks.Count.ToString()} chunks generated from: {pdfPath}"); // get the keywords List<string> generatedKeywords = GPTHelper.GetKeywords(question, 20); // find the matches var matches = DocumentProcessing.FindMatches(chunks, generatedKeywords).ToList().First(); // print the matches Console.WriteLine($"The question: \"{question}\" was found in chunk {matches.Key}."); // print the answer Console.WriteLine("\r\n********\r\n" + GPTHelper.GetAnswer(chunks[matches.Key], question)); 以下控制臺(tái)顯示了示例輸出: 14 chunks generated from: Sample PDFs/SampleContract-Shuttle.pdf The question: "Is contracting with other partners an option?" was found in chunk 11. ******** No, contracting with other partners is not an option unless prior approval is obtained from the COMMISSION'S Contract Manager. The document specifies that subcontracting work under this Agreement is not allowed without prior written authorization, except for those identified in the approved Fee Schedule. Subcontracts over $25,000 must include the necessary provisions from the main Agreement and must be approved in writing by the COMMISSION'S Contract Manager.
應(yīng)用程序在文檔中找到了問題的答案并顯示相關(guān)文本。這是一個(gè)非常強(qiáng)大的功能,可以集成到任何業(yè)務(wù)應(yīng)用程序中,以根據(jù)文檔內(nèi)容提供問題的答案。
智能文檔處理是一個(gè)強(qiáng)大的工具,可以幫助組織自動(dòng)化與文檔相關(guān)的工作流程,提高準(zhǔn)確性并做出更好的決策。通過將 TX Text Control 的強(qiáng)大功能與 AI 模型相結(jié)合,開發(fā)人員可以創(chuàng)建復(fù)雜的應(yīng)用程序,這些應(yīng)用程序可以根據(jù)文檔內(nèi)容對(duì)文檔進(jìn)行分類、提取數(shù)據(jù)并回答問題。這可以幫助組織節(jié)省時(shí)間、減少錯(cuò)誤并提高生產(chǎn)力。
在 Text Control,我們致力于為開發(fā)人員提供所需的工具,以創(chuàng)建能夠利用最新技術(shù)的強(qiáng)大應(yīng)用程序。我們對(duì)智能文檔處理的研究只是我們努力幫助開發(fā)人員創(chuàng)建能夠改變組織工作方式的創(chuàng)新解決方案的一個(gè)例子。
歡迎下載|體驗(yàn)更多TX Text Control產(chǎn)品
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn