DocsCorp今天宣布将启动pdfDocs Content
Crawler OCR,是其新的集成分析,报告和
处理框架。该版本将
与Autonomy iManage 8.2或更高版本集成,
Opentext eDOCS 5.1.05或更高版本的DMS平台。进一步
随后将进行DMS和内容存储库集成。

通常会通过各种工作流程漏洞在DMS中对文档进行概要分析:传真,
扫描程序和用户分析电子邮件附件。这些基于图像
文档工作流程会绕过OCR处理,这会使它们
文字搜索。一旦进入DMS,这些文件将对搜索引擎完全不可见。“企业在DM和搜索技术上进行了大量投资,但据估计,
10-20% of 单据 in a DMS are non-searchable. This figure represents
对任何企业都构成重大风险。其声誉和财务
仅仅通过不产生特定的影响就可以影响幸福感
按需文档”,DocsCorp总裁David Woolstencroft说
市场销售& Strategy.

pdfDocs Content Crawler提供了一个框架
用于搜索整个DMS数据库或基于以下内容的文档子集
特定的DMS查询。 Content Crawler OCR模块可识别
图片文件,PDF文件甚至内部的不可搜索内容
电子邮件附件。文件将转换为可文本搜索的PDF
使用DocsCorp的OCR技术并将其保存回DMS。内容
搜寻器可以搜索和转换遗留文档的积压以及
积极监视新配置的文档。 Woolstencroft补充说:“如果您不知道
问题的严重程度,或者不确定是否有问题,
DocsCorp邀请您使用Content Crawler(试用版模式)
provide an audit report of your DMS 单据.“

最近任命的DocsCorp V-P EMEA的Ben Mitchell添加了“即将发布的新产品称为pdfDocs Content Crawler,旨在解决公司在其文档管理系统中保存不包含可搜索文本并因此无法发现的文档的问题。出于明显的原因,持有此类文件的风险隐患很大。在大多数情况下,不可搜索的内容是已扫描或以其他方式生成的没有文本层的PDF或TIFF文档。这些文档通常来自公司外部,并作为电子邮件附件接收,然后归档到DMS中。我们还发现传真系统是不可搜索文档的另一个主要来源。
 
“pdfDocs Content Crawler包含用于分析文档并确定是否可搜索的技术。 然后,被发现不可搜索的文档将通过OCR引擎运行,并将文档的可搜索可再现格式重新添加到公司DMS中。我们还认为,该产品将在诉讼支持环境中使用,在这种情况下,公司正在分析电子发现捆绑包,但不知道捆绑包中的所有文档是否都可搜索。 许多公司在搜索技术和复杂的诉讼支持系统上投入了大量资金,但是,如果这些系统指向的文档中不包含可搜索的文本,则其有效性将会降低。”
 
+ 见附件PDF数据表