在这篇关于数据的文章中&法律工程,波长法’公司的首席科学官Ben Gardner博士讨论了如何利用新的数据结构为法律工程和转型创新奠定基础。

以前的帖子 我们研究了Google如何结合各种利用和管理数字信息的新工具。通过以创新的方式组合这些工具,Google能够实现它们之间的协同作用,从而可以建立包含上下文的万维网模型。‘understanding’,不仅包括网络上的页面,还包括这些页面上的信息以及它们之间的链接。

我们认为,这种可以构造数据的方式的转变是推动我们赖以生存的信息革命的关键因素。数据可能并没有引起AI当前的流行语关注,但是事实是,数据是推动AI和我们作为法律工程师感兴趣的创新的基本动力。如果我们要从组织(尤其是大型公司的律师事务所和法务部门)中拥有的数据中实现价值,那么必须学习如何释放这种潜力。

在这篇文章中,我们将研究如何将Google之类的新数据结构应用于将内部数据组合到上下文网络(企业知识地图)这一挑战中,以支持创新。

在组织的胆量中–零散的信息格局

下图[点击放大]列出了我们希望在律师事务所或法务部门中找到的典型系统和信息存储库的可视表示。这些是用于运行组织的工具,文档管理系统和一个或多个知识管理数据库的组合。如果我们要映射有关事务,客户,同事等的信息的存放位置,那么我们会发现它分散在多个存储库中。例如,在图中,有关客户的信息在整个实践管理系统,事项开放门户,业务数据库,客户关系管理(CRM)系统,实践管理系统(PMS),文档管理系统(DMS),财务中都保存着系统和包含先例等的知识管理数据库。

这种信息分散对于许多律师事务所和法务部门来说是常见的,并且普遍认为,如果组织要建立完整的客户资料,则必须登录多个系统并手动提取,操纵和合并数据。付出的努力如此之高,以至于在许多情况下都没有尝试过。当前需要组合来自多个来源的数据的工作,这意味着组织无法实现其系统内所捕获的价值。

为了说明这一点,请考虑一个示例,在该示例中,您可能需要确定一位纽约普通话合格的律师,该律师会说普通话并具有从事M的经验&运输领域的交易。这些信息保存在组织的系统中。人力资源系统保存有关资格和语言技能的数据,时间记录系统保存每个事件的记录时间,而实践管理系统则保存关于每个事件的信息,包括交易类型,客户和部门。您可以从HR系统中提取出具有纽约律师资格并说普通话的人员,但是随后您需要提取这些人员的所有时间记录,以便确定他们所从事的所有工作。接下来,您需要从练习管理系统获取有关该大事项列表的所有元数据。最后,您将希望希望可以将来自不同系统的所有这些信息重新组合在一起,然后确定符合您原始资料的几位律师。执行这种类型的分析的一次性成本可能会超过单个任务的价值–但是如果将工作量减少到琐碎的工作,即编写简单的查询,则可以通过基于组织各种系统已经捕获的信息的重用实现专家定位来实现可观的价值。

介绍企业知识图谱

为了释放组织内保存的各种数据的潜力,有必要根据感兴趣的事物来聚合所有信息片段,而不是通过所涉及的过程来聚合。从本质上讲,组织需要从上图所示的零散模型迁移到类似于下图所示的环境。

在此图中,分散在各个孤岛上的信息片段已连接在一起,以在系统之间建立连接。图像的想法是将这些连接的数据绘制为一个隐喻的管形图,其中不同的线是您感兴趣的事物,而系统则表示为工作站。打个比方,通过进入“事项行”,您可以自动通过该行上的所有“系统站”,从而以最小的努力收集数据。此外,由于这是一个网络,因此可以很容易地更改焦点‘changing’在任何站点上的直线,例如从“以事务为中心”的视图移动到“以客户为中心”的视图。如果以这种方式重组数据,那么我们将创建一个企业知识图。

从本质上讲,这里的问题类似于Google在网络上面临的问题–在许多地方捕获有关事物(即人物,地点,电影等)的信息。 Google需要将来自不同来源的信息整合在一起,并建立人物,地点,电影等的个人资料。在Google的情况下,他们的优势在于他们正在处理已经存在于网络中的信息,但是面临着挑战必须应对构成互联网的看似无限的多样性和事物的数量。在大多数组织中,我们没有网络数据,所有事物都存在于孤立的孤岛中,但是与律师事务所或法律部门有关的事物的范围要小得多(例如,参考点的数量,例如同事,事务,客户等) ,看起来似乎很大,但与Google所面临的挑战相比,实际上却是有限的。

此外,律师事务所和法律部门的数据一致性要比网络上的一致性大得多,例如组织具有唯一的ID(即,事项,员工编号等),这些ID在系统之间共享。即使在没有唯一ID而是控制词汇的情况下,对于行业而言,实例的数量(例如行业的类型)也往往处于规模较小的一端,可以在系统之间使用手动映射。这意味着,尽管Google需要将上下文添加到已建立的网络中,但是律师事务所或法律部门可以通过构建网络来创建上下文。这样的组织可以使用在系统之间共享的唯一ID和受控词汇将数据连接在一起,以创建企业知识图。

在下一篇文章中,我们将更深入地研究企业知识图和数据在创新中的作用。

Ben Gardner以前是Linklaters’数据和信息架构师。在Wavelength,最近赢得了 在线法院黑客马拉松,他擅长开发数据策略,使客户能够利用结构化&非结构化信息源。