概率:文件审阅的数学方法以及如何大幅降低成本

通过安迪·克拉夫索(Andy Kraftsow)

什么时候像拉斯维加斯这样的诉讼?我们中间比较愤世嫉俗的人可能会回答“总是”,认为任何审判的结果都是胡言乱语。但是对于我们其他人来说,“永远”不是正确的答案。大多数人认为,审判的结果与为审判做准备的辛勤工作之间存在某种关系。大多数人认为我们的行动会影响结果。但是,至少在数学角度上,诉讼的一个方面几乎与拉斯维加斯非常相似,而该方面是首次通过文档审查。

拉斯维加斯既是概率之地,又是希望否定概率的避风港。我在玩二十一点,我赢了。我手上有14分,而经销商则显示10分。我是否持有或要求另一张卡?赔率告诉我一件事,但我的直觉告诉我另一件事。或者,也许我在玩掷骰子,想知道我是否应该翻倍,因为掷骰子的人似乎很热。我们真的可以胜算吗?轮盘赌让我的号码成为获胜者的机率是多少?如果我闭上眼睛并交叉脚趾,这会增加我的机会吗?

所有这些问题都与可能发生的随机事件有关,这些事件对我的行为没有影响。令人惊讶的是,决定维加斯赢家和输家的相同数学会影响首过考试。考虑一个例子:我已经收集了1,000,000个文档,我怀疑其中大约15%与案件相关。我想阅读所有相关文件,而不阅读所有无关文件。查询:找到所有相关文档之前,我必须检查多少个文档?或说是事件阈值,我查看的下一个文档将做出响应的可能性有多大?

这个问题的答案具有重大的经济意义,因为首过审核已成为电子发现中最昂贵的部分。我们淹没在大量文件中!使用合同律师($ 1)审核文档的成本是收集和处理文档的成本(.05)的20倍左右。因此,如何避免阅读无关文档的问题非常及时。在上面的示例中,如果我被迫阅读所有不相关的文件以查找所有相关文件,我实际上会浪费$ 850,000。

从数学角度看,首次通过复查有两个属性,这使它变得昂贵。首先,我要寻找的相关文件在收集的文件集中相对较少(15%)。第二,我不知道它们如何分布。这些因素加重了我的检索问题–我不知道在集合中要查找的位置,而且由于我想要的集合很少,因此我可能会寻找很长时间而根本看不到任何相关文档。参加大型文档审阅的任何人都遇到了这些问题。审阅者可以工作几个小时而不会看到单个相关文档,特别是如果订购这些文档按时间顺序进行审阅。

描述随机事件发生的数学概念称为几何随机变量,它是每次拉斯维加斯胜利和灾难的核心。这也是预测审阅者需要多长时间才能看到下一个相关文档的因素。了解几何随机变量是值得的,因为了解其后果将使我们能够将首次通过审核的费用降低80%或更多。即使对于那些不喜欢数学的人,数学也不难。

为了了解几何随机变量,让我们考虑一个示例:

在确定95%的骰子掷2个骰子之前,您必须掷骰子几次?

检查问题时,有人注意到骰子上有六个数字,因此任何特定的纸卷显示2的概率是六分之一。但是我们都有过连续多次滚动相同数字的经验。我们知道这可能发生。如果我想95%确信至少有一个掷骰是2,则几何随机变量告诉我我必须掷骰17次。该公式如下所示,其中k是掷骰数:

k >= ln(.05)/ ln(5/6)= 16.431[1]

突出的是,即使任何一个骰子上出现2的概率是六分之一,但要确保至少有一个骰子是2的概率达到95%,我仍然需要掷骰子17次。可以肯定,要花很多时间。

现在让我们考虑一下文档审核。假设我已经收集了100万份文档,其中15%是相关的。在我有95%的信心要看一份相关文件之前,我必须检查多少文件?这是骰子问题转化为文档审查。几何随机变量再次回答了以下问题:

k >= ln(.05)/ ln(850,000 / 1,000,000)= 18.433

我必须查看19个文档,才能95%地确定第一个相关文档。仅仅为了找到一个相关的文档就需要处理大量文档,特别是因为我必须再查找149,999个文档,但这至少是可以预见的。至少我知道我最糟糕的情况。可预测性来自随机性。掷骰子会产生随机结果。

19世纪的法国数学家SiméonDenis Poisson发现,使用随机性也是在大海捞针中寻找针头的最佳方法。如果不在大海捞针中寻找文件,该如何审查文件?因此,我们需要在文档审阅过程中引入随机性。为此,我们部署了随机的“下一个文档”算法。当审阅者要求下一份文件时,系统会随机选择一个。就这么简单。

随机检查克服了在保管人或日期组织的审核中看到的“笨拙”。首先检查已知的热托管人和热日期范围是有意义的,但是一旦发现了这些区域,请切换到随机算法,以查明您的位置以及需要执行的操作。

几何随机变量告诉我们,我们遇到的每一个相关文档都应该看到约18个无关文档。检查文档后,将其从审阅队列中删除。因此,我们从集合中删除的不相关文档要多于相关文档。实际上,我们以18:1的比例删除它们。结果,相关文档在集合中变得“密集”,这意味着它们将开始更频繁地出现:首先每十七个文档中出现一次,然后每十六个一次,依此类推。如果用尽了序列,则几何随机变量预测必须先读取馆藏的90%(900,000个文档),然后才能95%确定找到了每个相关文档。审阅750,000个无关文档比阅读850,000个无关文档要好,但是这仍然是一个昂贵且浪费的主张。还有什么可以削减成本的呢?

一种解决方案是通过删除可能不相关的文档来增加相关文档在集合中的百分比(密度)。如果我们可以将集合的密度加倍,以便在审阅开始时有30%的文档是相关的,那么审阅者只需阅读45%的文档就可以确保95%的人找到所有相关文档。这是一个很大的改进,并且有可用的技术来完成此任务。

增加相关文档的密度是预测编码和相关技术的目标。这个想法是使用机器算法,或者在RenewData的基于语言的分析人员的语言理解中,使用该算法来识别和删除认为不相关的文档。通常,这些技术将大约50%的馆藏确定为不值得审查。

通过随机审查并使用语言分析来增加集合的密度,我们将首次通过审查的成本降低了约50%。不错,但不是很好。在我们的示例中,我们仍在浪费$ 265,000,并且花了将近一千个工作日来审核无关文档。我们可以做得更好吗?

几何随机变量说“是”。我们可以采用另一种非常简单的策略,它可能对首过审核的成本产生最大的影响。

该策略依赖于利用语言的冗余,特别是相关语言的冗余。参与文档审阅的任何人都知道,馆藏中的语言极其多余。人们一遍又一遍地讲相同的话。我们的经验是,审阅者识别出的每个相关语言“字符串”都至少出现在其他24个文档中。[2]

批量标记包含相同标识的相关语言字符串的每个文档,将必须阅读的文档数量减少了50%。仅仅引入了荧光笔和布尔型散乱格,这是一个惊人的结果。 (RenewData已在相对论的顶部构建了一个由高光显示驱动的批量标记。)抓住每个包含已标识的相关语言字符串的文档,绝对是正确的方法。

总结一下: 几何随机变量建议了三种降低首过审核成本的策略:

1.使用随机的下一个文档算法来克服分布不均的问题。
2.通过删除可能不相关的文档来提高集的密度。
3.使用大头签来抓取每个包含审阅者突出显示的相关语言的文档。

通过将这三种策略结合起来,一个人可以避免对80%或更多的馆藏进行审查,而仍然有95%的信心找到每个相关文档。

关于作者: RenewData的首席科学家 安迪·克拉夫索(Andy Kraftsow) 领导公司’开发突破性技术的努力。他于2009年通过收购从Digital Mandate加入公司。在Digital Mandate期间,他是公司的带头人。’致力于建立Vestigate法律审查解决方案,该解决方案仍然是RDC Analytics不可或缺的一部分’内容分析产品组合。

在过去的25年中,Kraftsow成立了3家软件公司并担任该公司的首席执行官,每家公司最终都出售给了一家上市公司。 1999年,他成立了DolphinSearch Inc,将高级神经网络数学的功能带入法律界。作为一名数学家接受了培训,他的专长是使用应用数学的各个方面进行信息分析。


[1]本质上,这是指掷骰数等于确定性水平的补充数的自然对数(1-.95)除以不良结果与所有结果的比率的自然对数(5/6)。

 

[2]对于包含超过100,000个文档的集合。