类别
最新消息

访客文章:预测披露的未来

这里'关于预测编码技术的案例研究,以摩尔诺克德·普洱LLP和詹姆斯·莫斯库尔·米内克·米德利·米德斯·米德斯·米德纳·米德斯·林克斯·米德纳斯·米德斯库特的有效性研究

什么是预测的编码技术?
预测编码技术使用统计采样技术来得分文档的相关性。一组文件是人类审查的主题。该人类审查创建一个模型,然后将其应用于更广泛的文件集,每个文件集被评为相关性模型。

在这种情况下,所使用的软件是平等的相关性。审查的文件已加载到Equivio相关软件中,只有只查看文档文本,而不是家庭关系等。因此,将家庭分开,并在附件水平下重复所有文件。人类审查然后开始。这是一个迭代过程。最初随机批次由软件向审阅者呈现给审阅者。每个文件由审阅者评分为 相关的 或者 无关紧要 到问题的问题。随着时间的推移,创建了一组规则或模型。一旦到达稳定性的阈值,该软件就可以应用于软件的所有文档,其中软件得分为每个文档的相关性。该技术基于文档的文本,因此对计划/图纸,照片和数量仅有界限,例如电子表格,具有限制。该方法有效地将关联和文本中的文字链接。它远远超过关键词搜索。 

案例研究
初始收获文件是参考保管人,日期范围和关键词过滤器完成的。预测编码是纯第二阶段过程。在这种情况下,收获超过250,000个顶级文件。然后将这些文件以顶层重复并加载到等级相关性。引线审稿人然后开始该过程。第一步是通过完全随机地审查软件选择的1000个文件。在提出的1000份文件中,引导审稿人只考虑了42个文件,以与问题的事项有任何相关性。

迭代审查过程中的下一阶段是审查批次的文件。该软件将审阅者提供批次的文件,每个文件被归类为相关或无关。每次一批文档都完成后,该软件将应用统计算法,分析根据这些文件审查的文档中包含的文本,这些文件审查为相关的文件,这些文件在审查的所有批次中均有相关且无关。 总共审查员审查了大约2000年文件,作为初始随机1000份文件和多批次进一步1000。

通过批量审查过程软件 学习。该过程可以看出,可以使用所讨论的批次,以便在进程结束时进行审查,其中大约一半的文件是相关的文件(本软件故意继续呈现其分类为无关紧要,以确保审阅者保持警报和一致)。通过审查过程,模型被精制,直到审查的一致性产生稳定模型以适用于所有文件。

模型在整个文件中的应用需要几个小时才能运行,并且在我们的案例中在一夜之间完成。该软件不会在相关性或无关之间决定。结果是每个文档在0到100之间的相关性得分百分比。将文档分组为10个百分位频,例如x文件显示为0% - 10%频段,y在11%至20%的频带等中。具有0%分数的文档是没有文本的文档,如照片。

那么决定是在哪里进行切割。我们对结果的极端进行了抽样审查。这证实了0-10%的评分和91-100%的评分分别完全无关紧要。然后采样中间范围中的文档以确定确定边界的位置。削减导致了7000份被认为有关的文件,以进一步审查和不相关的余额。这是一个保守的判断,但大大减少了手动审查的文件数量。 使削减的文件编号为约7000个文件。与超过250,000多的起始池相比,这是一个可管理的数字。在披露之前,手动审查这些文件的特权和相关性。 

抽样结果
还对结果进行了质量审计流程,以验证等级相关性的有效性。这发生了多个星期。在压力下并不是一个匆忙的审计,而且仔细考虑过审查。对被视为无关的文件,手动审查20%的样品。从手动审查中,手动审查的1.7%的文件被判断相关,但因平等相关性而被归类为无关紧要。另一种以上被视为无关的文件中的98%以上被正确编码为无关紧要。

预测编码的标准不是完美的(即完美分类文件,与特定事项相关/无关)。该标准是可以证明结果是否有效。人类审查不是披露的金标准。 2010年研究*比较人力审查结果对计算机审查,发现计算机审查至少与手动审查一样准确。

相反,格罗斯曼的一项研究&Cormack **结束了“详尽的手工评论的神话是最有效的 - 因此,强烈驳斥了最卑微的文件审查方法。技术辅助审查可以(和确实)产生比详尽的手工评论更准确的结果,努力得多。“ 

在该研究中发现的特定过程是互动,采用计算机和人类投入的组合。该研究审议了他们审查了整个披露而不是批次的情况下手动评审员是否具有相同的错误率,并发现审阅者由于疲劳,疏忽,无聊和其他相关人类因素而倾向于错过“干草堆中的针头”。

成本影响& Limitations
据估计,为250,000件文件进行人体审查,需要数百万律师日,并且成本超过1,000,000英镑。 Equivio相关辅助审查的过程完成了这一成本的一小部分,并在更快的时间范围内完成。预测编码技术的明显局限性是它是一种文本分析。图纸,照片等与电子表格有局限性无效。

最佳实践
在电子披露过程中,使用预测编码软件的使用是从保存,收集,处理和其他初步审查和过滤阶段的下游。因此,旨在识别应用预测编码技术的判断文件的判断呼叫和技术的方法至关重要,因此坚固和可辩护。

预测编码是 律师LED.。该过程的有效性取决于进行抽样审查的人的能力。强烈建议,这个人应该是负责事项的责任。必须有一定程度的考虑质量控制检查。在大型数据集上,这将涉及从相关/非相关类别中审查的抽样和文件,并可能涉及迭代调整以提高预测编码结果的有效性。

法院预测编码技术的方法
在使用预测编码的情况下,有相当大的评论和某些案例研究(特别是美国),尽管迄今为止,任何司法管辖区都没有具体涉及预测编码的任何司法管辖区的单一判断。但是,在 Goodale v司法部,高级主人惠特克赞同预测编码的使用“本案”是应用程序现在拥有的软件的主要候选者,它可以将该材料复制并将其渲染到更合理的大小并通过计算机搜索它为人类评论制作可管理的语料库 - 当然是练习的最昂贵的部分。事实上,在审查时,我知道将有效地将每个文档的软件分解为它的可能相关性,并且它将在整个文档集中的优先级排序。“

新练习方向31BCPR 适用于2010年10月1日或之后的诉讼程序,具体涉及电子文件的披露。它包括一般原则,“应该使用技术,以确保有效且有效地进行文件管理活动。”此外,各方必须讨论应该被视为减少电子文件披露负担和成本的“工具和技术(如果有的话)” 其中包括使用“商定的软件工具”。这些规定明确表示,技术可能会在电子披露过程中雇用,始终遵循合理性和相称性的主要原因。

* 法律电子发现的文档分类:计算机分类与手动评论,草本植物Roitblat,Anne Kershaw和Patrick Oot,2010年1月
** 电子发现中的技术辅助审查可以比详尽的手工评论更有效,更有效,Maura R. Grossman& Gordon V. Cormack