Clifford Chance的数据科学实验室已经发表了我们所理解的法律数据科学领域的第一篇科学论文。本文研究了长期法律监督的文档分类,当前模型对输入文本的长度施加的限制以及如何改善结果。

该论文由数据科学负责人Mirko Bernardoni发布。数据科学家George Papageorgiou;高级机器学习工程师顾问Michael Seddon;和数据科学家Wan Lulu。

伯纳多尼在向《法律IT内幕人士》讲话时说:“当您进行伦敦银行同业拆息,英国脱欧或银行业务时,您总是以律师的身份处理数十万份文件。通常,这是一场噩梦。您最终得到了许多不同的文件。例如,在银团贷款中,它可能会运行10年,并且您可能有10个不同的文件。您可能要解决的第一个问题是将相关文档和文件分组,以便您可以使用机器学习工具提取实体。

“在本文中,我们专注于初始阶段:我拥有大量文档;我不知道他们在哪里。我要确定的是银团贷款,这是另一种类型的贷款。我不会在文件名中查找内容,而是在内容中查找,我们需要对其进行分类。”

具体来说,该论文表明,将文本分为两部分,并将结果与​​BiLSTM体系结构结合以形成单个文档嵌入可以改善结果。

科学论文经过审查,必须提供全新的信息或提出针对现有问题的新解决方案。伯纳多尼说:“我们认为最好以更加开放的理念来回报一些东西,当然,您获得的是一点点权威,当您谈论克利福德机会时,就可以证明我们知道我们在做什么。” ”他在观察中引起了整个法律界的共鸣,他补充说:“我们在AI世界中注意到的一件事是,有许多公司确实助长了他们正在做的谣言。‘真实的东西。’通常他们的UI不错,但幕后一无所有。”

您可以在这里阅读论文: //arxiv.org/abs/1912.06905