朱新力:司法领域人工智能法律适用系统的回溯与突破

91百科网 63 0

数字法治

发行号:CN10-1879/D

点击图片购买本期

人工智能法律应用体系在司法领域的回顾与突破

文字| 朱新丽

浙江省高级人民法院副院长、法学博士

介绍

人工智能技术的深入应用,成为我国司法现代化的“船”和“桥”。 党的十八大以来,我国智慧法院建设正如火如荼地进行。 大数据、云计算、人工智能、区块链等新技术与法院业务不断融合创新。 试点工作数字化转型明显加快,取得丰硕成果。 其中,人工智能技术以语音识别、图像识别、数据分析等形式,广泛应用于多元纠纷解决和诉讼服务体系建设、互联网司法、审判辅助事务、审判管理等领域,智能化编目、智能交付和智能文档生成。 协助等场景应用不断涌现,以浙江“全域数字法院”改革为代表,逐步形成全流程智慧司法模式,有效减轻审判工作负担,提高办案质量和效率。 然而,上述数字化改革成果还远远不能涵盖人工智能技术为司法实践开辟的新质性力量。 如何实质性介入人工智能技术在法律应用中,用算法计算促进心智运动,在更高层次上实现智慧司法? 尽管这一前沿课题一直受到国内外学术界和实务界的高度关注,但它仍然是一个尚未解决的全球性问题。

一、发展简史

20世纪80年代之前,人工智能法律应用系统主要以基于“规则拆分-逻辑推演”构建路径的专家系统(ES)为代表。 其中具有代表性的是沃尔特·波普(Walter Popp)和伯恩哈德·施林克(Bernhard Schlink)共同开发的JUDITH法律推理系统,该系统采用“等级模型”来表达《德国民法典》的一些条款。

20世纪80年代后,人工智能法律应用的研究转向类似案件统计的方法论——相似性分析。 造成这种变化的主要原因是研究者发现基于法律条文的纯逻辑演绎的构建路径无法正确反映人类法官适用法律的过程。 因为法律规范中存在着广泛存在的法律概念需要价值填充,而在某些法律的适用过程中,法律规范的选择本身也需要价值权衡。 在案件事实与法律规定的匹配过程中,已经存在利益权衡。 近年来,国外发展起来的HYPO模型、CATO模型、GREBE模型等都被用来判断“商业秘密”是否有效。 它将构成要素以不同的方式表示为事实因素,从案例库中选择与待决案例相似的先例,然后输出论据和结论。

进入21世纪,人工智能法律研究将上述基于法律规则的推理模型与基于案例的推理模型相结合,重点关注综合法律论证计算模型(CMLA),在法律论证中引入论证之间的博弈场景,并利用非-单调逻辑和可废止原理取代了原来的单向谓词逻辑和命题逻辑。 最引人注目的是Brekwka、Gordon等人开发的Carneades模型,该模型用结构化图充分展示了支持论点和攻击论点之间的博弈关系。 该模型包括论证框架、论证可接受标准、证明标准和论证计划。 输出模板。

2020年以来,美国人工智能研究公司OPEN AI不断将自然语言处理Transformer模型迭代到GPT-4中。 以ChatGPT为代表的人工智能大语言模型及相关产品爆发式增长,开启了人工智能生成内容的新时代。 时代。 大语言模型是由具有数千亿浮点参数和海量数据的深度神经网络驱动的会话式人工智能系统。 经过海量大数据训练并反馈形成特征参数后,即可实现数据从输入端到输出端。 匹配过程。 与以往的自然语言处理模型相比,大语言模型在会话理解、在线记忆、逻辑链推理、实时学习等方面取得了重大突破,泛化和通用能力显着提升。 ChatGPT 的通用性和特定领域的专业要求之间的差距仍然需要通过专门的数据来弥合。 目前,医疗、教育、金融领域相继发展了各自的专业模式,但在人工智能法律应用领域还没有理论研究或成熟的实践产品。

我国司法实践也积极探索人工智能的法律应用。 近年来,浙江省高级人民法院“凤凰智慧审判”(2020年)、上海市高级人民法院“206上海刑事案件智能辅助办案系统”(2017年)、海南省高级人民法院“量刑标准化智能辅助办案系统”等开发了北京互联网法院、杭州互联网法院的《辅助办案系统》(2017)、《裁判文书智能生成系统》等应用。 总体来看,目前人工智能技术在我国司法领域的应用主要集中在“连接无纸化办公与OCR技术,自动形成案件纠纷焦点”、“根据当前案件的关键词自动推送类似案件”、 “自动识别分析基于类似案件,向办案法官提供量刑建议或偏差警告”、“裁判文书生成及文书纠错”等方面。

二、问题及原因

无法形成覆盖所有诉因的通用人工智能法律应用体系,是当前人工智能法律体系的主要问题。 不难发现,国外人工智能法律体系以及我国司法实践中开发的各类应用系统已经部分实现了自动化法律应用。 但无论是HYPO模型、CATO模型、GREBE模型还是国内的“凤凰智能审判”、“206上海刑事案件智能辅助办案系统”,都只能实现从输入案件事实到输出裁判参考的自动化流程。对于具体情况。 主要针对金融借款合同纠纷、民间借贷纠纷、机动车交通事故责任纠纷、盗窃、离婚纠纷等特定类型的简单案件。这些案件一般可以采用要素审判的方式审理,因此比较容易针对此类案件构建知识图谱,开发相应的人工智能法律应用系统。 由于每种具体案例的知识图谱都不相同,因此需要针对每种具体案例的系统分别进行人工标注。 其中,人工智能在法律应用领域的应用既有技术问题,也有基础理论问题。

朱新力:司法领域人工智能法律适用系统的回溯与突破 人工智能 大数据 法律适用 法律 文本分类 第1张

从技术方面来看,主要原因是司法大数据质量不高,知识图谱的构建需要大量的人工标注。 目前,用于构建人工智能法律应用系统的裁判文书数据的质量和数量与发展所需的全样本、高质量数据要求还存在差距。 目前人工智能在法律应用领域应用的主流做法是,人工归纳整理特定类型案件的裁判要素,然后构建高精度的知识图谱。 然而,目前的人工智能技术水平还无法从海量司法判决或其他法律材料中“自动”生成结构。 数据或生成的质量不高,需要手动校准。 知识图谱只能基于区分案例类型一一构建,严重依赖人工标注和人工排序。

从理论层面看,两大“认识论”作为思维方式,塑造了人工智能干预现有法律应用的底层逻辑,但与之分化的技术路径存在可扩展性缺陷。 人工智能本质上是一种现代信息技术,其主要任务是知识的表示、获取和应用。 认识论上的“理性主义”和“经验主义”在技术上表现为“决策树”和“人工神经网络”两种基本算法模型,构成了当前各类人工智能法律应用系统的基本路径。

“决策树”主要由两部分组成:知识库和推理机。 它以计算机可以识别、计算和推理的形式收集专家知识。 它辅以推理引擎来解决特定领域的问题。 产品的形式是针对问题的各种特定的专家系统。 其优点在于逻辑推导清晰易懂,但对于复杂的规则,需要大量的人力将法律规则组织成线性逻辑结构的“知识库”,而且由于法律规则的频繁变化和“维度诅咒”现象,因此基于此构建路径的人工智能法律应用系统扩展性较差。

“人工神经网络”是人工智能联结主义的典型体现。 它模仿大脑神经元对数据的复杂关系进行建模,以发现高维数据中的相关关系。 建模是通过为不同的人工神经元分配不同的权重来实现的。 权重代表当前人工神经元对另一个人工神经元的影响强度。 每个神经元被表征为一个特定的函数,根据上层神经元数据通过激励函数综合计算,然后输出一个新的“激励”或“抑制”值,进而影响下一个神经元。 每个神经元的具体权重分布是经过大数据训练后自动生成的。

人工神经网络作为底层逻辑构建的人工智能法律推理系统,也存在扩展性有限的问题。 虽然每个神经元的具体权重分布是经过大数据训练自动生成的,但在目前人工智能法律应用系统的构建中,每个神经元本身仍然需要人工汇总和整理。 例如,为了判断“商业秘密”是否成立,HYPO系统手动选择了“竞争优势”、“自愿披露”、“限制披露”和“采取的安全措施”等13个“维度”(神经元)。 最终判定“商业秘密”是否成立的这13个维度的权重可以接入机器学习,但维度的内容本身需要人工选择,系统无法自动迭代。

3、突破建设瓶颈

如前所述,当前人工智能技术中的决策树模型和神经网络模型虽然在法律应用领域取得了一定的成功,但无法构建通用的人工智能法律应用系统。 本文认为需要从以下两个方面进行突破。

(一)

创新人工智能法律应用基础理论:实体论预设与语言博弈论的消解

将人工智能运用到法律适用领域的根本目的,是让寻找适用于个案的“正确法律”的过程具体化、可视化、程式化。 从法律发展的历史来看,不同的法学流派对“正确的法律”有不同的理解,但普遍将其视为一种先验的、客观的“现实”。 古典自然法学派认为,“正确的法律”应该从人类理性中探索出来。 历史法学派指出,正义的法律源于特定民族的习惯、共同意识和民族信仰。 法律实证主义认为,现行法律制度的建立只能依靠经验。 不同的法学流派对“正确的法律”的具体形式有不同的理解,但都有一个共同的认识:“正确的法律是可以发现、研究或概括的客观存在”。 事实上,致力于寻找现实的思维范式已经代代相传,并对各个学科产生了深远的影响。 只有将扩展的自然对象定义为“物质实体”,才能形成现代物理主义世界观和唯物主义认识论。 人类的思维意识没有空间形式,但有时间序列。 为了解释意识在时间流动中的统一性,我们只能将精神现象具体化,并确定意识瞬间流动的背后仍然存在着一个“精神实体”。 与自然科学相对应的人文学科范畴被确立,只有这样,我们才能理解“人”如何成为“主体”。 笔者认为,现实主义预设是一种思维方式、世界观和方法论,它不仅深刻影响着对“正确法”的理解和塑造以及如何在法学领域探索“正确法”(法律方法论),而且也纵观整个思想脉络,从现实主义发展而来的人工智能象征主义和联结主义作为前端的思想源泉,以及决策树和人工神经网络模型作为技术外化的形式,都影响了人工智能在法律领域的应用。后端的字段。 具体形式。

从理论层面来看,这种本体论思维是当前人工智能技术无法扩展到统一法律应用领域中所有诉因的主要原因。 如何理解“正法”? 法律文本本身的语义需要人类意识来把握。 因此,无论是决策树模型的整体构建,还是人工神经网络中“维度”的选择,都采用了人工归纳、人工选择的方法。 前者希望通过概念的逻辑推导,构建法律文本语义与案件事实之间的准确关系,而后者的“维度”则是法律规则和各类裁判要素高度概括的产物。在类似的情况下。

然而,对于法律决策者如何正确地从文本中“获取”语义,目前并且在可预见的将来不会达成方法论共识。 自路德维希·维特根斯坦之后的语言哲学所谓“语言学转向”以来,学术界已经形成了较为广泛的共识,认为文本本身不能包含确定的、客观的语义。 例如,维特根斯坦主张“语言博弈论”,认为语言没有共同本质而只有“家族相似性”。 词语和句子的意义取决于它们在一定语境中的用法和规则,文本之外不存在客观现实。 “语义”。 用雅克·德里达的话说,这是一种“逻各斯中心主义”和“在场形而上学”。 语言文本之外总有一种关于“现实”或“在场”的理论。

笔者认为,在当前人工智能技术薄弱的水平下,人工智能法律应用的瓶颈应该被突破(至少在理论上)。 一方面,我们应该放弃对确定法律文本语义的追求,放弃语义实在论的立场,剥离语言与经验世界的对应关系,在人工智能法律应用领域采用“语言博弈论” ,并强调文本相对于语义的优越性。 承认文本的含义源自文本本身。 另一方面,法律思维是通过纯文本(单词、句子、段落、章节和其他字符)模仿来表达的。 事实上,如果将表达法律文本的语言视为符号,那么人类作为一个整体输入和输出的符号数量不可能是无限的。 这样构建的人工智能法律应用系统的结果仍然是数据输入和数据输出的关系,但省略了对法律文本语义的概括。 通过历史和以往的文字结构模拟法律思维或语言,对具体法律问题的文本做出反应,输出相应的语言数量链。

构建上述人工智能法律应用体系至少分为三个步骤。 第一步对语料文本和待比较文本进行自然语言处理操作,包括语音识别、光学字符识别形成可编辑文本、中文词性标注、命名实体识别、词法分析、信息提取、句法分析和文本分类。 、语义分析等; 第二步,利用OWL技术形成待比较文本信息、样本法律文本和一般知识三个本体; 第三步,将样本文本与待比较文本进行比较,确定数据库中哪些字符相同或相似,以及对应的字符级反应,即数据库中还存在哪些其他文本或语言数量,以及以什么顺序触发某些文本或语言数量。

本体论预设的消解以及本文提出的“语言博弈论”,从某种意义上说,为以ChatGPT为代表的大语言模型在法律应用领域的应用提供了理论辩护。 值得注意的是,这是弱人工智能视角下的解决方案。 其实现仍有很多细节需要完善,遵循从小数据到大数据逐步发展的过程。

(二)

优化人工智能法律应用体系,构建生态系统

认知计算主义、具身认知理论以及第三代人工智能技术的兴起,为强人工智能指明了重要发展路径。 真正的全领域专用法律人工智能系统值得期待。 尽管如此,目前人工智能技术界对整个法律行业的了解还不够深入。 笔者认为,人工智能与法律的关系不是一种单向供给关系,也不是简单的“应用-反馈”实验关系。 作为法律从业者和法律研究者,在期待现有人工智能技术进一步完善、“通用性强的人工智能技术”出现的同时,如果我们承认法律思维与社会生活其他领域相比有其自身的特点,我们要积极参与人工智能技术本身的发展,在人工智能技术研发的前端贡献专业知识。 一是进一步加强人工智能法律应用的基础理论研究,为人工智能技术人员、法律研究者和法律实践者提供交流对话的场域。 二是深化“人工智能与法律”跨学科交流对话,加强“法律+人工智能”复合型人才培养,推动人工智能专业与法学专业深入对话,培养跨学科综合型人才人才。 三是要加强法律学术界和实务界对法律人工智能产品算法设计的共创,提高法律学术界和实务界对人工智能算法设计的参与程度产品。 四是进一步提高司法大数据供给质量和数量,进一步加快智慧法院建设,拓展人工智能法律发展视野,开辟“人工智能产品开发专用司法数据池”,探索从更高的数据维度对现有的司法大数据进行分析。 使用价值。

标签: 人工智能 大数据 法律适用 法律 文本分类

发表评论 (已有1条评论)

评论列表