对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点

智东西(公众号:zhidxcom)
文 | 心缘

智东西9月17日报道,如今以人工智能、区块链为代表的新兴信息技术正渗透到越来越多的行业,法律业亦如是。

过去数年,全国诉求需求暴涨迅猛,给律师、法官等法律界专业人士带来更多负担,如何提高效率成当务之急。

在立法、守法、执法、司法四大体系中,存在大量重复性、低价值、可标准化的流程,比如卷宗信息自动归目、有效证据提取分析等,这些环节可以通过大数据、人工智能(AI)等信息技术带来效率和体验上的飞跃。

而满足法律对信息化的诉求,需要既懂科技、又了解法律的企业,像华宇这样的法律科技行业巨头应运而生。

就在上周日,华宇举办了一场2020法律科技大会,现场分享其面向法律行业的十大创新技术,并探讨法律科技的发展方向和未来机遇。

大会期间,北京华宇信息技术有限公司副总经理、北京华宇软件股份有限公司CTO孙明东接受了智东西等少数媒体的采访,就华宇的核心技术布局和应用硕果、人工智能在法律行业落地的差异化需求、法律科技的当前发展水平和面临挑战进行深入交流。

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点 ▲北京华宇信息技术有限公司副总经理、北京华宇软件股份有限公司CTO孙明东

一、疫情催化法律行业的数字化智能化普及

英国伦敦法律顾问公司Jomati Consultants在一项研究《文明2030:不久将来的律所》中提出,在15年内,机器人和AI将会主导法律实践,也许将给律所带来“结构性坍塌”,法律服务市场的面貌将大为改观。

一方面,迅猛增长的诉讼需求使法律行业空前承压;另一方面,AI等新兴技术带来了优化业务的效率的可行方案。在行业需求和技术发展的双重驱动下,法律服务正走向智能化、自动化。

深耕法律科技近20年的华宇尤其感受到这种变化。

据华宇软件CTO孙明东介绍,华宇一直尝试通过信息化技术,实现法律业务的流程化、规范化。

最初华宇的法律科技业务从做审判管理起步,主要搭建对内服务法官、检查官的单一数据管理系统。而随着移动互联网、大数据、AI等新兴信息技术浪潮的涌来,法律科技的范畴逐渐拓展到从法律检索、文件审阅、证据分析、提供量刑建议、案件结果预测等诸多应用场景。

今年的疫情尤其催化了法律数字化、智能化的普及。

由于疫情期间线下活动不便,依托大数据、人工智能的中国移动微法院应用为人们提供了很多便利,它能帮助人们在网上完成立案、审判、执行等全流程、全业务电子诉讼服务。

同样受疫情影响,人们无法到法院开庭,互联网庭审趋于流行。当事人、代理人、法官等都在各自的电脑前,很多背景比较家居,与法庭以往庄严肃穆的格调不符。而通过AI虚拟背景替换,这些参与者的背景可以被切换成庄严的虚拟法庭场景。 

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点▲法律科技创新的关键技术和典型应用

与其他行业相比,法律业务场景中充斥着浩繁的卷宗,这使得法律人工智能面临数据方面的独特挑战。

法律卷宗通常为扫描件,有证据图片、合同、欠条、收据、营业执照、律师证等等,对这些数据进行OCR文字识别,会面临卷宗中存在大量图钉、指纹、印发体和手写体混合排版、黑边、噪点等挑战。相较常规的OCR技术,应用于法律行业的OCR文字识别需要具备更强的技术能力。

孙明东告诉我们,在法律科技领域,技术的价值最终体现在业务上的创新,业务创新主要体现在应用创新、产品创新、服务创新上,而技术创新是业务创新的原动力。

也正是基于这一观点,华宇一直兼顾法律科技的创新以及与业务需求的紧密结合。

截至目前,华宇2018年推出的法律人工智能平台,已经为法律行业提供110+业务应用场景的203个智能点支持,应用于全国24个省、自治区、直辖市的1000余家客户单位。

在今年疫情期间,华宇推出的云间互联网视频一体化法律服务平台,已助力全国法院累计开庭次数超过36W+,开庭时长超过35W+小时,开通服务的包括最高人民法院及31个省(自治区、直辖市)2517家法院、13844间法庭。

二、华宇的核心优势:懂法律,还懂技术

孙明东谈到,IT人与法律的沟通是长期的挑战,一个是自然科学,一个是人文社会科学,要将两者对接起来并非易事。

为此,华宇于四年前成立了法律人工智能研究院,成员中既有法官、检察官、律师等从一线来的法律界专家,也有IT、人工智能领域的专家。将两类专家聚集在一起后,IT专家能够理解法律的业务,再转换成规则、逻辑,为法律人工智能提供更好的技术支撑。

“我们用最先进的技术在解决最传统的问题。”孙明东说。

基于近20年在法律科技领域的积累,华宇建立了自己的知识体系,在法律场景的广度与深度上深入钻研,具备将核心技术快速迭代和应用到法律特定业务场景中的能力。 

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点▲华宇典型应用技术顶层架构(2020版)

为了满足不同法律部门的诉求,华宇深入了解上下游相关部门的特殊需求,形成了不同场景的个性化方案。

针对法院行业,华宇打造了“人民法院大数据管理和服务平台”,全面覆盖了全国3500多家的法院,服务全国12万名法官。

针对地方级法院,华宇联合北京法院打造了“睿法官”,用AI模拟真正的法官思考,代替法官完成一系列伴随式、精准式司法审判事务性工作,让法官将更多时间精力投入到司法审判工作。

针对检务工作,华宇基于大数据和AI技术研发了智能办案辅助系统,在北京、贵州、浙江、湖北、广东等地均已落地应用;其自主研发的智能证据审查技术,可有效辅助检察官通过技术手段审查证据。

针对司法行政,华宇深度参与司法部“数字法治、智慧司法”信息化新体系的研究与制定,以智慧调解大数据应用率先打造“数字法治、智慧司法”的第一个示范性业务升级模板。

此外,华宇还与北大英华,以及百度、阿里、腾讯等公司合作,将在司法领域打造的产品和解决方案,向立法、执法、守法、监察等法律相关领域延伸,希望可以打造一个贯通和连接各个法律机关、人员和活动的法律科技网络,为新一代法律服务提供基础技术支撑。

为了推进法律科技生态建设,华宇搭建了一体化法律服务平台,深度融合5G、AI、大数据、互联网、区块链等技术,形成连接立法、司法、执法、守法全领域、全场景的法律科技网络。

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点▲华宇一体化法律服务平台

其核心的法律人工智能平台包含四部分,分别是华宇区块链平台“智链”、华宇大数据管理平台“睿元”、华宇人工智能认知平台“睿核”和华宇人工智能感知平台“智核”。

其中,“智核”侧重感知,包括OCR、语音识别、视频分析、虚拟背景替换等技术;“睿核”侧重感知,主要是华宇元典团队做的知识图谱构建,可实现让计算机理解法律文书、案件推荐、量刑参考等能力。

同时,基于区块链的可信数据及可信计算环境,连通了公检法司、政法委及外部协作权威机构,形成了连接2G、2B、2C的各个场景、覆盖全行业的司法高可信业务协同生态体系,为法律科技生态建设奠定基础。

在华宇看来,围绕该平台“产学研用”展开创新,并加强法律科技人才培养,将有助于形成开放、合作共赢的生态。 

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点▲构建开放、合作、共赢的法律科技生态

三、华宇法律科技十大创新技术

华宇在法律科技领域输出的上述成果,均建立在其核心技术的基础之上。 

华宇研究院(北京及上海分院)多年来专注于前沿技术的创新研究工作,其配置的6大实验室——信创实验室、2048实验室、多媒体实验室、大数据实验室 、云计算实验室、移动安全实验室——均在法律科技相关技术方面取得了重要成果。

经过多年持续发力技术领域,如今华宇已经重点突破了面向法律行业的多项技术瓶颈,形成了专属的法律科技十大创新技术。 

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点▲法律科技创新的关键技术和典型应用

1、法律知识图谱技术

知识图谱对于防止冤假错案大有裨益。基于中国裁判文书网实时更新的文本,针对高达9000多万篇文书,华宇利用自然语言处理、知识图谱等技术将法律知识点构建成完整的法律知识中心,使机器认知法律概念、模拟法律推理。

孙明东介绍说,通过将新的案情与历史案情进行参考分析,机器可以为相对缺乏判案经验的年轻法官提供精准的量刑参考,也能让法官的自由裁量范围有所收窄。

知识中心涵盖法律要素(知识)数量超过1.9万项,实现了对公、检、法、司、仲裁等多个行业100多类文书进行信息项提取。

2、基于法律行业的OCR文字识别技术

在司法领域,华宇材料及文字识别技术重点在卷宗自动归目及智能编目、信息回填、智能阅卷、卷宗优化及卷宗巡查等场景进行了深度应用。 华宇基于AI深度学习算法,利用图像分析、字符识别等技术,对材料中的图片内容分析处理。

目前其材料识别技术支持识别6700余类材料,其ICR技术可有效地对材料中红章、手印、二维码、头像等20余类关键目标进行检测提取;边缘检测法、虚拟化检测法、图像增强等技术可优化处理材料的黑边、空白页、像素低、噪点等问题,综合识别准确率不低于98%。

3、基于特征的图像视频识别技术

华宇视频识别和行为分析技术实现了庭审视频巡查、讯问行为监控、监所视频行为监控等功能,可对人体的1825个关节点信息运作进行识别,并可结合目标检测策略(基于改进后的Yolo v3架构)完成特定目标的检测、特定场景异常行为检测与预警等12类行为检测。

对未穿法袍、迟到、离席、人数不足等20-30种庭审违规内容巡查,华宇视频识别技术的识别准确率在97%以上;对下蹲、坐着、站立、举手、打电话、抽烟、冲突、摔倒等监所、讯问危险动作和异常行为的识别预警,准确率达到85%以上。

4、多场景多语种司法语音识别技术

华宇语音识别技术重点在审委会、庭审语音笔录转写等场景进行了深度应用,通过国家评测中心(CNAS)认证识别率达到98%,转写效率小于100ms

具体而言,该技术重点攻克了人名、地名、法律法规等热词的准确识别,1小时音频在10分钟左右转写完成,在司法特定普通话场景识别上准确率高达98%以上;同时支持四川、河南等20多个省的方言口音,对藏语、维语等少数民族语音识别率为85%以上。

5、面向行业的多元审判虚拟现实技术

华宇多元审判虚拟现实技术重点在虚拟法庭、互联网庭审(云庭)等场景进行了应用。 

基于深度学习的轻量级分割模型,华宇让线上虚拟法庭可以完成庭审视频中人体图像与背景的分割,人像分割在包含4万张人像分割数据的开源数据集上的准确率达97%,并虚拟化呈现国徽、法庭、席位人员名称,构建出严肃、认真的线上庭审环境,同时结合远程视频会议加入多方当事人,可满足多种环境下的虚拟法庭需求。

6、海量多元异构法律数据深度融合与管理技术

基于海量多元异构法律数据的深度融合与管理技术,华宇在司法领域实现了多源数据中人物主数据实体的深度关联融合与关联关系构建,有效提升数据利用价值。 

该技术可自动化数据资源的采、存、管、通,实现了从数据集成调度、存储监控,到数据资源目标管理、元数据管理、主数据管理、再到数据质量管理、数据安全管理、平台运维管理的数据全生命周期管理。

比如,基于融合规则的自动化数据融合技术,提升了适应复杂数据融合场景的融合规则准确性,以及增量数据融合技术和亿级以上数据量级的融合性能,可应用于法院大数据智慧画像当事人画像、智能报表系统、检务决策系统、检察官业绩考评系统、大数据辅助民事诉讼监督、监狱罪犯画像、监察委情报分析系统等产品。

今年,华宇推出第三代审判管理系统。据孙明东介绍,华宇每年都会投入几千万元来推进此类产品的研发,目前已投入大约三四年,现在正逐步为客户上线,从今年底到明年,这些系统将会大范围、大面积的铺开。

7PB级数据高性能高可靠存储计算技术

基于MPP+Hadoop混合技术架构,华宇实现了结构化数据、文件数据、日志数据、互联网数据、音视频等各类型数据的高性能、高可靠存储和计算;实时的数据存储计算组件,可支撑高并发流式数据实时存储和计算;支持从GB到PB级数据量快速查询与分析;高可扩展性,可灵活增加集群节点数量,线性提高系统处理能力;并支持存储计算组件的统一可视化运维管理。

在该技术的支持下,华宇助力最高人民法院建设的跨层级、跨地域、跨系统、跨部门、跨业务的大数据管理和服务平台,每5分钟动态汇聚全国3502家各级法院的案件、文书和卷宗信息,按月、按年自动生成570万张报表,实现了司法统计历史上报表数量最多、一次性服务单位最多、生成效率最快等“三个之最”。

目前该平台已累计汇聚全国法院1.99亿件案件信息、4.38亿份文书、6494万份电子卷宗、3367万份电子档案、其他数据4.5亿条,成为全世界最大的审判信息资源库。

8、潜在与隐形法律实体关系智能发现技术

基于法律知识图谱,华宇在海量的数据中逐步挖掘潜在的与隐形的法律实体关系,包括全量的“人-案-律师-企业-法官-法院……”等的关联关系,逐步构建完整的证据链条、实体画像等,使得虚假诉讼智能发现、证据智能审查等机器智能变成可能。

通过机器智能辅助审查,自动拆分待审事实,提取待审证据,可降低60%的法官审查时间。

9、面向司法审判闭环的个性化知识智能辅助技术

基于知识辅助技术,华宇在刑事案件办理中根据案情进行智能化量刑分析,实现了对400多万公开刑事裁判文书全面挖掘分析,推送具有类似量刑情节的量刑结果和真实案例,并提供分析报告。

目前,华宇基于知识图谱的量刑建议在最常见的10种刑事案件量刑分析准确率高达90%。 法律知识图谱可实现面向用户的基于案情的个性化司法知识辅助推荐(法律智库),覆盖案件审理全过程,包括案例推荐、法条推荐等10多个辅助应用。

10、基于跨专业语言表达的法律思维智能交互技术

华宇基于跨专业语言表达的法律思维智能交互技术主要应用于法律文本解析、文书智能服务等产品。 

司法领域不同的人员和群体的表达方式不同,可能会造成表达措辞不一致。基于法律知识图谱的司法语言自动理解解决了该问题,为文书智能生成、智能问答、诉讼材料智能生成等智能应用逐步专业化提供了支撑。

四、正推进新的人才机制和培养计划

孙明东总结说,华宇推出产品中的大部分技术均为华宇自研,除了上述提及的十大核心技术外,PaaS层的中间件、统计身份认证等等均为华宇自研,华宇也同生态伙伴广泛合作。

为了培养更多法律与科技复合型人才,华宇也正在推进一系列新的人才机制和培养计划。

目前华宇已形成以CTO孙明东、副总经理米坤、华宇元典总经理邹劭坤、研究院副院长沈来信等为代表的法律科技专家团队,发展至今华宇已经拥有超7000名具备法律知识背景的员工。

华宇与清华大学、北京大学、中国政法大学等全国十几所高校进行了深度合作,例如与清华大学合作成立法律大数据研究中心,与北京大学合作成立法律人工智能实验室,以及与政法大学、人民大学、四川大学、东南大学、大连理工和北京交通大学开展课题研究等。 

对话华宇软件CTO孙明东:解读十大技术创新,用AI破解传统法律痛点▲法律科技未来的主要发展趋势

谈及今后法律科技的发展,孙明东认为,未来五至十年,大数据平台和人工智能将是两个关键的技术发力点。

华宇新一代大数据平台将汇聚更多的数据做融合,做成知识图谱,对上层提供更有业务价值的数据服务。

人工智能的研究将不限于OCR、语音识别、人脸识别等感知技术,华宇还将在认知技术方面进行更多投入,比如辅助法官判案子、编写文书、做量刑决策等。

结语:数字法治建设正在提速

法律科技正搭建起法治中国的新一代基础设施,尤其在今年疫情的催化下,线上查案、庭审等新形态的业务模式层出不穷,人工智能、大数据等新一代信息技术正为法律行业注入更多新鲜的技术血液,提供更多的能力支撑和智能服务。

以往可能需要10个实习生去做的工作,AI几分钟内就能完成,诸如此类的效率提升为法律行业带来了许多业务工作流程的优化。

如今我国法治建设正高速发展,持续增长的业务需求亟待更多技术创新的参与。法律科技基础设施的建设,既离不开信息基础设施巨头,也需要像华宇这样长期深耕法律科技的行业专家,将技术与科技做深度融合,针对法律行业的刚需提供行之有效的增效方法,推动法律业务走向高效化、标准化。

由于涉及的业务场景相对复杂,法律科技的推进是一个漫长的过程,孙明东坦言,要让计算机完全覆盖到法律传统问题的方方面面,实现起来难度很大。