竹间智能简仁贤:“大语言模型+知识+应用”,自然语言技术推动软件范式变革丨GTIC 2023

智东西(公众号:zhidxcom)
编辑 |  GTIC

智东西4月18日报道,在刚刚落幕的GTIC 2023中国AIGC创新峰会上,竹间智能创始人兼CEO简仁贤进行了主题为《如何加速AGI通用人工智能在企业落地的到来?》的演讲。简仁贤从技术创造实际价值的角度解读了企业在落地AGI的过程中所面临的挑战,以及可行的落地路径和策略。

简仁贤说道,基于大型语言模型的产品将成为通用人工智能的操作系统,并且将分裂为“两个世界”,一个是由OpenAI和微软主导的闭源世界,另一个是由Deepmind和谷歌主导的开源世界。他指出,中国的创业公司将成为开源模型的最大受益者,因为小型创业公司具备更强的创新能力,而大公司拥有更充足的资源和资本,所以创业公司和大公司之间的结合将使得创新更加规模化,并呈现“百花齐放”的局面。

未来的软件范式将是由自然语言技术驱动应用,形成“大语言模型+知识+应用”的新模式。他认为,模型与用户之间存在着鸿沟,需要产品来做桥梁,没有产品的模型无法体现实际价值,因此他主导更具可商用性的“模型即应用”(MaaA)模式。

大语言模型的出现将催生全新的软件产业,数以千计基于大模型和生成式AI的应用的公司将涌现出来。未来将是“应用为王”的时代,模型将成为应用的基本组成部分。基于大模型的应用能够提高白领工作者的生产力与创造力,减少每日工作时间,从而提高幸福感。客户服务自动化、虚拟助手、知识管理和员工培训这四个应用场景将首先被颠覆,大模型应用能够从这四个方面来提高企业的运营效率,迅速创造价值。

简仁贤提出了一种方法来平衡大型语言模型和小型语言模型的优缺点,他称之为“自然语言双引擎”,由小型自然语言处理模型、知识模型和大型模型构成。小型模型可以加强大型模型的可控性、可追溯性和可解释性,目前,竹间智能主力产品——四大平台全面以大语言模型和生成生成式AI为核心技术,加上可商用化的模型工厂平台,为企业提供较低成本的大模型产品和解决方案。

以下为简仁贤的演讲实录:   

大家下午好!前面听了非常多的专家们在大模型、ChatGPT、机器学习、深度学习等技术方面进行分享,下面我不讲技术,而是探讨一些更实际的问题。

一、研究如何复制OpenAI不重要,让技术产生价值更重要

ChatGPT已经成为新一代AI代名词,也是未来AGI的代名词。以十年的跨度来看,我们聊ChatGPT就等于是聊AI的未来。那么,类似ChatGPT的大模型技术如何能够落地?大家听了很多ChatGPT的故事,有许多人一直在做反向工程研究,想知道如何复制OpenAI和ChatGPT,想了解背后的原理,可当大家都还在钻研这些问题的时候,GPT-4出现了,斯坦福大学的Alpaca模型出现了,几乎每过两三天就会有AI科技和产品的爆炸性新闻传来,因此我们已经没有时间去回溯,更重要的是思考未来的技术,如何克服大模型的缺点,把精力和资源放在商用化和模型工程上。怎么利用这个技术,让它为我们产生价值?不要再去想复制一个OpenAI,应该去考虑怎么样顺应趋势、如何运用技术去为未来创造更多的价值。

ChatGPT的用户数增长创造了记录,上线两个月活跃用户就突破了1亿,现在每天都有上亿的用户在使用,而相关的使用数据从去年12月份到现在,不断反馈给OpenAI,让它一直打磨模型,于是模型能力和Prompt(提示)性能越来越强。

大家知道GPT-4是2022年8月完成训练的,它所用的数据集截止到2021年9月,整体花费了很多精力才推出来,是一项非常大的工程。那我们看一下它到底能够做什么。在此之前,先给大家介绍一款竹间打造的、使用起来很方便的AIGC产品“灵感闪写”,我用“闪写”为今天的演讲生成了一篇演讲稿,而且前几天在中东做演讲,我也用它生成了英文演讲稿。

给大家看一下我是怎么生成的——“闪写”里面有非常多的模板,我们的目标是打造上千个模板,给不同人群使用。全中国大概有2.5亿白领,都需要这些模板。我把今天演讲的题目和三个大纲输入进去,当然它也可以生成大纲,最后这个产品输出的演讲稿和我今天要讲的内容其实差不多,包括ChatGPT将带来的红利、ChatGPT能给企业带来的好处、ChatGPT在企业落地的挑战、它在企业落地的实用场景等。

竹间智能简仁贤:“大语言模型+知识+应用”,自然语言技术推动软件范式变革丨GTIC 2023

二、ChatGPT聪明,创新源自创业公司

那么,我们是不是都认同大模型?AGI的起点是不是已经到来了?通用人工智能到底是不是我们期望的未来?

我们先来了解一个事实:ChatGPT比人类更聪明。当然,把所有的人类加起来,它比不过,可是如果拿地球上的每一个个体来比较,它就是最聪明的。美国高中生要考AP,而ChatGPT考多科AP的成绩可以得满分5分,AP得满分相当于大一学生的水平了,另外ChatGPT考LSAT法学院入学测试得分在90%以上,还可以通过美国律师资格考试Bar Exam。如果用高考来测试它,我估计它可以考550分左右。人类里面,没有哪一个人可以单独同时应对这些考试并取得高分。

美国超过80%的学生已经在用ChatGPT了,我有一个朋友的孩子想到我们公司来实习。他是一名攻读机器学习方向的名校的研究生,会写Prompt(提示),会用ChatGPT。并且他们整个机器学习小组都在用ChatGPT,他表示现在已经回不到没有ChatGPT的日子了。可见,对于机器学习研究来说,ChatGPT的帮助有多大。

很多美国的老师被迫用ChatGPT,因为学生也在用。但是ChatGPT对老师有什么好处?在座的可能有老师,教授,应该知道ChatGPT可以做什么——它可以帮你出题、改作业、写评论,增加与学生沟通的效率。美国有老师用ChatGPT来分析自己所在区域的学生对哪些题目最不熟悉,然后就用这些题目来考他们。一周前有一篇报道,讲的是香港科技大学的黄教授宣布用ChatGPT写作业可以加分。它在教育界的影响已经非常大了。

因此,我认为,ChatGPT这样的产品会是未来AGI的操作系统。ChatGPT由两部分组成,它不是一个模型,而是一个产品,它把对话跟大模型结合,使得人类和模型可以交流,让模型为人所用。

语言模型的技术其实已经存在了二三十年了,很多人都可以做模型,为什么达不到ChatGPT这种火爆程度?OpenAI和ChatGPT这样的组合未来会发展成什么样?美国不开放给我们用怎么办?这个世界会产生多大的变化?我的猜测是,这对全中国的创业公司会是一大福音。

模型软件的生态会有两个世界,一个是OpenAI+微软的闭源世界,另一个是DeepMind+谷歌和Meta的开源世界。未来,微软和OpenAI会像现在一样继续闭源,就像iOS模式。DeepMind和谷歌加上Meta则会继续开源。谷歌和Meta都已经开源了很强的大模型,这就类似于安卓的模式。

竹间智能简仁贤:“大语言模型+知识+应用”,自然语言技术推动软件范式变革丨GTIC 2023

创新是从创业公司开始的,这句话是真理。OpenAI做出了GPT系列,它本身也是一家创业公司,一百多人做出来GPT,有了成效之后,微软投入大量的资源和巨额的资金,才有今天的GPT-4。大公司有钱有资源,但是没有OpenAI这样的创新能力。OpenAI的GPT当时也是由他们团队里的成员研发出来的,等到需要算力和资金的时候,大公司再进场,这就是典型的创业公司引领创新的意义。

未来每周、每个月可能都有更多的开源模型问世,也会有更优化的训练技术,让大模型的训练成本大大降低,通用数据会更方便取得,这样一来,创业公司的模型技术能力将得以跟大公司拉平,甚至超越大公司。

在模型领域,国内会呈现百花齐放的局面,创业公司不断用大模型来打造一些创新的产品,满足大家的期待。未来的软件范式是自然语言技术驱动应用,大模型的通用能力很强,但是也有局限,这些需要持续去优化和克服。

三、大模型+知识+应用才能体现价值

ChatGPT将给企业带来巨大的红利,这些红利在哪里?怎么产生?先来了解一个事实:用户和模型之间存在巨大的鸿沟。谷歌与DeepMind在 2017年就发布了《Attention is All You Need》,推出了Transformer,但没有多少人真正用到Transformer,也没有多少人用到GPT-3,因为没有产品。而ChatGPT最伟大之处是在模型和用户之间架设了桥梁,这个桥梁就是产品,让大多数的普通人都能够用得到,这个模型才有价值。

无法产品化和商用化的大模型毫无价值。例如,有人说自己做了一个万亿参数的模型,并且可以把模型尺寸压缩到很小,这些毫无价值,有价值的是这个模型能够变成产品。所以我们倡导的不是MaaS(模型即服务)——你只给出一个API,并没有价值,能够开创软件的新范式才有价值,就像ChatGPT可以通过与人沟通完成任务。

LLM(大语言模型)、Knowledge(知识)、Application(应用)三者加起来才能构建软件的全新定义。对于新的软件范式来说,只有模型是不够的。我预测一年之后模型不那么值钱了,所有大公司、小公司都会先基于开源模型来开发。未来,应用为王,会出现成千上万基于大模型的应用,这些状况现在已经露出苗头了,等到今年年底回头来看,可能诞生了500个应用,每个应用都在解决一个细分问题。

竹间智能简仁贤:“大语言模型+知识+应用”,自然语言技术推动软件范式变革丨GTIC 2023

那么,这对企业有什么好处?我这边列出几个好处,包括减轻行政负担、提高运营效率、提升客户体验、在内部优化数字员工、减少沟通障碍、提高沟通效率、提高咨询和查询的效率、人机协同等等。

具体说几个场景,比如我们写邮件,有时会让人误解部分文字。经过AI修改后,就可以让文章变得更清晰、更通畅,让大家都明白字里行间的意思,这是生成式AI的最大特点。高质量的训练数据投入模型之后,再加上一些知识,能更好地辅助你写东西。我刚才讲的用“闪写”生成的演讲稿,里面融入的知识都是正确的。

再来看提高咨询和查询的效率——你必须花费一些时间来询问及查找答案,但通过ChatGPT马上就可以得到答案,搜索引擎不再是人们所依赖的获得知识的方式。搜索引擎从今天开始就要被颠覆掉了,如果大家有机会用到New Bing的Chat功能就明白我的意思,它可以直接给你所需要的答案,而不是一推垃圾广告或蓝色链接。当你使用传统搜索引擎检索,然后阅读每个网页,最后找出来的内容可能比ChatGPT给你的内容还差,而且你看到的前几个,甚至第一页搜索结果都是广告。

人机协同则意味着,人能够跟模型对话,让它产出你想要的东西,一起完成一个任务,或者一起完成一项工作,这些是透过自然语言来达成的。

在提高企业运营效率方面,首先,客户服务自动化会出现替代的现象,换上更强大的智能客服。假如还在靠语料、规则或人为修改关键词,那肯定全都要被换掉。

其次,虚拟助手可以集成到企业系统当中,ChatGPT可以担当HR助理、产品助理、物流助理、班车助理等,这些全部都可以集成进去。竹间的KKbot就是一款基于大语言通用模型的对话系统,你用自己的数据就可以做出一个ChatGPT的对话机器人。别人向它提问,它会用你给的内容来回答。

第三,知识管理可以将企业的知识释放出来,竹间的Knowledge Factory通过大模型解析所有的文档,来构建庞大的知识图谱。整个过程比以前更快,以前需要六个月的时间,现在可能六小时就可以做到了。企业用自己的知识图谱赋能业务系统,就可以形成完整的知识管理体系,这样企业的知识就留在自己的大模型中,然后重复训练,重复应用,企业的Know-How(技术诀窍)就会越来越强。

第四,员工培训。ChatGPT是很好的学习工具和训练工具,那么竹间有一个Emoti Coach智能培训系统,由大语言模型和生成式AI驱动,AI教练凭借实战演练来训练学员,效果比被动式的e-learning强10倍。因此,有了大模型的助力,未来所有的e-learning培训软件都将被颠覆掉。

四、ChatGPT落地面临五大挑战,大小模型混合匹配赋能垂直行业

ChatGPT落地的挑战有哪些?

第一,训练和部署的成本很高,企业自己搭建并训练一个大模型不切实际。

第二,需要大量的数据进行训练。参数量越多,需要的数据越多,这才能够达到高参数量应有的大模型效果,这个原理大家都知道。当你有一千多亿的参数,但数据只有一点点,是达不到理想效果的。

第三,需要大量的GPU做训练,训练完还要做推理,推理需要的GPU比较少一点,但是这样庞大的计算量,怎样才能实现规模化?很少公司买得起大量的GPU,并且买了GPU后还需要维护。另外,数据中心存放在哪里?这些都是问题。

第四,企业的私有数据不能传到云端。所有的互联网公司做出来的大模型都说可以赋能企业,但企业很多私密数据是不能上传云端的。我们服务的200多家金融业客户中,包括银行、保险、证券、基金,没有一家允许上传私有数据,法规不允许。安全、保密性和个人隐私是企业采用大模型和生成式AI必须要重视的。

第五,企业很难找到厉害的算法科学家和工程师,人才太稀缺了。

对于竹间智能而言,由于ChatGPT的火爆,整个市场突然扩大了起来,因为广大群众都已经被ChatGPT掀起的浪潮教育了,大家已经能体验到语言模型的超强能力,我们就不需要再去教育用户了。

同样,很多企业的高管和项目组都被ChatGPT、OpenAI教育过,他们知道原来大模型可以做到这样的程度,以前我们要花很长时间去教育客户,现在也不用了。自然语言理解的市场需求从现在开始巨量爆发,全球范围内的市场都被激活了。

竹间智能是做自然语言处理起家的,从十几亿参数的模型到一两千亿参数的模型都有涉猎。企业需要的并不是ChatGPT,也不可能在企业内部部署一个ChatGPT,企业需要合适的大模型,而合适的大模型可能一两百亿参数就足够了。

斯坦福大学最新发布的Alpaca模型,用一张GPU就能完成训练。我们预测六个月之后,算力需求会越来越小,训练模型的技术会更创新,压缩模型的技术会升级,平行计算性能会提高,未来模型训练的成本会压缩到现在的1/10,模型会更容易取得,更重要的是如何去应用。

竹间为各行业提供预训练模型,其中包含垂直行业的知识,它们可以派上大用场,而结合大模型之后就更厉害了。行业领域的大模型,或者说垂直大模型就是将来ChatGPT能提供的巨大红利。

大模型有个缺点,就是不可追溯,一个大模型有非常多层神经网络。GPT系列是根据给定文本来预测下一个词出现的几率,一个词一个词地生成,因此很不可控。如果聊天机器人不可控,对于企业来说是不可能被接受的,因为万一这个工具对客户、对员工胡说八道,企业要负法律责任。

但我们用小模型来做,上千个小模型就可以管控大模型,让大模型变得可控、可追溯、可解释,再加上知识,便形成一个自然语言双引擎,让企业享受大模型生成的优点,同时弥补大模型的缺点,还可以用大模型来协助训练小模型。这样交叉匹配做出的产品会更符合企业的应用需求。

五、五大决策实践助力AGI落地企业

AGI在企业如何落地?是不是要买很多GPU?不一定。

首先,要选能够最快上线部署的场景,能够马上体验到大模型带来的好处,不要选比较难的场景。

第二,选不需要跟复杂系统对接的场景,否则企业感受不到大模型带来的好处,感受不到NLP带来的好处。

第三,大模型落地立刻能够提高员工个人的生产力,减少工作时长,然而通用人工智能未来给人类带来的最高价值是什么?是降低成本吗?不对。是提高效率吗?不对。是提高产能吗?不对。我常常说,通用人工智能给人类带来的最大好处是提高人类的幸福感。比如,每个人每天要花两个小时的时间写周报、写学习报告、写各式各样的报告,如果每一天可以帮你省下这两个小时,你是不是多了两个小时的幸福感?员工有了幸福感,就能积极帮助企业、个人和家庭创造更高的价值。从这个角度来说,ChatGPT可以提高员工的幸福感,提高老板的幸福感,那么企业的整体生产力和竞争力自然都会提高。

第四,找现有的业务场景,避免找新的业务场景。很多企业采取新技术都找错了方向——找创新部门,找创新业务,再将创新技术放到创新业务上,这样做创新做不起来。企业要在现有的业务上运用新的技术,才可以快速感知到用了和没有用之间的差别,才有办法衡量新技术的价值。

第五,控制场景范围,由小范围开始。企业不应该把一个大项目当做切入点,这是做不起来的,百分之百会失败。从小范围,从一个部门或者一个业务场景开始做,把大模型揉进去,你的业务比较简单,需要的模型就没有那么大,慢慢可以看到效果。

这五点是企业在接受与应用ChatGPT这类大模型产品时可以去借鉴的。采纳这五点,企业一定可以有所收获。

我今天的分享就到这里,希望对大家有用。如果各位对于AGI落地企业有一些意见和想法,或者需要帮助的,欢迎跟我联系,我们可以好好探讨。未来,无论通用人工智能、ChatGPT这样的技术如何改变企业,如何改变个人,其最终目的都是提高每一个人的幸福感。

谢谢各位,谢谢大家!

以上是简仁贤演讲内容的完整整理。