智东西(公众号:zhidxcom)
作者 |  ZeR0
编辑 |  漠影

智东西5月30日报道,以ChatGPT为代表的生成式人工智能(AI)和大模型技术已经开始走向各行各业,进入许多企业的核心产品,重塑用户与企业产品和服务的交互方式。在上周举行的向星力·未来数据技术峰会(FDTC)上,上海大数据基础软件龙头企业星环科技推出多个行业大模型以及大模型训练工具,为企业定制符合自身业务需求的专属大模型提供又一选择。

具体而言,星环科技推出的新品包括:大模型持续提升和持续开发工具Sophon LLMOps,业界首创的金融大模型无涯、大数据分析大模型SoLar“求索”等多个行业大模型,实现湖、仓、集一体化和多模架构的星环大数据基础平台TDH 9.3,能够替代国外产品的分布式分析型数据库ArgoDB 5.0、分布式交易型KunDB 3.2、构建海量数据互联智慧“星”图的分布式图数据StellarDB 5.0、面向多元场景的高性能时序数据库TimeLyre 9.1,提出六易、三仓、两中心的新一代智能分析全流程平台Sophon,以及数据要素流通产品Navier 3.1等产品。

大数据与大模型如何共振?星环科技数弹齐发:推出多个行业大模型及训练工具

一、行业大模型“无涯”与“求索”:金融量化、大数据分析行业的虚拟业务助手

星环科技推出两个行业大模型,分别是星环金融大模型无涯、大数据分析大模型SoLar“求索”。

星环金融大模型无涯是一款面向金融量化领域、超大规模参数量的生成式大语言模型。

星环科技长期深耕金融领域,服务大量金融行业客户,积累了上百万金融专业领域的语料;基于星环科技对图数据库、深度图推理算法的技术,形成了大规模高质量的金融类事件训练指令集。

无涯使用上百万的专业金融语料,其中涵盖了研报、公告,政策,新闻等高质量的自然语言文本来作为基础大模型的二次预训练语料,使得无涯具备对包括基本面、技术面、消息面在内的金融通识领域准确的理解能力。

无涯构建了包括政策、舆情、ESG、风险、量价、产业链等六类大模型基础因子集,擅长处理金融量化领域的各类问题。

例如,它在政策和研报分析、新闻解读、事件总结和演绎推理上具备强大的理解和生成能力;能够对股票、债券、基金、商品等各类市场事件进行全面的复盘、传播和推演;能够生成另类的策略因子集合,构建立体的归因解释体系。

通过多模感知+事件驱动+深度图计算,无涯大模型从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现了全新的智能量化投研新范式。

大数据分析大模型SoLar“求索”是星环科技基于在SQL编辑器的多年积累打造的大语言模型。

SoLar“求索”可以使用自然语言描述涉及多种数据模型的复杂业务需求,借助星环大数据平台特有的“多模型”技术,对不同模态(比如图数据、文本数据、结构化数据)的数据进行关联分析和展示。用户可以通过自然语言,生成可成功执行的SQL或Cypher,从而快速获取查询的结果,能够快速降低用户的使用门槛。

SoLar“求索”将作为数据查询和分析的智能副手,为数据工程师、数据科学及业务人员提供更好的使用体验。有了SoLar“求索”,非专业用户在不需要学习和掌握数据库编程语言的前提下,也能通过自然语言自由地按需查询数据。

大数据与大模型如何共振?星环科技数弹齐发:推出多个行业大模型及训练工具▲大数据分析大模型SoLar“求索”的NLP2SQL功能

二、提供大模型训练工具,每个企业都能打造自己的专属大模型

针对大模型训练难度大、成本高、技术要求高以及通用大模型在特定领域适用程度有限的问题,星环科技提出行业大模型应用创新场景,推出相应的工具,帮助企业构建自有的行业大模型,以通过大模型基础设施,形成具备“新型人机交互”且“敏捷可持续迭代“的人工智能应用。

为了帮助企业用户基于大模型构建未来应用,星环科技推出了一个机器学习模型全生命周期管理的工具平台Sophon LLMOps,来帮助企业构建自己的行业大模型。

星环Sophon LLMOps针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强,形成了LLMOps的工具链:

(1)样本仓库能力:覆盖训练数据开发、推理数据开发、数据维护等工作,对大语言模型涉及的原始数据、样本数据、提示词数据做清洗、探索、增强、评估和管理。

(2)模型运维管理能力:除了传统MLOps的六大统(统一纳管、统一运维、统一应用、统一监控、统一评估、统一解释)外,针对大语言模型的微调、持续提升、评估、对齐等提供从计算框架、工具到计算、存储、通信的调度和优化支持。

(3)大语言模型和其他任务的编排和调度和上线能力:星环Sophon LLMOps提供Agent、Ops、DAG,结合星环的多款大数据、数据库产品,如向量数据库Hippo和星环分布式图数据库StellarDB等,将不同大语言模型、传统机器学习、其他流程等编排成符合用户实际领域和业务需求的任务,并为客户提供服务。

总体来说,星环Sophon LLMOps有助于解决客户的3个核心痛点:第一,提供一站式工具链,帮助客户从“通用大语言模型” 训练/微调,得到“满足自身业务特点的领域大语言模型”;第二,帮助客户将原型的大语言模型应用,成功在实际生产中投入应用;第三,帮助客户运营在生产中应用的大语言模型和大模型的持续提升。

大数据与大模型如何共振?星环科技数弹齐发:推出多个行业大模型及训练工具▲LLM平台阶段性演进图

三、数据处理向多模态转型,多个数据分析利器连发

星环科技创始人、CEO孙元浩说,数据处理从多模型向多模态转型,从单一模态向多模态进化,企业数据分析来到新的次元。

为了适应这一全新转变,星环科技推出了自研的企业级云原生分布式向量数据库Transwarp Hippo,拓展大语言模型时间和空间维度。

星环Hippo支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。使用星环科技的向量数据库+分布式图数据库,可以构建基于大模型的应用,让每个人都拥有自己个性化的AI助理。

大数据与大模型如何共振?星环科技数弹齐发:推出多个行业大模型及训练工具

向量数据库由于与AI大模型的协同作用而流行起来。最古老的数据库类型是SQL或关系数据库,其中所有的数据都结构化的。Web 2.0公司不断增长的需求引发了NoSQL革命,数据库变得更加灵活,出现了能够处理更多非结构化数据的数据库,能够的处理数量更加庞大。随着新一轮AI热潮涌起,被称为向量数据库的新市场出现。

与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。

针对海量图数据的存储、计算难题,星环科技打造面向图智能、业务分析的多模型企业级分布式图数据库StellarDB 5.0

StellarDB 5.0实现了实时短查询场景5倍提升,高并发上万+QPS,近50种图算法,平均8倍性能提升,多度关联关系场景10倍提升,解决无限扩层问题。

该图数据库对计算模型进行优化,全新设计Cypher语言执行器Thunder、BSP查询优化模型,大幅提升短查询执行效率,提高查询并发;实现算法优化,优化星环Eagle图算法模型,大幅优化内置图算法运执行效率;实现编译优化,引入Cypher语言预编译技术,减少语句编译优化开销,提升语句执行效率。

StellarDB 5.0带来全面升级的数据可视化分析引擎KG Explorer 1.3,一款人人易用、面向业务、数据分析的可视化工具。

StellarDB 5.0与星环科技自研深度图框架ZenGraph结合,基于图数据库的查询计算能力,提供快速、准实时甚至实时的特征查询和计算;基于图数据库内置算法,提供多元的图特征计算能力;基于图数据库存储能力,提供高速数据写会能力;针对不同业务场景支持多种深度图嵌入算法模型,相比于传统图算法,能够从图中挖掘学习更多的特征知识,预测更精准。

另外,星环科技推出面向多元场景的高性能分布式时序数据库TimeLyre 9.1

面对时序数据数据量大、数据分析需求高,开源系统不支持集群部署,存储和计算数据规模有限,不支持复杂分析,服务不稳定,以及缺乏安全可控性等问题,星环TimeLyre 9.1在常见的时序数据上,可实现5~20倍压缩率,远优于传统数据库,数据压缩高、单节点磁盘可用容量高,可大大节约成本。

TimeLyre统一标准SQL,完整支持标准SQL查询语言,支持主流的SQL模块化扩展,兼容通用开发框架和工具,支持事务特性,保证数据的准确性;支持复杂分析能力,支持关联、聚合、嵌套查询等复杂SQL分析模型;多模分析能力支持多模平台,打破数据孤岛,支持对不同存储模型数据表进行跨模分析;灵活部署,安全可控:分布式存储、计算分离架构,灵活扩容;自主研发,支持国产化软硬件平台,支持异构集群部署。

星环时空数据库Spacture则为空间而生,为变化而生,拥有高效时空数据分析、多样化数据类型支撑、算子下推、多种标准支持、主流生态兼容等特性,可应用于时序遥感分析、城市扩张变化检测、气象业务支持、全球高温天气预测、轨迹分析、船舶轨迹范围检索、泛在空间分析、湖泊面积统计、空间聚合统计等场景。

四、落地数据处理平民化,让人人成为数据科学家

让普通人不再需要掌握复杂工具,就可以快速处理数据。星环科技在不同的产品上创新,落地数据处理平民化。

第一,推出的星环大数据基础平台TDH,打破湖仓集的边界,让更多人可以访问实时+历史/原始+加工后的数据。

传统湖仓集采用多系统混合架构,存在存储冗余、数据流转成本高、时效性差、数据一致性难保障、数据孤岛治理成本高、元数据同步开发标准不一致等挑战。

星环大数据基础平台TDH 9.3推出新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转,提升业务综合性能与时效性。

新一代湖仓集统一存储Holodesk在数集方面,支持基于Holodesk存储格式的集市分析,存储&计算双升级,分析性能大幅提升;在数仓方面,支持完整四种事务隔离级别,支持复杂批处理加工、数仓模型拉链表等,无需手工计算分桶数,自适应数据分布自动合并小文件;在数据湖方面,支持离线导入/实时写入、时间旅行,生态对接 Spark/Flink/Sqoop。

第二,星环数据基础平台TDH 9.3多模型统一架构迭代升级,全新发布向量模型存储,10大存储引擎,共支持11种模型数据统一存储管理,支持统一查询处理语言完成跨模型数据流转与关联分析,业务开发更便捷。TDH 9.3多模型新成员向量数据库Hippo采用全面容器化部署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力;具备分布式部署能力,有丰富的大规模集群部署经验等。

第三,星环TDH底座就地升级到星环TDC。目前,大数据云平台及数据共享面临诸多痛点,如孤岛建设数据难以共享,不同角色用户不同的需求,数据共享的安全隐患、基础设施异构建设及扩容难。为了增强数据开放能力,促进企业数据共享与流通,星环数据云平台TDC升级,推出TDC 3.2。

TDC 3.2一个大重磅更新就是支持星环TDH底座就地升级到星环TDC,利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,提高调度资源的灵活性和利用率;多租户隔离技术,实现各业务部门之间的数据独立,更稳定,更安全,保障数据安全与隔离活性;统一管理与精准运维,统一管理和资源虚拟化,按需提供资源,不仅释放运维人员的时间与精力,而且提升运维效率。

另外基于多租户技术的内部数据共享,以及严格的数据安全隔离和保护,解决存算解耦,让扩展更加便捷。基于TDC打造外部数据流通方案,实现从数据资产到数据要素安全流通。

第四,让数据流通更便利、更安全、更可控。数据流通既要满足全流程安全与隐私保护的制度要求,也要满足市场流通全流程业务效率的要求,因此有必要在流通规则中建立数据要素全流程合规与监管体系。在本次峰会上,星环科技推出了数据要素流通产品Navier 3.1让数据流通更便利、更安全、更可控。

星环科技数据流通平台Navier 3.1三大产品同时升级。星环数据交易门户Datamall打造数据资产目录平台,可浏览数据目录、查看数据字典、生成交易凭证。

星环科技安全沙箱Sandbox,打造封闭、隔离的数据开发分析环境,开发人员在安全隔离的环境下进行分析计算,不可下载和导出原始数据集,保障数据可入不可出。

星环科技隐私计算平台Sophon P²C 2.0,在保证数据提供方不泄露敏感数据的前提下,数据消费方对密文数据进行分析计算,保证在各个环节中数据可用不可见。新版本功能覆盖更全面、数据分析使用灵活度更高、建模效果更好。

大数据与大模型如何共振?星环科技数弹齐发:推出多个行业大模型及训练工具▲Sophon P²C 2.0隐私计算平台架构图

星环科技推出Defensor 4.0版本,在数据分类分级模块中创新性地引入了大模型技术,相较于传统机器学习算法,调优后的模型完美解决了分类分级中短文本语义语境识别率低的问题,在有标注样本的前提下,识别准确率达到了95%。

大数据与大模型如何共振?星环科技数弹齐发:推出多个行业大模型及训练工具

第五,国产化替代上更进一步。为了实现数据处理的平民化,星环科技推出众多创新产品,不但可以替换国外的商业和开源大数据平台、数据库等基础软件产品,而且拥有大量成功的应用案例,为用户创造新的价值。

(1)星环TDH+TDC协同替换CDP:星环科技自研的大数据基础平台TDH和星环数据云平台TDC联合,可以替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能提升可以达到5到100倍,原厂专业服务能力更强。

(2)星环ArgoDB替换Oracle/DB2/Teradata:星环分布式分析型数据库ArgoDB强化实时分析能力,构建安全高效的国产化多模引擎,一站式满足用户数据仓库、数据集市、实时数仓、OLAP、AETP、联邦计算等需求,可以在批处理和OLAP、Ad hoc分析等场景,替代Oracle/DB2/TD/SAP HANA等国外产品。

(3)星环KunDB替换Oracle与MySQL:星环分布式交易型数据库KunDB 3.2可在交易型OLTP的业务场景、高并发在线数据服务场景等,替代Oracle/DB2/MySQL,并且提升存储计算能力、高可用能力、跨分区事务能力。

(4)星环Scope替换ElasticSearch:星环自研的搜索引擎Scope可在全文检索、日志分析等多个场景替代ElasticSearch,提升稳定性、性能、集群扩展性等能力。

(5)星环StellarDB替换Neo4j:星环分布式图数据库StellarDB可以在图查询、图分析等场景替代开源图数据库Neo4j。而新发布的StellarDB 5.0产品在延续企业级海量存储、高性能数据查询分析计算、丰富的可视化交互、安全运维一体化等优异产品技术能力的同时,进一步带来了覆盖数据存储、查询计算、可视化交互、深度图学习、多模型数据库等产品多方位的能力升级,以高水平的产品能力和图智能持续赋能业务生产以及应用创新,为国产化图数据应用提供高水平产品解决方案。

(6)星环TimeLyre替换InfluxDB:星环科技自研的高性能时序数据库TimeLyre可以替代开源时序数据库InfluxDB,解决开源时序数据库不支持复杂分析,只能做简单点查或者指定设备分析,大规模设备情况下,不指定设备查询时,需要使用大量内存载入全量设备数据,并进行归并排序操作,服务极其不稳定,以及缺乏安全可控性等问题。

(7)星环Sophon Base替换SAS/SPSS:星环科技的智能分析工具Sophon Base可以在可视化建模分析等场景替代SAS/SPSS,提升功能和性能,降低成本。

结语:创新技术正改变数据处理发展的进程

大数据产业发展的下一步是打造以平台为核心的大数据生态。星环科技基于“平台+生态”的发展理念,与软件开发商、硬件开发商、系统集成商等生态伙伴积极合作,打造更多领域的联合解决方案及大数据基础软件产品应用的生态体系。

目前,星环科技已经拥有超过600家生态合作伙伴,涵盖系统集成、咨询交付、服务,ISV及行业应用,数据建模分析、挖掘,数据集成治理、展现、流通,操作系统、云与通用软件,整机与硬件,CPU及芯片技术等,星环云课堂拥有2200+家培训企业数量,10000+份星环工程师认证证书,4万+人累计培训开发者人次。

孙元浩认为,未来数据处理将走向智能化、多模态和平民化,其中领域大模型让数据处理的自动化程度更高、结果更能为我所用;数据处理将从单一模态向多模态进化,企业数据分析来到新的次元;数据处理平民化,让普通人不再需要掌握复杂工具,就可以快速处理数据。

基于未来技术,星环科技的这些全系列产品将助力企业加速数据化、智能化转型,加速基础软件的国产化替代,服务数据经济发展。