2024年世界人工智能大会(WAIC)期间,复旦大学金融科技研究院、国泰君安证券股份有限公司、达观数据有限公司以及上海燧原科技股份有限公司共同签署了战略合作协议,共同推进基于国产算力的金融行业大模型的研发与应用。
现场,达观知识库V5.0正式发布,达观知识库基于垂直大模型+行业专业知识,可汇集管理企业内外部专业文档,如金融专业文档、IT技术文档、项目管理文档、政策类文档、工业制造文档等,基于文档知识内容轻松实现智能问答、智能写作、智能审核。
达观数据CEO陈运文作《垂直大模型与知识管理的前沿发展与应用》主题分享,关于达观文档资料智能化处理。
陈运文提到,把各种各样企业文档资料汇总在一起,用数据基座管理起来,并在中间开发了很多AI能力,对这些文档资料做自动化处理。
大模型对知识要求很高。陈运文提到,把大量文档资料、语料汇集分析形成一个知识库,这是所有智能的来源所在,再用大模型技术对这些汇集起来的大量数据资料进行辨识和分析、理解,最后形成应用源源不断的智能来源。
他重点谈到场景化文档处理工作——所有的工作最后都要落地,落地就需要相应的文档处理功能来承载。
围绕知识管理,达观开发了很多功能。以文档汇集管理为例,很多单位在落地人工智能时,首要解决的问题并不是研发高精尖的技术,而是怎么样把散落在各个地方的文档资料集中管理起来,因为知识沉淀在这些文档资料中。这包括报告、资料、研发文档、技术报告、项目管理报告等等,散落在邮箱、OA办公系统、管理信息系统当中,现在需要能够把这些散落在很多电脑里,或者很多系统里的文档资料汇总在一起,挖掘资料背后的知识。
自适应路由问答应用方面,一个单位内部其实问答的答案来自于很多地方,只是一个简单的文档问答很难满足需求。达观开发了自适应路由问答应用,能够让计算机统一一个问答入口,但是背后走不同分支找答案。有的答案是在各种各样知识库里面,需要有知识库的问答。
“我们发现,文档问答时,它的答案是否有权限,这是往往会被忽略的问题。但是大模型在学习这些文档时,比如有些单位有重要合同,如果有些人没有权限访问,当他问来自这些合同问题时,答案不应该被大模型显示出来。”他说,达观已经开发了相应技术,能够非常好实现对问答档案权限管控工作。
此外,达观也开发了一些创新功能。如文档自动归类方面,很多单位传统知识库只是一个网盘,汇集了大量资料和文档,往往比较散乱。大模型自动阅读文档资料时,可以对文档形成多级标签体系,打上各种各样业务标签,并对文档资料进行自动化归类工作。
“我们每个人电脑里有很多文档,沉睡在硬盘里,今天可以让计算机帮你把这些文档资料井井有条地分类归纳好,分门别类地放到各种目录当中去,打好各种标签。”陈运文说。
南方+记者 郜小平