首页 生活文章正文

成果来了|文档装上智慧大脑!你的知识库来了

生活 2024年08月14日 08:19 544 admin

在日常生活工作,文档、表格、邮件等材料的撰写工作中,会需要用到大量零散甚至琐碎的知识。这些知识往往是人们以前接触甚至使用过的,但却由于电脑上的信息过于分散,常常找不到相对应的文档和内容出处。AI知识库的出现,可以让海量文档和碎片化的知识装上“智慧大脑”,让AI搜索根据特定的问题在“知识库”里寻找答案。

近日,记者从中国科学院深圳先进技术研究院(以下简称“深圳先进院”)获悉,深圳先进院副研究员、博士吴承科团队正在研发一款AI赋能面向个人和企业的知识管理系统,核心功能是帮助企业员工和个人用户随时随地存、取和生成有价值的知识信息,建立企业和个人的“知识库”。据悉,目前该系统已经和建筑行业龙头企业进行合作,知识检索准确率超过90%;同时预计7月底将上线面向所有用户的C端桌面程序。

接入大模型

AI赋能减少无意义重复劳动

2022年底,ChatGPT的横空出世颠覆了行业对生成式人工智能的认知,也让一直研究知识管理和知识图谱等智能技术的吴承科看到了相关技术应用落地的广阔前景。作为深圳先进院的副研究员,吴承科日常同样要处理大量文档,例如撰写申报书、填各类申请表等,其中很多内容都是重复的信息,但因为无法自动的整合关联这些碎片化的知识,常常造成内容利用率低。

“比如有时候我们申报一个项目要填多个申报表,但其实很多内容是一样的,如果找不到以前写过的申报表那又得重新写一次。”

吴承科告诉记者,其实日常生活和工作的大部分知识都是可以反复利用的,小到报销的标准,一个申请表中的一个邮箱地址等;大到比如写行研报告或申报书时的一段市场分析,一个单位介绍或团队介绍,一种技术路线等。

“但以前我们要重复利用知识的时候,都必须先找到对应的文档,甚至要去网络上重新搜索,比如单位的邮编、某人的邮箱等等,然后在里面再找到对应的内容,再复制粘贴到新的地方。这样会浪费大量的时间,也非常耗散精力。”吴承科坦言。

△多模态知识快速入库和查询(受访者供图)

2023年10月,吴承科开始研发一套能够面向个人和企业的知识管理系统,希望能通过大模型赋能,结合知识图谱技术,解决信息获取链路长、内容利用率低等难题。企业和个人只要把相关文档“拖拽”进系统里,就能构建企业和个人专属AI知识库,实现AI智能问答,方便找到相对应的知识原文出处。

“这套系统通过将一切我们个人觉得有价值的知识随时随取随用,尽可能减少无意义的重复性时间浪费,尽快完成工作,使人们有更多的时间可以开展科研或者享受生活和休息。”吴承科说。

不限文本字数

迅速构建个人知识库

目前,市面上支持长文本阅读和知识问答的模型和系统有不少,例如Kimi,可支持200万文字的上下文阅读。但是吴承科团队研发的系统与Kimi走的是两种不同的技术路线。

一方面

Kimi等大语言模型的核心是长文档读取,核心逻辑是通过增加和优化模型参数,把文档从头读到尾的,需要大量的算力和训练成本,而且可支持文档分析的数量终究有限。

“我们的系统采取的是向量模式,会把文档拆分读取,比如100万字的文档,会拆分成100个片段,每个片段利用AI读取最核心的1万字。因此理论上我们系统可以支持几十个、几百个、上千个文档上传,字数不限,还支持图片、语音、视频等多模态。”吴承科说。

另一方面

与市面上主流的知识库系统相比,该系统可以保留和逐渐完善清晰的知识层级结构,能找到原文表述和知识脉络;还可以随着用户与系统的交互,学习用户偏好,使知识检索越来越精准。

“我们研发的系统可以更好地学习、整理、再利用用户个性化的知识信息,在获取知识的时候更加精确,且100%可溯源;在生成内容(例如生成投标书、技术方案等)的时候,按照知识脉络查找相关参考知识作为生成基础,可以更符合用户偏好,也最大限度减少了大模型生成过程的幻觉错误。”吴承科说。

此外,本系统可以全本地化部署,任何文档的解析和存入过程都无需联网使用,支持安装本地大模型实现本地化问答和生成,因此可以有效保障信息安全和隐私。

△基于知识库的专业文档生成(受访者供图)

总体来说,该系统可以随时随地“存”“取”“生成”有价值的知识信息。

对于“存”

系统可以接收长文档(比如报告、标书、合同、方案)、单段文字、图片、表格等知识形式,将它们自动形成树状的层级结构。例如,将一个文档按照总标题、一级标题、二级标题拆分,在最底层是相应的段落内容(类似思维导图);而零散的知识可以单独存在,也可以自动向已存在的知识结构聚类。

对于“取”

本系统使用了知识层级脉络的方式去解析文档和存储知识。因此在知识检索的过程中,系统结合检索增强生成(RAG)和知识图谱技术,同时充分利用知识的路径和知识内容,结合两方面特征,可以提高检索的精度。

对于“生成”

系统基于自动创建和维护的知识库以及知识检索算法,支持各类文档的生成和表格填充。对于文档生成,支持直接输入文档提纲,系统可以自动匹配文档提纲和知识库内信息,按提纲逻辑检索、填充、润色整体文档,生成的文档内容包括图片、表格、文字等。对于表格填充,系统能够自动解析表格结构,识别待填空位置,自动查找知识库内容并填充优化。

7月上线

C端桌面程序

“针对文档应用需求多的场景,我们的系统已经率先在建筑行业使用了。”吴承科告诉记者。据介绍,目前该系统已经在中建三局应用,对方已采购部署了这套系统,用于管理企业规范、合同、标书、方案、会议纪要等信息,知识检索准确率>90%;并且对方会在中建三局整个系统下推广出售;同时中建四局、青岛啤酒、广西电信、吉林交通厅等大型单位均有意向订单。

“目前,我们认为至少可以提高获取知识的效率3倍以上。”吴承科说。据透露,团队正在研发面向所有用户的C端桌面程序,预计7月底上线。

面向未来,吴承科团队将从三个方面“升级”系统。

首先是开发多知识库协同系统,即“我的”部分知识可设置为让他人可以访问和提问。“比如我是一个财务,我可以把最近我整理的单位财务的重要知识入库,然后开放给所有同事,这样同事们就不用一直问我问题,可以直接问我的知识库,从而帮我省掉了很多沟通时间和精力。”

其次是知识库升级,未来将进一步升级知识库所支持的格式,逐步覆盖代码、视频和其他专业领域的数据形式,比如建筑业的IFC标准等。

此外是智能体升级,未来将在系统引入“智能体”概念,使系统不仅可以找到知识和生成文档,还可以自动执行一些办公自动化(RPA)操作,比如计算报价单、发送邮件等,通过用户允许授权,智能体还可以介入到用户的OA系统,基于知识库已有的信息,成果来了|文档装上智慧大脑!你的知识库来了自动帮助用户执行报销、差旅申请等各种繁琐的OA流程。

关于《成果来了》

《成果来了》是深圳商报·读创客户端与中国科学院深圳先进技术研究院推出的一档原创科技新闻栏目,重点聚焦深圳先进院在人工智能、机器人、新能源、新材料、合成生物、脑科学等领域的关键技术和重大科技成果,推动科技创新普及,促进科研成果转化,加速发展新质生产力。

我们的期待

当前,科技创新是新质生产力的核心驱动力,不断催生着新兴技术和新兴产业。作为新型研究机构,深圳先进院构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态,强化创新链和产业链紧密结合,一体推进科技与产业双螺旋耦合式发展,为科研成果产业化赋能。

通过《成果来了》栏目,我们期望推广更多重大科技创新成果,吸引各行业领军企业、高校、研究机构开展产学研深度合作,面向市场需求,汇聚行业资源,加快推动科技成果的落地,让每一项科研成果都能在市场中找到其价值。

如何对接成果?

联系方式(一):中国科学院深圳先进技术研究院—院地合作与成果转化处—成果转化办公室

联系人:唐老师(86392404);朱老师(13718720561)

联系方式(二):深圳报业集团深圳商报

联系邮箱:szcgll2024@163.com

联系人:陈老师

深圳商报·读创客户端首席记者陈小慧

编辑吴艳红责编李耿光校审汪蓓

监制于雪

标签: 成果来了|文档装上智慧大脑!你的知识库来了

大金科技网  网站地图 免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052 沪ICP备2023024866号-3