【摘要】

公司作为数据库行业的领军企业,业务多元化发展成熟,同时推出向量数据库,在AI浪潮下为未来大模型数据存储与计算提供算力底座,我们认为公司的研发实力雄厚,和微软的合作将打开公司新的成长曲线,公司将乘AI东风,开启新一轮机遇。

一、大数据市场扩张,国产分布式数据库换道超车


(相关资料图)

随着互联网、物联网、5G等信息通信技术及产业的不断发展,传统产业正在经历数字化转型,全球数据量呈几何级增长态势,2017-2022年全球数据储量CAGR为23.2%。数据逐渐成为和土地、资本、劳动力、技术一样的生产要素,支撑数字经济的发展。在大数据时代,数据明显表现为以下几个特征:

1、海量的数据规模:采集、存储和计算过程中所涉及数据量都非常大;

2、多样的数据类型:数据种类和来源多样化,包括结构化、半结构化和非结构化数据,多类型数据对处理能力提出了更高的要求;

3、价值密度低:有价值数据所占比例低,需要结合业务逻辑并通过强大的机器算法来挖掘数据价值;

4、快速的数据流转:数据增长速度快,处理速度要求快,时效性要求高。

大数据市场稳健增长,软件市场占比快速提升。根据沙利文研究,2022年全球大数据市场规模预计为718亿美元,中国大数据市场占全球比例为22%(根据Wind数据,截至2022.10.31,中美平均汇率为6.65)。

2015-2022年受益于下游政企单位分析处理海量数据的需求扩张,全球大数据市场规模CAGR约为18%,中国约为26%,仍处于快速增长期。随着硬件成本的下降以及软件附加值的提升,预计软件将超过服务和硬件,成为大数据市场最主要的收入来源。

大数据技术服务于数据源到用户的全产业链条,由硬件、软件与服务实现应用。大数据技术框架包括数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。其中核心在于大数据管理平台、数据应用中间件、数据智能分析工具、大数据应用等软件。

二、AI浪潮赋能公司新机会

向量数据库作为公司最新的研发方向,将直接受益于AI浪潮的发展。

向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化。同传统数据库相比,向量数据库不仅能够完成基本的CRUD(添加、读取查询、更新、删除)等操作,还能够对向量数据进行更快速的相似性搜索,商业价值提升明显。

向量数据库一个很重要的功能是拓展大模型的边界,分为时间边界和空间边界。

第一,时间边界的扩展,指的是向量数据库能够使得大模型LLM拥有“长期记忆”。

众所周知,目前的大模型(无论是NLP领域的GPT系列还是CV领域的ResNET系列)都是预先训练Pretrain的大模型,有着非常明晰的训练截止日Cut-off Date,这导致这些模型对于训练截止日之后发生的事情一无所知。

而随着向量数据库的引入,其内部存储的最新的信息向量能够极大地拓展大模型的应用边界,向量数据库可以使得大模型保持准实时性,提高大模型的适用性,并使得大模型能够动态调整。也就是说,向量数据库使得大模型的长期记忆得到了可能。

例如,假设一个预训练的新闻摘要模型在2021年底完成了训练,到了2023年,许多新闻事件和趋势已经发生了变化。为了使大模型能够处理这些新信息,可以使用向量数据库来存储和查询2023年的新闻文章向量。

同样,在推荐系统中,预训练的大模型可能无法识别新用户和新产品的特征,通过向量数据库,可以实时更新用户和产品的特征向量,从而使大模型能够根据最新的信息为用户提供更精准的推荐。

第二,空间边界的扩展。

指的是向量数据库能够协助解决目前企业界最担忧的大模型泄露隐私的问题。向量数据库本地部署后可以存储企业有关的大量隐私数据,在本地部署或者专有云部署大模型后,通过特别的Agent大模型可以在有保护的情况下访问向量数据库的隐私数据,进而可以在不向外网暴露公司的隐私的情况下,使得公司的业务得到大模型的助力。

第三,多模态搜索也是向量数据库的拿手好戏。

向量数据库自带多模态功能,这意味着它能够通过机器学习方法处理和理解来自不同源的多种模态信息,如文本、图像、音频和视频等,数据向量化过程使得这些不同模态数据的内部隐藏信息得以暴露,进而为多模态应用提供支持。

一个典型的应用场景是多语言搜索,向量数据库支持跨语言的信息检索,用户可以使用英语、法语、中文等多种语言搜索图书库,而无需事先对书名进行多语言翻译处理。这得益于向量表示能够捕捉到语义相似性,使得来自不同语言的查询和内容能够相互匹配。

三、投资建议

公司与微软的GPT4接口DEMO已经跑通,微软在中国的应用客户超过1000家,公司为GPT在国内的应用提供向量数据库、MLOps服务,目前业务正在谈判中。

公司计划募资15亿,投入到量化投研/知识AI助手/数据要素安全项目/数据分析大模型/研发中心建设,投入主要以算力建设为主。

无论从合作伙伴还是募投项目,公司致力于抢先占据数据库的先发优势,为大模型数据空间与计算提供算力底座。公司坚持自主创新研发,客户粘性高,且新客户拓展快,在核心信创发力赛道有较好的卡位,未来发展空间广阔。

参考资料:20230608-财通证券-星环科技-U-688031-《定增提升技术实力,把握数字化与智能化机遇》

本报告由研究助理协助资料整理,由投资顾问撰写。投资顾问:董宇(登记编号:A0740622090027)

推荐内容