欢迎访问chatgpt中文教程网,学习chatgpt相关知识,以下是正文内容:
北美时间2023年3月23日,openAI 宣布部分解除 ChatGPT 无法联网的限制,OpenAI 通过接入第三方插件让 ChatGPT 得以联网。OpenAI 还开源了一个知识库检索插件 chatgpt-retrieval-plugin,这个插件通过自然语言从各种数据源检索信息。有了开源代码后,开发者可以部署自己的插件版本。在这一知识库插件内,检索插件允许模型对向量数据库执行语义搜索,其中阿里云的 AnalyticDB PG 版本成为 Microsoft Azure 之后的第二个云厂商向量数据库产品。截止2023年7月18日,这一开源插件在 GitHub 上的 Star 数已达到 18.9K。
01
什么是chatgpt-retrieval-plugin?
ChatGPT 检索插件存储库为使用自然语言查询的个人或组织进行文档的语义搜索和检索,提供了灵活的解决方案。存储库分为以下几个目录:
目录 | 描述 |
datastore | 包含使用各种向量数据库提供程序存储和查询文档嵌入的核心逻辑。 |
docs | 包括用于设置和使用每个向量数据库提供程序、webhook 以及删除未使用的依赖项的文档。 |
examples | 提供示例配置、身份验证方法和特定于提供商的示例。 |
local_server | 包含为本地主机测试配置的检索插件的实现。 |
models | 包含插件使用的数据模型,例如文档和元数据模型。 |
scripts | 提供用于处理和上传来自不同数据源的文档的脚本。 |
server | 包含主要的 FastAPI 服务器实现。 |
services | 包含用于分块、元数据提取和 PII 检测等任务的实用程序服务。 |
tests | 包括针对各种向量数据库提供程序的集成测试。 |
.well-known | 存储插件清单文件和 OpenAPI 架构,它们定义了插件配置和 API 规范。 |
ChatGPT 插件主要由检索实时信息、检索知识库信息以及代表用户的执行操作三大功能组成,能够连接到第三方应用程序并与开发人员定义的 API 进行交互,从而增强 ChatGPT 的功能并允许执行更广泛的操作。
检索实时信息:例如,查询体育比赛比分、查询股票价格、查询最新消息等。
检索知识库信息:例如,检索公司文件、检索个人笔记等。
代表用户执行操作:例如,自动订机票、订餐等。
02
ChatGPT检索插件支持11个向量数据库
目前 ChatGPT 检索插件支持11个向量数据库。其中,阿里云的 AnalyticDB PG 版本也成为了 open AI 官方正式推荐的产品。
数据库名称 | 简介 |
Pinecone | 其是一个全托管的 SaaS 向量数据库厂商(支持 GCP & AWS),专为速度、规模和快速部署到生产而设计。它支持混合搜索,是目前唯一原生支持 SPLADE 稀疏向量的数据存储。 |
Weaviate | 其是一个开源向量数据库。它允许用户存储来自喜欢的 ML 模型的数据对象和向量嵌入,并无缝扩展到数十亿个数据对象。 |
Zilliz/Milvus | Milvus 是一个为可扩展的相似性搜索而建立的开源向量数据库,它基于 Facebook AI Similarity Search (Faiss), Non-Metric Space Library (NMSLIB) 和 Annoy,并额外扩展了它们的功能。 |
Qdrant | Qdrant是一个向量数据库,能够存储文档和矢量嵌入。它提供自托管和托管Qdrant Cloud部署选项,为具有不同需求的用户提供灵活性。 |
Redis | 其是一个实时数据平台,适用于各种用例,包括日常应用程序和 AI/ML 工作负载。通过使用Redis Stack docker container创建 Redis 数据库,它可以用作低延迟向量引擎。 |
LlamaIndex | 其是将开发人员的 LLM 与外部数据连接起来的中央接口。它为开发人员的非结构化和结构化数据提供了一套内存索引,供 ChatGPT 使用。与标准向量数据库不同,LlamaIndex 支持针对不同用例优化的广泛索引策略(例如树、关键字表、知识图)。它重量轻,易于使用,无需额外部署。 |
Chroma | Chroma 是一个用于构建带有嵌入向量的 AI 应用程序的数据库。它内置了入门所需的一切,并可以在机器上运行。 |
Azure Cognitive Search | Azure Cognitive Search是一个完整的检索云服务,支持向量搜索、文本搜索和混合搜索(向量 + 文本组合以产生两种方法中的最佳方法)。 |
Supabase | Supabase通过 PostgreSQL 数据库的pgvector扩展提供了一种简单有效的方式来存储向量。开发人员可以使用 Supabase CLI在本地或云端设置整个 Supabase 堆栈,或者开发人员也可以使用docker-compose、k8s 和其他可用选项。 |
Postgres | PostgreSQL提供了一种简单有效的方法来通过pgvector扩展存储向量。要使用 pgvector,您需要设置一个启用了 pgvector 扩展的 PostgreSQL 数据库。例如,开发人员可以使用 docker在本地运行。 |
AnalyticDB | AnalyticDB是一个分布式云原生向量数据库,专为存储文档和向量嵌入而设计。完全兼容PostgreSQL语法,阿里云托管。AnalyticDB 提供了一个强大的向量计算引擎,处理数十亿个数据向量,并提供诸如索引算法、结构化和非结构化数据能力、实时更新、距离度量、标量过滤和时间旅行搜索等特性。 |
03
ChatGPT与向量数据库的关系
向量数据库的主要特点是能够高效地存储和查询大规模的向量数据。它通常采用基于向量相似度的查询方式,即根据向量之间的相似度来检索数据。这种查询方式可以用于各种应用场景,例如图像搜索、音乐推荐、文本分类等。
向量数据库主要是能为 ChatGPT 提供“后勤服务”。大规模生成式 AI 模型需要大量的训练数据来捕捉复杂的语义和上下文信息。其生成的文本通常需要进行准确的相似性搜索和匹配,以提供精确的回复、推荐或匹配结果。此外,大规模生成式 AI 模型不仅能处理文本数据,还可以处理图像和语音等多模态数据。可以说,向量数据库的特点与大规模生成式 AI 模型息息相关。向量数据库可以让开发者以向量嵌入的方式来处理非结构化数据,这对于使用和扩展大型语言模型(LLM)十分重要。
04
ChatGPT点燃向量数据库赛道
随着 AI 热潮的来袭,ChatGPT 也带火了向量数据库。ChatGPT 检索插件支持的11个数据库中,今年已有5个数据库陆续成功获得融资。
4月10日,Chroma 在Quiet Capital的Astasia Myers的带领下筹集了1800万美元的种子轮。
4月19日,开源向量数据库初创公司 Qdrant 宣布从主要投资者Unusual Ventures获得 750 万美元的种子融资。
4月22日,向量数据库平台(vector database)Weaviate宣布获得5000万美元(约3.5亿元)B轮融资。
4月28日,向量数据库平台 Pinecone 宣布获得1亿美元(约7亿元)B轮融资。
6月6日,总部位于加利福尼亚州旧金山的大型语言模型 (LLM) 数据框架提供商LlamaIndex筹集了 850 万美元的种子资金。本轮融资由 Greylock 牵头,Jack Altman、Lenny Rachitsky、Mathilde Collin(Front 的 CEO)、Raquel Urtasun(Waabi 的 CEO)、Joey Gonzalez 等人参与。
以上融资的5家企业实际上都属于初创公司,在 ChatGPT 还未火爆之前,向量数据库非常小众,但随着 ChatGPT 逐渐落地应用,与“ChatGPT”大语言模型、应用、衍生品等的热度都有大幅提升。更有甚者,谷歌开发专家 Jeff Delaney 在他的节目上谈到在尚无任何收入、商业计划甚至是实际代码可以展示的情况下,他凭借 Rektor 向量数据库初创项目让公司估值飙升至 4.2 亿美元,并呼吁大家为其投资。
图1:Rektor 项目
05
中国向量数据库发展概况
中国向量数据库在 AI 的催化下,也吸引了一波关注。根据墨天轮排行榜7月最新数据,已有6个中国向量数据库参与排名。本月向量数据库排名前三分别是 TensorDB、Milvus、Hippo。东北证券发布的报告预测,到2030年,全球向量数据库市场规模有望达到522亿美元,中国向量数据库市场空间或将达到253-949亿元。全球范围内来看,目前向量数据库以初创公司为主,包括Pinecone、Milvus、Weaviate、Vespa等。
图2:2023年7月中国向量数据库排行榜
海量数据的爆发产生了巨大的数据库需求。在互联网化趋势下,数据量呈爆炸式增长,同时随着数据大集中、数据挖掘、商业智能、协同作业等大数据处理技术的日趋成熟,数据价值呈指数上升趋势。根据墨天轮发布的 《2022年10月中国数据库行业分析报告-向量启航,引擎加持》,目前向量数据库赛道已有多个产品,未来将会面临激烈的竞争。
图3:全球向量数据库产业图谱
相关内容
2023年6月国产数据库大事记
2023年10月中国数据库行业分析报告
点击下方查看2023年7月中国数据库流行度排行榜
网友评论