发布于 2023-05-06 09:27:22

向量数据库，未来十年最重要的新兴技术之一 - 墨天轮

原文地址 www.modb.pro

向量数据库不是依靠不同的类别和列表来组织我们的记录，而是将它们放在地图上。

今年，生成式人工智能已经在科技界及其他领域受到了广泛关注。无论是 ChatGPT 的散文还是 Stable Diffusion 的艺术，2022 年都让我们看到了人工智能颠覆创意产业的潜力。

但在头条新闻的背后，2022 年带来了 AI 更重要的发展：向量数据库的兴起。

虽然它们的影响不是那么明显，但向量数据库的采用可以完全颠覆我们与设备交互的方式，同时显着提高我们在大量管理和文书任务中的生产力。

最终，向量数据库将成为实现人工智能承诺的社会和经济变革的重要基础设施。

但什么是向量数据库？要理解这一点，我们必须理解它解决的潜在问题：非结构化数据。

数据库是软件行业持续时间最长、最具弹性的垂直行业之一。数据库和数据库管理解决方案的总支出翻了一番，从 2017 年的 $38.6B 增加到 2021 年的 $80B。自 2020 年以来，由于大规模转移到远程工作。

然而，现代数据库仍然受到一个持续了几十年的问题的制约：非结构化数据问题。这是全球存储的高达 80% 的数据，它们没有以允许快速搜索或调用的方式进行格式化、标记或结构化。

对于结构化数据与非结构化数据的简单类比，请考虑每行包含多列的电子表格。在这种情况下，一行 “结构化数据” 已填写所有相关列，而一行 “非结构化数据” 则没有。在非结构化条目的情况下，可能是数据已自动导入到行的第一列；现在有人需要分解该单元格并将数据填充到相关列中。

为什么非结构化数据是个问题？简而言之，它使得在数据库中分类、搜索、查看和使用信息变得更加困难。然而，我们对非结构化数据的理解是相对于数据通常是如何结构化的。

缺少标签或未对齐的格式意味着非结构化条目可能会在搜索中丢失或错误地从过滤中排除 / 包含。这给许多数据库操作带来了出错的风险，我们必须通过手动构建数据来解决这个问题。这通常需要我们手动审查非结构化条目。这并不意味着数据本身一定是非结构化的。它只是比我们通常的数据存储方式需要更多的人工干预。

我们经常听到有关人工审查负担的说法，例如数据科学家将 80% 的时间花在数据准备上。但在实践中，我们在某种程度上都会这样做，或者至少会忍受其影响。如果您不得不费力地使用文件资源管理器来查找硬盘上的内容，或者花费大量时间筛选出不相关的搜索引擎结果，那么您很可能遇到了非结构化数据问题。

这种浪费在手动格式化、审查和过滤上的时间并不是一个新的或完全数字化的问题。例如，图书管理员根据杜威十进制系统手动排列书籍。非结构化数据问题只是一个基本挑战的数字版本，自从我们发明了书写以来，人类所面临的每一项记录保存任务都是：我们需要对信息进行分类以存储和使用它。

这就是向量数据库特别令人兴奋的地方。向量数据库不是依靠不同的类别和列表来组织我们的记录，而是将它们放在地图上。

向量数据库使用机器学习和深度学习中称为向量嵌入的概念。向量嵌入是一种将文本中的词或短语映射到高维向量的技术，也称为词嵌入。这些向量的学习方式使得语义相似的词在向量空间中靠得很近。

这种表示允许深度神经网络更有效地处理文本数据，并已被证明在文本分类、翻译和情感分析等各种自然语言处理任务中非常有用。

在数据库上下文中，向量嵌入实际上是我们要测量的一组属性的数字表示。

为了创建嵌入，我们采用训练有素的机器学习模型并指示它监控数据集中条目中的那些属性。

例如，在文本字符串的情况下，可以告诉模型记录平均单词长度、情感分析分数或特定单词的出现。

最终嵌入采用一系列数字的形式，对应于属性审计中记录的 “分数”。向量数据库获取向量嵌入的分数并将它们绘制在图表上。我们在向量嵌入中测量的每个属性都构成了图的一个维度，导致它通常比我们通常可以想象的三个维度多得多。

绘制了所有这些信息后，我们仍然可以计算任何一个嵌入与另一个嵌入的 “距离”，就像我们在任何其他图中可以采用的方式一样。也许更重要的是，我们可以采用一种新颖的数据搜索方式。通过生成输入搜索查询的向量嵌入，我们在我们想要定位的图上绘制了一个点。然后，我们可以发现离我们的搜索点最近的嵌入。

向量嵌入并不是适用于所有问题的完美解决方案。它们通常以无监督的方式学习，因此很难解释它们的含义以及它们如何对整体模型性能做出贡献。预训练嵌入还可能包含训练数据中存在的偏见，例如性别、种族或政治偏见，这会对模型性能产生负面影响。

向量数据库不依赖标签、标签、元数据或其他通常用于构建数据的工具。相反，因为向量嵌入可以跟踪我们认为相关的任何属性，向量数据库允许我们根据整体相似性获得搜索结果。

目前对非结构化数据的搜索涉及人工审查和解释，而向量数据库将允许搜索实际反映我们查询背后的含义，而不是关键字等表面属性。

这一变化将彻底改变数据处理、记录保存以及大多数行政工作和文书工作。由于 “误报” 搜索结果的减少以及预筛选和格式化系统查询的需求减少，向量数据库可以显着提高知识经济中几乎所有工作的生产力和效率。

除了提高管理效率外，这些高级搜索功能还使我们能够依靠数据库更有效地参与创造性和开放式查询。

这是对生成式 AI 兴起的理想补充。由于向量数据库减少了对结构化数据的需求，我们可以通过自动化处理用于训练和生产的非结构化数据的大部分工作来大大加快生成 AI 模型的训练时间。

因此，许多组织可以简单地将他们的非结构化数据导入向量数据库，并告诉它他们希望在嵌入中测量哪些属性。通过生成这些嵌入，组织可以通过简单地搜索向量数据库来收集任务信息来快速训练和部署生成模型。

向量数据库将显着提高我们的生产力并彻底改变我们向计算机查询的方式。总之，这使得向量数据库成为未来十年最重要的新兴技术之一。

文章作者：Rick Hao ——Speedinvest 的合伙人

浏览 (2333)