paint-brush
Vectors、Rag 和 Llama 3 如何改变第一方数据经过@danielsvonava
新歷史

Vectors、Rag 和 Llama 3 如何改变第一方数据

经过 Daniel Svonava6m2024/06/27
Read on Terminal Reader

太長; 讀書

推动第一方数据发展的一般观点是,公司需要更好地管理数据采集和管理。消费者越来越想知道谁掌握着他们的个人信息,他们是如何获得这些信息的,为什么拥有这些信息,以及这些信息被用在了什么地方。推动重新控制数据似乎是必不可少的,但这是否可行呢?
featured image - Vectors、Rag 和 Llama 3 如何改变第一方数据
Daniel Svonava HackerNoon profile picture
0-item

第一方数据回归……在朋友的帮助下。Vectors、RAG 和 LLAMA 3 如何推动变革


在过去五年中,围绕数据基础设施的主流观点强调了公司拥有和利用数据的重要性,因为他们可以尽可能多地获取有关用户和客户的信息。由于隐私法规日益严格,他们需要自己收集数据,而不是依赖第三方数据运营商,例如广告网络或Google、 MetaAmazon等平台。公司已经顺应了这种观点并做出了转变。


但是,在争夺最佳数据的战斗中,第一方真的更好吗? 本身并不是,但在向量、RAG 等框架和Llama 3等开源基础模型的帮助下可能会更好。

推动第一方数据

第一方数据的争论通常是这样的:在数据隐私保护呼声日益高涨的背景下,公司需要更好地掌握和管理数据。消费者越来越想知道谁掌握着他们的个人信息,他们是如何获得这些信息的,为什么拥有这些信息,以及这些信息被用来做什么——而他们通常不喜欢这些问题的答案。使用权删除请求正在迅速增加,数据隐私形势也在迅速变化。公司发现,搞清楚自己的隐私管理流程已经够难的了;他们不想再担心第三方的隐私管理流程。


用户越来越担心他们提供给公司的数据会发生什么,数据隐私法也变得越来越严格。


但转向第一方数据并不全是为了隐私。还有一种观点认为,随着我们走向所谓的无 Cookie 未来,第三方数据将失去价值。公司无法获得他们曾经可以获得的同样详细的信息,那么他们为什么要将预算投入到比以前更少的服务上呢?


此外,人们一直担心大型平台和广告网络会做出意想不到的改变。例如,它们可能会改变算法、限制对某些类型数据的访问,或者在几乎没有通知的情况下改变广告政策,从而损害企业业绩。依赖另一家公司的做法会让自己处于危险之中。公司感到陷入困境,因为他们已经在数据战略上投入了大量的时间、金钱和资源。从这个角度来看,重新夺回数据控制权的努力似乎至关重要。但这可行吗?


没人谈论的 First-Data 问题

冒险尝试第一方数据的公司的早期结果并未达到预期。我们看到,消费者公司在转型后遭遇了一系列失败。 法拉菲特 Allbirds , 和SmileDirectClub只是几个例子。更好、更有策略地使用第一方数据是否能扭转客户获取成本不断上升的趋势?


尽管如此,目前对第一方数据的依赖以及提取这些数据的做法是当今许多处于困境中的公司的共同点。这一点显而易见,足以让分析师、风险投资人和营销人员自己扪心自问,优先考虑第一方数据是否是错误的。


目前获取和利用的第一方数据的缺点通常被认为是低估了设备 ID 的消失、IP 地址的更改、消费者使用虚假电子邮件和广告拦截器的可能性。虽然确实如此,但还有更重要的问题在起作用。


首先,人才缺口巨大。大型科技公司和平台公司抢走了最优秀的人才。他们能提供最多的人才,这使得新兴的消费品公司很难争夺数据科学家和机器学习人才,而这些人才是理解收集和分析的信息所必需的。没有真正优秀的人才,公司就会举步维艰。


还有一个真正的工具问题。公司可用的产品远不及大型科技公司内部吹嘘的工具(这可能是人才缺口的一个因素)。工具很重要,大多数公司现在根本无法竞争。


最后,还有数据量方面的挑战。大型科技公司和广告网络拥有海量数据,因为这些公司汇集并匿名化了数千亿个数据点,以使他们的模型有效运行。相比之下,如果一家公司只有自己的数据可供使用,那么机器学习就无法按承诺发挥作用。


虽然这些问题看起来很严重,但是我们是不是应该放弃第一方数据的潜力和需求呢?绝不!


向量的力量

阻碍第一方数据的最大问题是公司如何获取这些数据。到目前为止,企业采取的是旧世界的方法。必须从头开始构建模型,以从企业所需的数据中提取价值。这需要时间、金钱,最重要的是人才;这取决于你的机器学习工程师和数据科学家有多优秀。然而,如上所述,没有足够的人才使这种方法比利用第三方数据更好。缺乏人才造成了瓶颈。


将信息表示为向量可以实现更深入的理解和语义关系分析。


然而,这并不意味着我们需要放弃第一方数据。我们只需要改变我们处理数据的方式。在当今可能出现的新世界中,向量和向量嵌入是关键。向量是通用的数学对象,可以表示数据点的特征或属性,而嵌入模型可以分析数据中的模式,以生成从数据中学习到的这些信息丰富、有意义的表示;它们捕获语义关系。向量嵌入是一种格式,可以对您所了解的有关用户或客户的所有信息进行编码,并使分析系统可以访问这些信息,或者利用它来个性化用户体验,甚至发现欺诈行为。可能性太多了。向量有望推动翻天覆地的变化,因为它们可以以根本不同的方式为分析提供支持。


检索增强生成 (RAG) 目前因其所有功能而备受关注,但向量嵌入才是 RAG 真正有用的原因。它们是框架的核心组件,有助于处理上下文、响应、检索集成和模型微调。生成高质量向量并正确查询它们是使任何 RAG 系统真正发挥作用的关键任务。还有其他框架,但 RAG 特别适合第一方数据革命。


听起来不错。让我们一起弄清楚如何使用向量和向量嵌入。这不是全部答案。数据集有限和工具有限等问题仍然存在。一切尚未完美收尾,但我相信很快就会完美收尾。因为开源、预先训练的基础模型(如 Meta 的 Llama 2,将于 7 月让位于更强大的 Llama 3)可以为竞争提供公平的条件。与 BigTech 相比,数据量不足的问题得到了缓解。通过使用在大型和多样化数据集上预先训练的开源模型,该模型内置了一定程度的知识和理解。公司只需使用他们的数据在其特定领域或任务上微调 Llama 2(或 Llama 3)。这缓解了瓶颈,因为在许多情况下,您不再需要从头开始训练模型。


这听起来可能过于简单,因为 Llama 可以帮助公司处理文本,但公司运行的大多数数据都不是文本。公司运行的结构化数据需要集成到此过程中。例如,通常占第一方数据很大一部分的用户行为事件不适合由任何 LLM 处理。这种情况正在改变,因此公司应该为新的多模式解决方案的出现做好准备。同样,工具仍然缺乏,但人们对该领域非常关注,因此正在取得巨大进步。它正在到来!


随着最大的问题得到根本解决,第一方数据炒作又回来了!公司不必担心第三方侵犯隐私,也不必依赖大型科技公司来帮助他们了解客户。随着公司最终充分利用第一方数据,预计今年第一方数据将呈爆炸式增长——尤其是在 Llama 3 准备就绪的情况下。尽管 Llama 3 前景光明,但或许它最大的潜力在于一劳永逸地解决第一方数据问题。