Los datos propios han vuelto... con un poco de ayuda de sus amigos. Cómo Vectors, RAG y LLAMA 3 están impulsando un cambio radical
Durante los últimos cinco años, la narrativa dominante en torno a la infraestructura de datos ha enfatizado la importancia de que las empresas posean y aprovechen sus datos a medida que adquieren la mayor cantidad de información posible sobre sus usuarios y clientes. Debido a las crecientes regulaciones de privacidad, necesitan recopilar los datos ellos mismos en lugar de depender de operadores de datos de terceros, como redes publicitarias o plataformas como Google, Meta y Amazon . Las empresas se han alineado con esta narrativa y han hecho el cambio.
Pero, en la batalla por los mejores datos, ¿es realmente mejor la información propia? No por sí solo, pero podría serlo con un poco de ayuda de vectores, marcos como RAG y modelos básicos de código abierto como Llama 3 .
El argumento a favor de los datos propios generalmente es el siguiente: las empresas deben convertirse en mejores administradores de la adquisición y gestión de datos en medio de crecientes llamados a la privacidad de los datos . Los consumidores quieren cada vez más saber quién guarda su información personal, cómo la obtuvieron, por qué la tienen y qué se hace con ella, y generalmente no les gustan las respuestas a esas preguntas.
Pero el cambio hacia la propiedad privada no tiene que ver solo con la privacidad. También existe la idea de que los datos de terceros perderán valor a medida que avancemos hacia el proverbial futuro sin cookies. Las empresas no pueden obtener los mismos detalles granulares que antes, entonces, ¿por qué deberían dedicar presupuesto a un servicio que ofrece menos de lo que solía ofrecer?
Y luego está la preocupación perpetua de que las grandes plataformas y redes publicitarias realicen cambios inesperados. Por ejemplo, podrían cambiar sus algoritmos, restringir el acceso a ciertos tipos de datos o alterar las políticas publicitarias de una manera que podría perjudicar el desempeño de una empresa sin previo aviso. Depender de las prácticas de otra empresa lo deja a uno vulnerable. Las empresas se sienten estancadas porque ya han invertido mucho tiempo, dinero y recursos en su estrategia de datos. En este sentido, el impulso para recuperar el control de los datos parece esencial. ¿Pero es práctico?
Los primeros resultados de las empresas que apuestan por los datos propios no han cumplido las expectativas. Estamos viendo un caso tras otro de empresas de consumo que sufrieron el cambio.
Aún así, la dependencia actual de datos propios (y las prácticas para extraer esos datos) es algo común en varias empresas que están atravesando tiempos más difíciles en la actualidad. Es lo suficientemente notable como para hacer que los analistas, los capitalistas de riesgo y los propios especialistas en marketing se pregunten si se equivocaron al priorizar los datos propios.
A menudo se considera que las desventajas de los datos propios, tal como se adquieren y aprovechan actualmente, son la subestimación de la desaparición de las identificaciones de los dispositivos, el cambio de direcciones IP, la adopción por parte de los consumidores de correos electrónicos falsos y los bloqueadores de anuncios. Si bien es cierto, están en juego cuestiones mucho más importantes.
En primer lugar, existe una enorme brecha de talento. Las grandes empresas tecnológicas y las empresas de plataformas se quedan con las mejores. Tienen más que ofrecer, lo que dificulta que las empresas de consumo emergentes compitan por los científicos de datos y el talento de ML necesarios para dar sentido a la información que se recopila y analiza. Sin personas verdaderamente excepcionales, las empresas han tenido dificultades.
También existe un verdadero problema de herramientas. Las ofertas disponibles para las empresas no son ni de lejos equivalentes a las herramientas que las grandes empresas tecnológicas cuentan internamente (lo que puede ser un factor en la brecha de talento). Las herramientas marcan la diferencia y la mayoría de las empresas simplemente no pueden competir en este momento.
Finalmente, hay un desafío de volumen. Las grandes empresas tecnológicas y las redes publicitarias tienen montañas de datos, ya que estas empresas agrupan y anonimizan cientos de miles de millones de puntos de datos para que sus modelos funcionen de forma eficaz. Por el contrario, si una empresa sólo tiene sus datos para trabajar, simplemente no hay suficiente para que el ML funcione según lo prometido.
Si bien estos problemas parecen graves, ¿es hora de renunciar al potencial (y a la necesidad) de datos propios? ¡De ninguna manera!
El mayor problema que obstaculiza los datos propios es cómo las empresas intentan acceder a ellos. Hasta este punto, las empresas han adoptado un enfoque del Viejo Mundo. Los modelos deben construirse desde cero para extraer el valor de los datos que requieren las empresas. Esto requiere tiempo, dinero y, sobre todo, talento; Depende de qué tan buenos sean sus ingenieros de aprendizaje automático y científicos de datos. Sin embargo, como se mencionó anteriormente, no hay suficiente talento disponible para que este enfoque funcione mejor que aprovechar datos de terceros. La falta de talento crea el cuello de botella.
Sin embargo, esto no significa que debamos renunciar a los datos propios. Sólo necesitamos cambiar la forma en que lo abordamos. En el Nuevo Mundo que es posible hoy, los vectores y las incrustaciones de vectores son la clave. Los vectores son objetos matemáticos genéricos que pueden representar características o atributos de puntos de datos, mientras que los modelos integrados analizan patrones en los datos para generar estas representaciones significativas y repletas de información aprendidas de los datos; capturan las relaciones semánticas. Las incrustaciones de vectores son el formato que puede codificar todo lo que se sabe sobre un usuario o un cliente y hacer que esa información sea accesible para un sistema de análisis, o aprovechable para personalizar la experiencia del usuario, o incluso para detectar fraudes. Hay muchas posibilidades. Los vectores están preparados para impulsar un cambio radical porque pueden impulsar el análisis de una manera fundamentalmente diferente.
La generación de recuperación aumentada (RAG) está generando mucho revuelo en este momento por todo lo que puede permitir, pero las incrustaciones de vectores son lo que hace que RAG sea útil. Son un componente central del marco que ayuda con el contexto, las respuestas, la integración de la recuperación y el ajuste de los modelos. Generar vectores de alta calidad y consultarlos correctamente es una tarea crítica que permite que cualquier sistema RAG realmente funcione. Existen otros marcos, pero RAG es particularmente adecuado para una revolución de datos propios.
Suena genial. Descubramos todos cómo usar vectores e incrustaciones de vectores. Ésta no es la respuesta total. Persisten problemas como los conjuntos de datos y las herramientas limitados. Aún no todo está envuelto en un bonito lazo, pero creo que pronto lo estará. Porque los modelos básicos de código abierto y previamente entrenados como Llama 2 de Meta, que dará paso a Llama 3, más robusto en julio, pueden nivelar el campo de juego. Se mitiga el problema de no tener suficiente volumen de datos en comparación con las BigTech. Al utilizar un modelo de código abierto previamente entrenado en conjuntos de datos grandes y diversos, ese modelo tiene un cierto nivel de conocimiento y comprensión incorporado. Las empresas simplemente necesitan ajustar Llama 2 (o Llama 3) en su dominio o tarea específica con su datos. Esto alivia el cuello de botella porque, en muchos casos, ya no es necesario entrenar un modelo desde cero.
Esto puede parecer una simplificación excesiva, dado que Llama ayuda a las empresas a manejar texto, pero la mayoría de los datos que utilizan las empresas no son texto. Los datos estructurados que utilizan las empresas deben integrarse en este proceso. Por ejemplo, los eventos de comportamiento del usuario que normalmente constituyen un gran porcentaje de los datos propios no son adecuados para ser procesados por ningún LLM. Esto está cambiando, por lo que las empresas deben estar preparadas a medida que surjan nuevas soluciones multimodales. Del mismo modo, todavía faltan herramientas, pero se presta mucha atención al espacio, por lo que se están dando grandes pasos. ¡Ya viene!
Con los problemas más importantes abordados fundamentalmente, ¡la exageración de los datos propios ha vuelto, cariño! Las empresas no tienen que preocuparse de que terceros violen la privacidad, ni tienen que depender de las grandes tecnologías para ayudarlas a conocer a sus clientes. Espere ver cómo los datos propios explotan este año a medida que las empresas finalmente aprovechen al máximo, especialmente con Llama 3 listo. A pesar de toda su promesa, quizás el mayor potencial de Llama 3 sea resolver el problema de los datos propios de una vez por todas.