paint-brush
Как Vectors, Rag и Llama 3 меняют собственные данныек@danielsvonava
1,110 чтения
1,110 чтения

Как Vectors, Rag и Llama 3 меняют собственные данные

к Daniel Svonava6m2024/06/27
Read on Terminal Reader

Слишком долго; Читать

Стремление к использованию первичных данных обычно заключается в том, что компаниям необходимо лучше управлять сбором данных и управлением ими. Потребители все чаще хотят знать, кто хранит их личную информацию, как они ее получили, почему она у них есть и что с ней делается. Стремление вернуть себе контроль над данными кажется важным, но практично ли оно?
featured image - Как Vectors, Rag и Llama 3 меняют собственные данные
Daniel Svonava HackerNoon profile picture
0-item

Первичные данные вернулись… с небольшой помощью друзей. Как векторы, RAG и LLAMA 3 приводят к кардинальным изменениям


За последние пять лет доминирующее мнение об инфраструктуре данных подчеркивало важность того, чтобы компании владели своими данными и использовали их, поскольку они получают как можно больше информации о своих пользователях и клиентах. В связи с ужесточением правил конфиденциальности им необходимо собирать данные самостоятельно, а не полагаться на сторонних операторов данных, таких как рекламные сети или платформы, такие как Google, Meta и Amazon . Компании поддержали эту идею и изменили ситуацию.


Но действительно ли собственные компании лучше в борьбе за лучшие данные? Не само по себе, но это может быть с небольшой помощью векторов, фреймворков, таких как RAG, и базовых моделей с открытым исходным кодом, таких как Llama 3 .

Стремление к собственным данным

Аргументы в пользу первичных данных обычно звучат так: компаниям необходимо лучше контролировать сбор и управление данными на фоне растущих требований к конфиденциальности данных . Потребители все чаще хотят знать, кто хранит их личную информацию, как они ее получили, почему она у них есть и что с ней делается – и им, как правило, не нравятся ответы на эти вопросы. Доступ и Удалить запросы быстро растут, а ситуация с конфиденциальностью данных быстро меняется. Компании обнаруживают, что достаточно сложно разобраться в своих собственных процессах управления конфиденциальностью; они также не хотят беспокоиться о третьих лицах.


Пользователи все больше обеспокоены тем, что происходит с данными, которые они предоставляют компаниям, а законы о конфиденциальности данных становятся все более строгими.


Но переход к первой стороне касается не только конфиденциальности. Существует также мнение, что сторонние данные потеряют ценность по мере того, как мы приближаемся к пресловутому будущему без файлов cookie. Компании не могут получить такую же подробную информацию, как раньше, так почему же они должны выделять бюджет на услугу, которая предоставляет меньше, чем раньше?


Кроме того, существует постоянная обеспокоенность тем, что крупные платформы и рекламные сети внесут неожиданные изменения. Например, они могут изменить свои алгоритмы, ограничить доступ к определенным типам данных или изменить рекламную политику таким образом, что это может нанести ущерб эффективности бизнеса, практически без предварительного уведомления. Зависимость от практики другой компании делает человека уязвимым. Компании чувствуют себя застрявшими, потому что они уже вложили так много времени, денег и ресурсов в свою стратегию обработки данных. В этом свете усилия по возвращению контроля над данными кажутся важными. Но практично ли это?


Проблемы первичных данных, о которых никто не говорит

Первые результаты компаний, сделавших ставку на первичные данные, не оправдали ожиданий. Мы наблюдаем случай за случаем с потребительскими компаниями, из-за которых этот сдвиг пострадал. Фарфетч , Всептицы , и SmileDirectClub это всего лишь несколько примеров. Сможет ли более эффективное и более стратегическое использование первичных данных переломить ситуацию с растущими затратами на привлечение клиентов?


Тем не менее, нынешняя зависимость от первичных данных – и методов их извлечения – является общей чертой нескольких компаний, которые сегодня переживают более трудные времена. Это достаточно заметно, чтобы заставить аналитиков, венчурных капиталистов и самих маркетологов задаться вопросом, были ли они неправы, расставив приоритеты в отношении первичных данных.


Недостатками сторонних данных, поскольку они в настоящее время собираются и используются, часто считается недооценка исчезновения идентификаторов устройств, смены IP-адресов, принятия потребителями поддельных электронных писем и блокировщиков рекламы. Хотя это и правда, существуют гораздо более важные проблемы.


Во-первых, существует огромный дефицит талантов. Крупные технологические компании и платформенные компании ловят лучших. Они могут предложить больше всего, что усложняет перспективным потребительским компаниям конкуренцию за специалистов по данным и специалистов по машинному обучению, необходимых для понимания собираемой и анализируемой информации. Без действительно исключительных людей компании испытывают трудности.


Существует также реальная проблема с инструментами. Предложения, доступные компаниям, далеко не эквивалентны инструментам, которыми могут похвастаться крупные технологические компании (что может быть фактором дефицита кадров). Инструменты имеют значение, и большинство компаний сейчас просто не могут конкурировать.


Наконец, есть проблема с объемом. У крупных технологических компаний и рекламных сетей есть горы данных, поскольку эти компании объединяют и анонимизируют сотни миллиардов точек данных, чтобы их модели работали эффективно. Напротив, если у компании есть только свои данные для работы, их просто недостаточно для того, чтобы ML работало так, как было обещано.


Хотя эти проблемы кажутся серьезными, не пора ли отказаться от потенциальных – и от необходимости – первичных данных? Ни за что!


Сила векторов

Самая большая проблема, препятствующая получению первичных данных, заключается в том, как компании пытаются получить к ним доступ. До сих пор бизнес придерживался подхода Старого Света. Модели необходимо создавать с нуля, чтобы извлечь из данных ценность, необходимую бизнесу. Это требует времени, денег и, прежде всего, таланта; это зависит от того, насколько хороши ваши инженеры по машинному обучению и специалисты по обработке данных. Однако, как обсуждалось выше, недостаточно талантливых специалистов, чтобы этот подход работал лучше, чем использование сторонних данных. Отсутствие таланта создает узкое место.


Представление информации в виде векторов позволяет глубже понять и проанализировать семантические связи.


Однако это не означает, что нам нужно отказаться от первичных данных. Нам просто нужно изменить свой подход к этому. В Новом Свете, который возможен сегодня, ключом к успеху являются векторы и векторные вложения. Векторы — это общие математические объекты, которые могут представлять функции или атрибуты точек данных, в то время как встраиваемые модели анализируют закономерности в данных для создания этих информативных, значимых представлений, извлеченных из данных; они фиксируют семантические отношения. Векторные внедрения — это формат, который может закодировать все, что вы знаете о пользователе или клиенте, и сделать эту информацию доступной для аналитической системы или использовать для персонализации взаимодействия с пользователем или даже для выявления случаев мошенничества. Есть так много возможностей. Векторы способны привести к кардинальным изменениям, поскольку они могут обеспечить фундаментально иной подход к аналитике.


Генерация с расширенным поиском (RAG) сейчас вызывает много шума из-за всех своих возможностей, но векторные встраивания — это то, что делает RAG полезным. Они являются центральным компонентом структуры, который помогает с контекстом, ответами, интеграцией поиска и точной настройкой моделей. Генерация высококачественных векторов и правильный запрос к ним — важнейшая задача, позволяющая любой системе RAG действительно работать. Существуют и другие платформы, но RAG особенно хорошо подходит для революции в области собственных данных.


Звучит здорово. Давайте все разберемся, как использовать векторы и векторные вложения. Это не полный ответ. Такие проблемы, как ограниченность наборов данных и инструментов, остаются. Еще не все красиво оформлено, но я верю, что скоро это произойдет. Потому что предварительно обученные базовые модели с открытым исходным кодом, такие как Llama 2 от Meta, которая в июле уступит место более надежной Llama 3, могут уравнять правила игры. Проблема нехватки объема данных по сравнению с BigTech смягчается. Используя модель с открытым исходным кодом, предварительно обученную на больших и разнообразных наборах данных, эта модель имеет определенный уровень знаний и понимания. Компаниям просто нужно точно настроить Llama 2 (или Llama 3) для своей конкретной области или задачи с помощью своих данные. Это устраняет узкие места, поскольку во многих случаях вам больше не придется обучать модель с нуля.


Это может показаться чрезмерным упрощением, учитывая, что Llama помогает компаниям работать с текстом, но большая часть данных, с которыми работают компании, не является текстом. Компании, работающие со структурированными данными, должны быть интегрированы в этот процесс. Например, поведенческие события пользователей, которые обычно составляют большую часть первичных данных, не подходят для обработки каким-либо LLM. Ситуация меняется, поэтому компании должны быть готовы к появлению новых мультимодальных решений. Точно так же по-прежнему не хватает инструментов, но пространству уделяется много внимания, поэтому предпринимаются большие шаги. Оно приближается!


Когда основные проблемы были фундаментально решены, ажиотаж вокруг данных вернулся, детка! Компаниям не нужно беспокоиться о том, что третьи лица нарушат конфиденциальность, и им не нужно зависеть от крупных технологических компаний, которые помогут им узнать своих клиентов. Ожидайте, что в этом году произойдет резкий взрыв данных из первых рук, поскольку компании, наконец, в полной мере воспользуются преимуществами, особенно с учетом того, что Llama 3 уже готова. Несмотря на все свои обещания, возможно, самый большой потенциал Llama 3 будет заключаться в том, чтобы раз и навсегда решить проблему с первичными данными.