В мире анализа данных и бизнес-аналитики группы данных, также называемые « фиолетовыми командами », которые создают решения, необходимые бизнес-пользователям (красный цвет), и работают с инженерными командами (синий цвет), по сути, создают инфраструктуру для данных. .
Команды BI преимущественно работают над созданием потоков или конвейеров, которые предоставляют отчеты и необходимые информационные панели для использования бизнес-пользователями.
Существует множество инструментов нового поколения, которые помогают командам по работе с данными создавать эти решения для конечных пользователей, такие как Mode , Superset и Lightdash , или лидеры отрасли, которые какое-то время работали в сфере «аналитики данных», такие как Tableau или PowerBI.
Аналитики, создающие эти решения, должны подготовить свои данные из различных источников, гарантируя, что данные очищены для запросов. Набор инструментов или преобразований, направленных на выполнение этапа очистки в рабочем процессе, называемого «Подготовка данных».
С появлением больших языковых моделей обсуждение ИИ стало общей тенденцией в разработке программного обеспечения. Но что, если я скажу: используя методы искусственного интеллекта, ориентированные на данные , мы могли бы автоматизировать этап очистки данных? Позволяет вам экспортировать более чистую версию набора данных с минимальными усилиями!
В этом блоге мы обсудим, как с помощью ИИ, ориентированного на данные, вы можете легко подготовить данные для инструментов BI, чтобы обеспечить надежные выводы из последующего анализа данных.
Несколько лет назад аналитикам данных приходилось вручную собирать, очищать и анализировать данные, что занимало много времени и ограничивало их возможности получать ценную информацию.
Сегодня ландшафт анализа данных претерпел значительные изменения с появлением таких инструментов подготовки данных, как Alteryx , Tableau и т. д.
Эти эффективные инструменты упростили рабочий процесс, позволяя аналитикам беспрепятственно интегрировать данные из нескольких источников, автоматизировать задачи очистки данных и создавать визуально привлекательные и содержательные представления данных.
Данные, подготовленные с помощью этих инструментов, анализируются с помощью инструментов BI для выявления конкретных бизнес-запросов.
Например, рассмотрим этот набор данных запросов клиентов в банке, где клиенты регистрируют проблемы, с которыми они сталкиваются, на портале обслуживания клиентов, который затем маркируется человеком или автоматизированным менеджером задач.
Представьте себе, что бизнес-аналитик должен определить количество запросов клиентов, поступивших по определенной категории проблем. Ниже приведен результат, который он/она увидит: в категории beneficiary_not_allowed
показано 111
проблем клиентов.
Аналогично, если аналитик хочет узнать, сколько случаев проблем связано со словом ATM
, быстрый анализ вернется к визуальному представлению. Обратите внимание на количество проблем в категории change_pin
.
Это выглядит просто и понятно, но если вы углубитесь в набор данных , то обнаружите, что в некоторых случаях категоризация запросов клиентов неверна.
Например:
Текст | Этикетка (согласно набору данных) | Этикетка (в идеале) |
---|---|---|
Срок действия моей карты почти истек. Как быстро я получу новый и какова его стоимость? | apple_pay_or_google_pay | card_about_to_expire |
Реальные данные по большей части беспорядочны и неструктурированы, что затрудняет вычисление значений с помощью статистики. Поскольку мы хотим, чтобы люди и машины принимали решения на основе данных, крайне важно, чтобы данные были хорошо маркированы, очищены от любых ошибочных данных и дедуплицированы.
Крайне важно гарантировать, что данные, используемые в анализе, являются точными, актуальными и не содержат дубликатов. Несоблюдение этого требования может привести к неверным решениям и выводам. Например, пустое поле местоположения в данных профиля пользователя или несогласованное форматирование поля местоположения могут привести к ошибкам. Поэтому поддержание качества данных имеет решающее значение для эффективной аналитики данных.
Ориентированный на данные ИИ — это дисциплина систематического проектирования данных, используемых для создания системы ИИ. Большинство данных в реальном мире неструктурированы или помечены неправильно. Качественный набор данных с правильным набором помеченных обучающих данных приводит к созданию эффективной модели, которая может предсказать лучшие результаты.
Лучшие результаты обеспечивают лучшее качество обслуживания клиентов. Чтобы узнать больше, вы можете обратиться к курсу Data-centric AI от MIT.
Cleanlab — это проект с открытым исходным кодом, который помогает очищать данные и метки путем автоматического обнаружения проблем в наборе данных. Cleanlab использует уверенное обучение , основанное на статье Кертиса Норткатта (также соучредителя Cleanlab.ai ) и других, в которой рассказывается об оценке неопределенности в метках наборов данных.
Cleanlab по сути улучшает рабочий процесс анализа данных за счет использования искусственного интеллекта.
Cleanlab Studio — это инструмент без кода, созданный на основе пакета с открытым исходным кодом Cleanlab. Он помогает подготовить данные для рабочего процесса анализа. Вы также можете импортировать данные из своих хранилищ данных, таких как Databricks , Snowflake , или хранилищ облачных объектов, таких как AWS S3 .
Зарегистрируйтесь, чтобы получить доступ к Cleanlab Studio .
Вы войдете на панель управления с некоторыми примерами наборов данных и проектов.
Нажмите «Загрузить набор данных», чтобы запустить мастер загрузки. Вы можете загрузить набор данных со своего компьютера, URL-адреса, API или хранилища данных, такого как Databricks и Snowflake.
Cleanlab Studio автоматически определяет вашу схему и модальность данных, т. е. текст, изображение, голос или таблицу.
Как только вы подтвердите данные, вам будет показан экран с загруженным набором данных и связанными с ним ошибками (если таковые имеются!), возникшими при загрузке данных.
Примечание. Загрузка некоторых наборов данных может занять несколько минут. Cleanlab сообщит вам по электронной почте, как только набор данных будет полностью загружен в Cleanlab Studio.
В зависимости от типа набора данных вы можете использовать конкретную задачу машинного обучения для выявления проблем с данными. В настоящее время Cleanlab Studio поддерживает несколько задач классификации машинного обучения, связанных с текстовыми, табличными и графическими данными.
В зависимости от классификации это может быть один из K классов или один из N из K классов. В этом наборе данных каждый запрос клиента относится к определенной категории. Это будет «мультиклассовая» классификация.
Студия Cleanlab автоматически определит выбранный столбец текста и меток. При необходимости вы можете это исправить.
Использование быстрых моделей может не дать наилучших результатов; В интересах времени можно выбрать Fast.
Нажмите « Очистить мои данные!» »
Cleanlab Studio запускает набор моделей на основе набора данных и представляет обзор проблемы!
Как указывалось ранее, в наборе данных неправильно классифицированы данные и выбросы, которые могут не повысить ценность общего процесса принятия решений при анализе.
Вы также можете просмотреть метааналитику проблем, выявленных Cleanlab Studio в наборе данных, переключившись на аналитическое представление вверху.
Интересная часть Cleanlab Studio — это не просто экспорт очищенного набора данных, но и предоставление проблемно-ориентированного представления ваших данных. Отсутствующее рабочее место для подготовки данных, о котором аналитики данных и пользователи бизнес-аналитики мечтали уже много лет.
Вы можете отсортировать каждую проблему с помощью действий с помощью клавиатуры, предусмотренных в Cleanlab Studio, ИЛИ экспортировать «Экспорт набора очистки», нажав кнопку ниже.
Давайте рассмотрим тот же анализ данных с очищенным набором данных.
Похоже, что существуют расхождения в числах между категориями cancel_transfer
и visa_or_mastercard
. Хотя это меньший набор данных, важно отметить, что такие исправления данных могут привести к существенно отличающимся оценкам и потенциальным бизнес-решениям в более крупном масштабе.
Аналогично, вы можете обнаружить, что запросы клиентов по некоторым категориям исчезают, поскольку проблемы помечаются соответствующим образом.
Если вы аналитик данных или являетесь частью сообщества бизнес-аналитики, Cleanlab Studio может революционизировать ваш рабочий процесс подготовки данных. Попробуйте Cleanlab Studio сегодня и испытайте возможности очистки данных с помощью искусственного интеллекта для более надежного и точного анализа данных.
Cleanlab Studio — это инструмент для подготовки данных без программирования, используемый тысячами инженеров, аналитиков и специалистов по обработке данных в компаниях из списка Fortune 500. Эта инновационная платформа была впервые использована в Массачусетском технологическом институте для обучения более надежных и точных моделей машинного обучения с использованием реальных ошибочных данных. Вы можете присоединиться к нашему сообществу Slack для получения дополнительной информации.