В мире анализа данных и бизнес-аналитики группы данных, также называемые «   », которые создают решения, необходимые бизнес-пользователям (красный цвет), и работают с инженерными командами (синий цвет), по сути, создают инфраструктуру для данных. . фиолетовыми командами  Команды BI преимущественно работают над созданием потоков или конвейеров, которые предоставляют отчеты и необходимые информационные панели для использования бизнес-пользователями.  Существует множество инструментов нового поколения, которые помогают командам по работе с данными создавать эти решения для конечных пользователей, такие как   ,   и   , или лидеры отрасли, которые какое-то время работали в сфере «аналитики данных», такие как Tableau или PowerBI. Mode Superset Lightdash  Аналитики, создающие эти решения, должны подготовить свои данные из различных источников, гарантируя, что данные очищены для запросов. Набор инструментов или преобразований, направленных на выполнение этапа очистки в рабочем процессе, называемого «Подготовка данных».   С появлением больших языковых моделей обсуждение ИИ стало общей тенденцией в разработке программного обеспечения. Но что, если я скажу: используя методы   , мы могли бы автоматизировать этап очистки данных? Позволяет вам экспортировать более чистую версию набора данных с минимальными усилиями! искусственного интеллекта, ориентированные на данные  В этом блоге мы обсудим, как с помощью ИИ, ориентированного на данные, вы можете легко подготовить данные для инструментов BI, чтобы обеспечить надежные выводы из последующего анализа данных.  Рабочий процесс аналитика данных  Несколько лет назад аналитикам данных приходилось вручную собирать, очищать и анализировать данные, что занимало много времени и ограничивало их возможности получать ценную информацию.   Сегодня ландшафт анализа данных претерпел значительные изменения с появлением таких инструментов подготовки данных, как   ,   и т. д. Alteryx Tableau  Эти эффективные инструменты упростили рабочий процесс, позволяя аналитикам беспрепятственно интегрировать данные из нескольких источников, автоматизировать задачи очистки данных и создавать визуально привлекательные и содержательные представления данных.   Анализ данных после ручной подготовки данных  Данные, подготовленные с помощью этих инструментов, анализируются с помощью инструментов BI для выявления конкретных бизнес-запросов.  Например, рассмотрим   запросов клиентов в банке, где клиенты регистрируют проблемы, с которыми они сталкиваются, на портале обслуживания клиентов, который затем маркируется человеком или автоматизированным менеджером задач. этот набор данных  Представьте себе, что бизнес-аналитик должен определить количество запросов клиентов, поступивших по определенной категории проблем. Ниже приведен результат, который он/она увидит: в категории   показано   проблем клиентов.  beneficiary_not_allowed 111  Аналогично, если аналитик хочет узнать, сколько случаев проблем связано со словом   , быстрый анализ вернется к визуальному представлению. Обратите внимание на количество проблем в категории   .  ATM change_pin  Это выглядит просто и понятно, но если вы углубитесь в   , то обнаружите, что в некоторых случаях категоризация запросов клиентов неверна. набор данных  Например:  Текст  Этикетка (согласно набору данных)  Этикетка (в идеале)  Срок действия моей карты почти истек. Как быстро я получу новый и какова его стоимость?  apple_pay_or_google_pay  card_about_to_expire  Реальные данные по большей части беспорядочны и неструктурированы, что затрудняет вычисление значений с помощью статистики. Поскольку мы хотим, чтобы люди и машины принимали решения на основе данных, крайне важно, чтобы данные были хорошо маркированы, очищены от любых ошибочных данных и дедуплицированы.  Ориентированный на данные ИИ  Крайне важно гарантировать, что данные, используемые в анализе, являются точными, актуальными и не содержат дубликатов. Несоблюдение этого требования может привести к неверным решениям и выводам. Например, пустое поле местоположения в данных профиля пользователя или несогласованное форматирование поля местоположения могут привести к ошибкам. Поэтому поддержание качества данных имеет решающее значение для эффективной аналитики данных.  Ориентированный на данные ИИ — это дисциплина систематического проектирования данных, используемых для создания системы ИИ. Большинство данных в реальном мире неструктурированы или помечены неправильно. Качественный набор данных с правильным набором помеченных обучающих данных приводит к созданию эффективной модели, которая может предсказать лучшие результаты.  Лучшие результаты обеспечивают лучшее качество обслуживания клиентов. Чтобы узнать больше, вы можете обратиться к курсу   от MIT. Data-centric AI  Представляем чистую лабораторию    — это проект с открытым исходным кодом, который помогает очищать данные и метки путем автоматического обнаружения проблем в наборе данных. Cleanlab использует   , основанное на статье Кертиса Норткатта (также соучредителя   ) и других, в которой рассказывается об оценке неопределенности в метках наборов данных. Cleanlab уверенное обучение Cleanlab.ai  Cleanlab по сути улучшает рабочий процесс анализа данных за счет использования искусственного интеллекта.   Автоматическая очистка данных с помощью Cleanlab Studio  Cleanlab Studio — это инструмент без кода, созданный на основе пакета с открытым исходным кодом Cleanlab. Он помогает подготовить данные для рабочего процесса анализа. Вы также можете импортировать данные из своих хранилищ данных, таких как   ,   , или хранилищ облачных объектов, таких как   . Databricks Snowflake AWS S3  Шаг 1:  Зарегистрируйтесь, чтобы получить доступ к   .  Cleanlab Studio  Вы войдете на панель управления с некоторыми примерами наборов данных и проектов.   Шаг 2:  Нажмите «Загрузить набор данных», чтобы запустить мастер загрузки. Вы можете загрузить   со своего компьютера, URL-адреса, API или хранилища данных, такого как   и Snowflake.  набор данных Databricks  Cleanlab Studio автоматически определяет вашу схему и модальность данных, т. е. текст, изображение, голос или таблицу.   Как только вы подтвердите данные, вам будет показан экран с загруженным набором данных и связанными с ним ошибками (если таковые имеются!), возникшими при загрузке данных.     Примечание. Загрузка некоторых наборов данных может занять несколько минут. Cleanlab сообщит вам по электронной почте, как только набор данных будет полностью загружен в Cleanlab Studio.  Шаг 3:  В зависимости от типа набора данных вы можете использовать конкретную задачу машинного обучения для выявления проблем с данными. В настоящее время Cleanlab Studio поддерживает несколько задач классификации машинного обучения, связанных с текстовыми, табличными и графическими данными.  В зависимости от классификации это может быть один из K классов или один из N из K классов. В этом наборе данных каждый запрос клиента относится к определенной категории. Это будет «мультиклассовая» классификация.   Студия Cleanlab автоматически определит выбранный столбец текста и меток. При необходимости вы можете это исправить.   Использование быстрых моделей может не дать наилучших результатов; В интересах времени можно выбрать Fast.  Нажмите «   » Очистить мои данные!»  Шаг 4:  Cleanlab Studio запускает набор моделей на основе набора данных и представляет обзор проблемы!  Как указывалось ранее, в наборе данных неправильно классифицированы данные и выбросы, которые могут не повысить ценность общего процесса принятия решений при анализе.   Вы также можете просмотреть метааналитику проблем, выявленных Cleanlab Studio в наборе данных, переключившись на аналитическое представление вверху.   Шаг 5:  Интересная часть Cleanlab Studio — это не просто экспорт очищенного набора данных, но и предоставление проблемно-ориентированного представления ваших данных. Отсутствующее рабочее место для подготовки данных, о котором аналитики данных и пользователи бизнес-аналитики мечтали уже много лет.  Вы можете отсортировать каждую проблему с помощью действий с помощью клавиатуры, предусмотренных в Cleanlab Studio, ИЛИ экспортировать «Экспорт набора очистки», нажав кнопку ниже.   Анализ данных после подготовки данных с помощью искусственного интеллекта  Давайте рассмотрим тот же анализ данных с очищенным набором данных.  Похоже, что существуют расхождения в числах между категориями   и   . Хотя это меньший набор данных, важно отметить, что такие исправления данных могут привести к существенно отличающимся оценкам и потенциальным бизнес-решениям в более крупном масштабе.  cancel_transfer visa_or_mastercard  Аналогично, вы можете обнаружить, что запросы клиентов по некоторым категориям исчезают, поскольку проблемы помечаются соответствующим образом.   Если вы аналитик данных или являетесь частью сообщества бизнес-аналитики, Cleanlab Studio может революционизировать ваш рабочий процесс подготовки данных. Попробуйте   сегодня и испытайте возможности очистки данных с помощью искусственного интеллекта для более надежного и точного анализа данных. Cleanlab Studio  Заключение  Cleanlab Studio — это инструмент для подготовки данных без программирования, используемый тысячами инженеров, аналитиков и специалистов по обработке данных в компаниях из списка Fortune 500. Эта инновационная платформа была впервые использована в Массачусетском технологическом институте для обучения более надежных и точных моделей машинного обучения с использованием реальных ошибочных данных. Вы можете присоединиться к нашему   для получения дополнительной информации. сообществу Slack

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

Этот звук создан на языке оригинала истории!

Улучшение подготовки данных с помощью ИИ для бизнес-аналитики

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Telegram: мост Крипто-острова на материк

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Раскрытие силы ИИ. Систематический обзор передовых методов: Краткое содержание и введение

Краткое введение в теорию мозга Больцмана

Telegram: мост Крипто-острова на материк

Плавание по водам: разработка RAG-приложений промышленного уровня с использованием озер данных

Раскрытие силы ИИ. Систематический обзор передовых методов: Краткое содержание и введение

Краткое введение в теорию мозга Больцмана

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps