En el mundo del análisis de datos y la inteligencia empresarial, los equipos de datos, también llamados "   ", que crean las soluciones que necesitan los usuarios empresariales (rojo) y trabajan con equipos de ingeniería (azul), esencialmente construyen la infraestructura para los datos. . equipos morados  Los equipos de BI trabajan predominantemente en la creación de flujos o canalizaciones que entregan informes y paneles esenciales para el consumo de los usuarios empresariales.  Hay muchas herramientas de nueva generación que ayudan a los equipos de datos a crear estas soluciones para el usuario final, como   ,   y   , o líderes de la industria que estuvieron en el espacio del "análisis de datos" durante un tiempo, como Tableau o PowerBI. Mode Superset Lightdash  Los analistas que crean estas soluciones deben preparar sus datos de diversas fuentes, asegurándose de que estén desinfectados para realizar consultas. Un conjunto de herramientas o transformaciones destinadas a realizar un paso de limpieza en el flujo de trabajo llamado "Preparación de datos".   Con la llegada de los grandes modelos de lenguaje, hablar de IA ha sido una tendencia común en todo el sector de la ingeniería de software. Pero, ¿qué pasa si digo: utilizando prácticas   , podríamos automatizar la limpieza del paso de datos? ¡Permitiéndole exportar una versión más limpia del conjunto de datos con el mínimo esfuerzo! de IA centradas en datos  En este blog, analizaremos cómo, al utilizar la IA centrada en datos, puede preparar fácilmente sus datos para las herramientas de BI a fin de garantizar conclusiones confiables de su análisis de datos posterior.  Flujo de trabajo del analista de datos  Hace varios años, los analistas de datos tenían que recopilar, limpiar y analizar datos manualmente, lo que era un proceso que requería mucho tiempo y limitaba su capacidad para obtener información valiosa.   Hoy en día, el panorama del análisis de datos ha experimentado una transformación significativa con la introducción de herramientas de preparación de datos como   ,   , etc. Alteryx Tableau  Estas eficientes herramientas han simplificado el flujo de trabajo, permitiendo a los analistas integrar sin problemas datos de múltiples fuentes, automatizar tareas de limpieza de datos y generar representaciones de datos visualmente atractivas y reveladoras.   Análisis de datos después de la preparación manual de datos  Los datos preparados con las herramientas se analizan mediante herramientas de BI para identificar consultas comerciales específicas.  Por ejemplo, considere   de solicitudes de clientes dentro de un banco donde los clientes registran los problemas que encuentran en un portal de servicio al cliente, que luego un administrador de tareas humano o automatizado etiqueta. este conjunto de datos  Imagínese si un analista de negocios tuviera que determinar la cantidad de solicitudes de clientes que aparecen para una categoría de problema en particular. A continuación se muestra el resultado que vería: la categoría   muestra   problemas de clientes.  beneficiary_not_allowed 111  De manera similar, si un analista quiere saber cuántos casos de problemas están relacionados con la palabra   , un análisis rápido arrojaría la siguiente representación visual. Observe la cantidad de problemas para la categoría   .  ATM change_pin  Parece simple y directo, pero si profundiza en   , puede encontrar que la categorización de las solicitudes de los clientes es incorrecta en algunos casos. el conjunto de datos  Por ejemplo:  Texto  Etiqueta (según el conjunto de datos)  Etiqueta (idealmente)  Mi tarjeta está casi caducada. ¿Qué tan rápido recibiré uno nuevo y cuál es el costo?  apple_pay_o_google_pay  tarjeta_sobre_para_expirar  Los datos del mundo real, en su mayor parte, son confusos y desestructurados, lo que dificulta deducir valores a través de estadísticas. Como queremos que los humanos y las máquinas tomen decisiones basadas en datos, sería fundamental que los datos estuvieran bien etiquetados, libres de datos erróneos y sin duplicaciones.  IA centrada en datos  Es fundamental garantizar que los datos utilizados en los análisis sean precisos, estén actualizados y no contengan duplicados. No hacerlo puede dar lugar a decisiones y conclusiones incorrectas. Por ejemplo, un campo de ubicación vacío en los datos del perfil de usuario o un formato inconsistente del campo de ubicación pueden provocar errores. Por lo tanto, mantener la calidad de los datos es fundamental para un análisis de datos eficaz.  La IA centrada en datos es la disciplina de diseñar sistemáticamente los datos utilizados para construir un sistema de IA. La mayoría de los datos del mundo real no están estructurados o están mal etiquetados. Un conjunto de datos de calidad con el conjunto correcto de datos de entrenamiento etiquetados conduce a un modelo eficiente que podría predecir mejores resultados.  Mejores resultados generan una mejor experiencia del cliente. Para obtener más información, puede consultar el curso   del MIT. de IA centrada en datos  Presentamos Cleanlab    es un proyecto de código abierto que le ayuda a limpiar datos y etiquetas detectando automáticamente problemas en el conjunto de datos. Cleanlab utiliza   , basado en un artículo que habla sobre la estimación de la incertidumbre en las etiquetas de conjuntos de datos escrito por Curtis Northcutt (también cofundador de   ) y otros. Cleanlab el aprendizaje seguro Cleanlab.ai  Cleanlab básicamente mejora el flujo de trabajo de análisis de datos al inducir la IA.   Limpia automáticamente tus datos con Cleanlab Studio  Cleanlab Studio es una herramienta sin código construida sobre el paquete de código abierto Cleanlab y ayuda a preparar los datos para un flujo de trabajo de análisis. También puede importar datos desde sus almacenes de datos como   ,   o Cloud Object Stores como   . Databricks Snowflake AWS S3  Paso 1:  Regístrese para acceder a   .  Cleanlab Studio  Iniciará sesión en un panel con algunos conjuntos de datos y proyectos de muestra.   Paso 2:  Haga clic en "Cargar conjunto de datos" para iniciar el asistente de carga. Puede cargar   desde su computadora, URL, API o un almacén de datos como   y Snowflake.  el conjunto de datos Databricks  Cleanlab Studio infiere automáticamente su esquema y modalidad de datos, es decir, texto, imagen, voz o tabular.   Una vez que confirme los detalles, se le mostrará una pantalla con el conjunto de datos cargado y los errores asociados (¡si los hay!) encontrados al cargar los datos.     Nota: Es posible que algunos conjuntos de datos tarden unos minutos en cargarse. Cleanlab le informará una vez que el conjunto de datos esté completamente cargado en Cleanlab Studio por correo electrónico.  Paso 3:  Según el tipo de conjunto de datos, puede utilizar una tarea específica de aprendizaje automático para identificar problemas con los datos. Actualmente, Cleanlab Studio admite varias tareas de clasificación de ML relacionadas con datos de texto, tabulares e imágenes.  Específicamente para la clasificación, puede ser una de las clases K o una de las N de K clases. En este conjunto de datos, cada solicitud de un cliente se incluye en una categoría específica. Sería una clasificación “Multiclase”.   Cleanlab studio detectará automáticamente la columna de texto y etiqueta. Puedes corregirlo si es necesario.   Es posible que el uso de modelos rápidos no produzca los mejores resultados; En aras del tiempo, elegir Rápido es una opción.  Pulsa “¡   " Limpiar mis datos!  Etapa 4:  ¡Cleanlab Studio ejecuta un conjunto de modelos en el conjunto de datos y presenta una descripción general del problema!  Como se señaló anteriormente, el conjunto de datos tenía datos categorizados erróneamente y valores atípicos, que podrían no agregar valor al proceso general de toma de decisiones cuando se analicen.   También puede echar un vistazo a los metanálisis de los problemas identificados por Cleanlab Studio en el conjunto de datos cambiando a la vista de análisis en la parte superior.   Paso 5:  La parte interesante de Cleanlab Studio no es solo exportar un conjunto de datos limpio, sino también ofrecer una vista de sus datos orientada a problemas. El banco de trabajo de preparación de datos que falta y que un analista de datos y un usuario de inteligencia empresarial ha deseado durante años.  Puede ordenar cada problema mediante acciones asistidas por teclado proporcionadas en Cleanlab Studio O exportar un "Exportar Cleanset" haciendo clic en el botón a continuación.   Análisis de datos después de la preparación de datos asistida por IA  Examinemos el mismo análisis de datos con el conjunto de datos limpio.  Parece que hay discrepancias en los números entre las categorías   y   . Si bien se trata de un conjunto de datos más pequeño, es importante tener en cuenta que estas correcciones de datos podrían generar estimaciones significativamente diferentes y posibles decisiones comerciales a mayor escala.  cancel_transfer visa_or_mastercard  De manera similar, puede encontrar que las solicitudes de los clientes para algunas categorías desaparecen a medida que los problemas se marcan adecuadamente.   Si es analista de datos o forma parte de la comunidad de inteligencia empresarial, Cleanlab Studio puede revolucionar su flujo de trabajo de preparación de datos. Pruebe   hoy y experimente el poder de la limpieza de datos asistida por IA para un análisis de datos más confiable y preciso. Cleanlab Studio  Conclusión  Cleanlab Studio es un banco de trabajo de preparación de datos sin código utilizado por miles de ingenieros, analistas y científicos de datos en empresas Fortune 500. Esta plataforma innovadora fue pionera en el MIT para entrenar modelos de aprendizaje automático más confiables y precisos utilizando datos erróneos del mundo real. Puedes unirte a nuestra   para obtener más información. comunidad Slack

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

Este audio es producido en el idioma original de la historia!

Mejora de la preparación de datos con IA para inteligencia empresarial

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

¿Quieres ganar un concurso de redacción de HackerNoon? Esto es lo que recomiendan los ganadores del concurso #crypto-api

Toque para ganar: Telegram puede incorporar a los próximos 10 mil millones de usuarios de criptomonedas antes de Solana

La guía completa para una migración exitosa a la nube: estrategias y mejores prácticas

Las capas invisibles: por qué las entrevistas con los usuarios son un activo irremplazable

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps