Hable con cualquier persona que trabaje en el campo de la inteligencia artificial, el análisis o la ciencia de datos y le dirá que los datos sintéticos son el futuro. Pero si les pregunta qué quieren decir con “datos sintéticos”, obtendrá respuestas muy diferentes. Esto se debe a que los datos sintéticos no son solo una cosa, sino una categoría amplia con múltiples casos de uso y definiciones. Y esa ambigüedad hace que las conversaciones sean confusas. Así pues, dejemos de lado el ruido. En esencia, los datos sintéticos funcionan en dos dimensiones clave. La primera es un espectro que abarca desde completar los datos faltantes en un conjunto de datos existente hasta generar conjuntos de datos completamente nuevos. La segunda distingue entre intervenciones a nivel de datos brutos e intervenciones a nivel de información o resultados. Imagine estas dimensiones como ejes en un gráfico. Esto crea cuatro cuadrantes, cada uno de los cuales representa un tipo diferente de datos sintéticos: . Cada uno cumple una función distinta y, si trabaja con datos en cualquier capacidad, necesita saber la diferencia. imputación de datos, creación de usuarios, modelado de información y resultados manufacturados Imputación de datos: rellenando los espacios en blanco Si bien algunos podrían argumentar que la imputación de datos no es verdaderamente información sintética, las técnicas de imputación modernas han evolucionado más allá de la simple sustitución de medias o medianas. Hoy, la imputación avanzada aprovecha el aprendizaje automático y los modelos de inteligencia artificial generativa, lo que hace que los valores generados sean más sofisticados y contextualmente relevantes que nunca. La imputación de datos se encuentra en la intersección de y . Esto significa que trabajamos con conjuntos de datos existentes que tienen lagunas y nuestro objetivo es generar valores plausibles para completarlos. A diferencia de otros tipos de datos sintéticos, la imputación no consiste en crear información completamente nueva, sino en hacer que los datos incompletos sean más utilizables. los datos faltantes la intervención de datos sin procesar una empresa de investigación de mercado que realiza estudios sobre la eficacia de los medios puede tener lagunas en los datos de respuesta de su audiencia debido a la falta de respuestas de la encuesta. En lugar de descartar conjuntos de datos incompletos, las técnicas de imputación (como el modelado estadístico o el aprendizaje automático) pueden generar estimaciones realistas, lo que garantiza que los analistas puedan seguir extrayendo información significativa de los datos. Ejemplo: Creación de usuarios: personas falsas, información real La creación de usuarios se encuentra entre y . En lugar de modificar los datos existentes, este enfoque crea perfiles y comportamientos de usuario completamente nuevos. Es particularmente útil cuando los datos de usuarios reales no están disponibles, son confidenciales o deben escalarse artificialmente. la generación de nuevos datos la intervención con datos sin procesar La creación de usuarios es un elemento innovador a la hora de probar productos, mejorar la seguridad y entrenar modelos de IA. un servicio de streaming podría crear perfiles de usuarios sintéticos para probar su motor de recomendaciones sin exponer datos reales de los clientes. Las empresas de ciberseguridad hacen lo mismo para simular escenarios de ataques y entrenar sistemas de detección de fraudes. Ejemplo: Modelado de información: patrones sin riesgos para la privacidad El modelado de información funciona en la intersección de y . En lugar de manipular puntos de datos sin procesar, crea conjuntos de datos que preservan las propiedades estadísticas de los datos del mundo real sin exponer los registros reales. Esto lo hace ideal para aplicaciones que respetan la privacidad. los datos existentes la intervención en el nivel de información El modelado de información también permite a los investigadores escalar la información obtenida a partir de conjuntos de datos preexistentes, en particular cuando no es práctico recopilar datos a gran escala. Esto es habitual en la investigación de mercados, donde la recopilación de datos puede resultar engorrosa y costosa. Sin embargo, este enfoque requiere una base sólida de datos de entrenamiento del mundo real. una empresa de investigación de mercado que realiza pruebas de copia podría utilizar modelos de información para escalar su base de datos normativa. En lugar de depender únicamente de las respuestas de encuestas recopiladas, la empresa puede generar modelos de información sintéticos que extrapolan patrones de los datos normativos existentes. Esto permite a las marcas probar el rendimiento creativo frente a un conjunto de datos más amplio y predictivo sin tener que recopilar continuamente nuevas respuestas de encuestas. Ejemplo: Resultados fabricados: cuando los datos aún no existen Los resultados manufacturados se encuentran en el extremo de y . Este enfoque implica generar conjuntos de datos completamente nuevos desde cero para simular entornos o escenarios que aún no existen, pero que son esenciales para el entrenamiento, el modelado y las simulaciones de IA. la generación de nuevos datos de la intervención a nivel de conocimientos A veces, los datos que necesitas simplemente no existen, o son demasiado costosos o peligrosos de recopilar en el mundo real. Ahí es donde entran en juego los resultados manufacturados. Este proceso genera conjuntos de datos completamente nuevos, a menudo para entrenar sistemas de IA en entornos que son difíciles de replicar. las empresas de automóviles autónomos generan escenarios de carreteras sintéticos (como un peatón que cruza la calle de forma imprudente) para entrenar su IA en situaciones raras pero críticas que podrían no aparecer a menudo en imágenes de conducción del mundo real. Ejemplo: Riesgos y consideraciones de los datos sintéticos Si bien los datos sintéticos brindan soluciones poderosas, no están exentos de riesgos. Cada tipo de datos sintéticos presenta sus propios desafíos que pueden afectar la calidad, la confiabilidad y el uso ético de los datos. A continuación, se presentan algunas cuestiones clave que se deben tener en cuenta: si los datos subyacentes utilizados para la imputación, el modelado de conocimientos o los resultados fabricados contienen sesgos, esos sesgos pueden reforzarse o incluso amplificarse. Propagación de sesgos: la creación de usuarios y la fabricación de datos pueden generar datos que parecen realistas pero no logran captar los matices del comportamiento real del usuario o las condiciones del mercado. Falta de representatividad del mundo real: el modelado de información, cuando se aplica incorrectamente, puede crear datos que se alinean demasiado con el conjunto de entrenamiento, lo que lleva a conclusiones engañosas. Sobreajuste y falsa confianza: Las leyes de privacidad como GDPR y CCPA aún se aplican a los datos sintéticos si pueden modificarse mediante ingeniería inversa para identificar a personas reales. Preocupaciones regulatorias y éticas: Preguntas clave que se deben plantear al evaluar datos sintéticos Para garantizar que los datos sintéticos cumplan con los estándares de calidad, considere estas preguntas: Comprender la base de los datos sintéticos ayuda a evaluar posibles sesgos y limitaciones. ¿Cuál es la fuente de los datos originales? Diferentes métodos (aprendizaje automático, modelos estadísticos o sistemas basados en reglas) afectan la confiabilidad de los datos sintéticos. ¿Cómo se generaron los datos sintéticos? Asegúrese de que los datos generados se comporten de manera similar a los datos reales sin simplemente duplicarlos. ¿Los datos sintéticos mantienen la integridad estadística de los datos del mundo real? Los datos sintéticos fiables deben contar con mecanismos de validación. ¿Se pueden auditar o validar los datos sintéticos? El hecho de que los datos sean sintéticos no significa que estén exentos de las normas de privacidad. ¿Cumple con las normas éticas y regulatorias? Los datos sintéticos son tan buenos como los datos del mundo real en los que se basan. Garantizar un proceso para actualizar continuamente el conjunto de datos de base evita que los modelos queden obsoletos y no se ajusten a las tendencias actuales. ¿Existe un proceso para actualizar los modelos de datos subyacentes? Envolviéndolo Los datos sintéticos son un término amplio y, si trabaja en el campo de la inteligencia artificial, el análisis o cualquier otro campo basado en datos, debe tener claro con qué tipo de datos está tratando. ¿Está completando los datos faltantes (imputación), creando usuarios de prueba (creación de usuarios), generando patrones anónimos (modelado de información) o construyendo conjuntos de datos completamente nuevos desde cero (resultados fabricados)? Cada uno de estos factores desempeña un papel diferente en la forma en que utilizamos y protegemos los datos, y comprenderlos es fundamental para tomar decisiones informadas en el mundo de la IA y la ciencia de datos, que evoluciona rápidamente. Así que la próxima vez que alguien mencione el término “datos sintéticos”, pregúntele: ¿de qué tipo?