La creación y uso masivo de datos sintéticos está tomando cada vez más fuerza. En una sociedad cada vez más inmersa en pantallas y sistemas digitales, los datos se han convertido en el pilar de la innovación. Para las empresas que generan grandes cantidades de información, esto representa una oportunidad con valor incalculable. Las redes sociales, plataformas de streaming y otros servicios de uso masivo aprovechan constantemente la actividad de los usuarios para mejorar sus algoritmos, desarrollar nuevas funciones y mostrar anuncios dirigidos.
Pero, ¿qué pasa cuando se busca desarrollar herramientas o productos sin tener una buena cantidad de datos que faciliten un punto de partida confiable?
La empresa Databricks permitirá a los clientes aumentar la capacidad de sus modelos de inteligencia artificial con datos sintéticos y aprendizaje por refuerzo.
Un fenómeno silencioso pero revolucionario está tomando cada vez más fuerza: la creación y uso masivo de datos sintéticos para alimentar algoritmos que marcan el camino de decisiones que van desde lo comercial hasta temas de salud y estrategias políticas.
La oportunidad latinoamericana: datos donde no hay datos
A medida que los datos reales se hacen más costosos y la privacidad de los usuarios cobra más peso, los datos sintéticos han trascendido su papel original de proteger identidades para convertirse en arquitectos de realidades alternativas.
En términos simples, los datos sintéticos imitan diversos escenarios basados en características y patrones de datos reales, pero sin ser una copia de estos y con la ventaja de que no usan información personal o confidencial.
NVIDIA, por ejemplo, ha desarrollado un marco robusto para la generación de datos sintéticos para entrenar y valorar modelos de IA en industrias con regulaciones complejas como robótica, visión por computadora o el desarrollo de vehículos autónomos.
En el caso de los vehículos autónomos, en colaboración con marcas como BMW, esta gigante de la IA emplea su tecnología para generar infinidad de escenarios de conducción configurables (clima, tráfico, iluminación, comportamiento de peatones), permitiendo entrenar sistemas de percepción y planificación bajo multitud de condiciones extremas sin exponer datos reales.
“En América Latina tenemos un gran desafío: muchas industrias carecen de grandes volúmenes de datos estructurados o de calidad para entrenar modelos de inteligencia artificial”, explica Paolo Colonnello, cofundador y CEO de la startup chilena Diio, impulsada por IA. «Ahí, los datos sintéticos abren una oportunidad única, porque nos permiten simular escenarios que reflejen la diversidad cultural, lingüística y económica de la región».
Se prevé que el mercado global de datos sintéticos alcance los 3,7 mil millones de dólares para 2030, siendo un mercado de gran potencial para empresas de la región interesadas en desarrollar sus negocios a partir de estos y para compañías especializadas en entrenamiento y validación de modelos de IA implementando datos artificiales.
“Lo interesante es que no se trata solo de ‘inventar’ datos, sino de complementar los que ya existen para superar sesgos y escasez. Nosotros hemos visto cómo el uso de datos sintéticos puede acelerar la creación de modelos que entienden mejor las conversaciones de ventas en español o portugués, algo que los modelos entrenados solo con inglés no resuelven bien. En ese sentido, los datos sintéticos no reemplazan la realidad, sino que permiten innovar más rápido y democratizar el acceso a tecnología de alto nivel en mercados donde los datos son un activo más escaso”, concluye Colonnello.
Aplicaciones que ya nos afectan
Lo que comenzó como un método técnico para anonimizar registros se ha transformado en un generador de mundos paralelos con impacto directo en la vida tangible.
Por ejemplo, en salud, si se busca acelerar la detección del cáncer de mama a través de imágenes radiológicas, los científicos de datos pueden simular registros históricos y diagnósticos basados en datos reales y luego crear modelos que simulen miles de casos adicionales, aumentando la precisión sin necesidad de exponer información sensible de pacientes.
En banca y comercio electrónico, los datos sintéticos permiten simular fraudes, patrones de consumo y escenarios de riesgo que, aunque no existan en la realidad, ayudan a anticipar problemas y diseñar soluciones, siendo clave para la notable cantidad de soluciones fintech que están surgiendo en América Latina.
Y en gobiernos, están comenzando a ganar protagonismo para modelar políticas públicas en contextos donde no hay estadísticas confiables o donde los censos se realizan cada década.
A pesar de las ventajas que los datos sintéticos ofrecen para simular numerosos escenarios y entrenar modelos más diversos, es crucial validarlos con la realidad para evitar que reflejen o amplifiquen sesgos existentes.
“Los datos sintéticos tienen un gran potencial para proteger la privacidad, especialmente en contextos donde compartir datos reales puede violar regulaciones o comprometer información sensible”, dijo a WIRED en Español Mauricio Mora, Sr. Data Science Manager en BBVA.
“Sin embargo, su capacidad para reducir sesgos depende en gran medida de cómo se generen. Si el modelo generador aprende de datos sesgados, reproducirá o incluso amplificará esos sesgos. Es decir, no basta con que los datos sean sintéticos, también deben ser cuidadosamente diseñados y validados para no perpetuar las mismas inequidades del mundo real”, advierte Mora.
¿Sociedad sintética o sociedad real?
Si bien originalmente estas técnicas nacieron para anonimizar datos personales, hoy su alcance se ha expandido: los datos sintéticos ya no solo representan lo existente, sino que generan escenarios, perfiles, conductas y mundos enteros, muchos de los cuales nunca han ocurrido en la realidad.
Esta transición plantea una pregunta urgente: ¿qué sucede cuando la “verdad” sobre la que se basa la IA es, en esencia, una simulación? Más allá del clásico debate sobre sesgos, la nueva era donde los datos son la base de diversas soluciones implica que las decisiones de impacto social y político podrían estar condicionadas por datos fabricados o inferidos, no por hechos comprobados.
La proliferación de esta “sociedad sintética” abre dilemas profundos: ¿cómo verificamos la ética de modelos entrenados con mundos que no existen? ¿Quién es responsable si una IA, alimentada por ficciones, instaura regulaciones o diagnósticos médicos que afectan a millones de personas?
Dada la importancia de verificar que los datos sintéticos usados reflejen realidades locales y no únicamente escenarios artificiales, los expertos recomiendan una auditoría que incluya una combinación de técnicas estadísticas, pruebas de robustez y validación empírica con datos reales.
“Algunas buenas prácticas incluyen procesos como comparar distribuciones entre datos sintéticos y reales para asegurar que capturan adecuadamente las características locales; evaluar el desempeño de modelos entrenados con datos sintéticos en escenarios reales, usando métricas como precisión, recall y F1 en conjuntos de prueba representativos; auditorías éticas y revisiones por expertos del dominio, que pueden detectar sesgos o inconsistencias que los modelos automáticos no ven; y total transparencia en la generación para saber qué variables, fuentes y algoritmos se usaron para generar los datos. Esto permite entender sus límites”, explica Mauricio Mora.
Mientras un 55% de latinoamericanos está a favor de regular la inteligencia artificial, la frontera entre simulación y realidad se hace cada vez más delgada y corremos el riesgo de derribar el principio fundamental de la verificación: la capacidad de contrastar una afirmación con la experiencia vivida o con evidencia directa.
En este nuevo mundo impulsado por algoritmos y desarrollos artificiales, la transparencia que prometen algunas compañías ya no basta. Se requieren mecanismos de auditoría, límites claros y marcos regulatorios que permitan comprender y controlar el poder de los datos sintéticos en la construcción de verdades compartidas. Porque si dejamos en manos de la simulación la base del conocimiento social y económico, podríamos estar fundando nuestra realidad sobre una ficción cuidadosamente elaborada y fragmentando, en el proceso, la confianza colectiva.