Por qué los datos sintéticos no reemplazan a las personas, pero sí cambian las decisiones

En medio del auge de la inteligencia artificial aplicada al marketing, los datos se han convertido en uno de los activos más estratégicos y disputados para las marcas.

Sin embargo, no todas las fuentes de datos aportan el mismo valor ni cumplen la misma función. Hoy, los datos sintéticos están ganando protagonismo como una herramienta que transforma la toma de decisiones, manteniendo en el centro a las personas reales que originan la información.

En términos simples, los datos sintéticos son información generada mediante algoritmos que replican patrones de comportamiento y respuesta observados en personas reales. Para hacerlo, los modelos se entrenan con datos humanos provenientes de encuestas y paneles con consentimiento y validación rigurosa y, a partir de esos patrones, generan respuestas probables. Esto permite ampliar muestras pequeñas, comprender de mejor forma audiencias difíciles de alcanzar o explorar escenarios sin iniciar cada análisis desde cero. Se trata de una forma más ágil de profundizar en lo que ya sabemos, apoyándose en bases reales y fortaleciendo la confianza en las decisiones.

Su crecimiento responde a una necesidad concreta. En entornos más regulados y con mayores restricciones sobre el uso de datos personales, las organizaciones requieren mecanismos responsables para modelar comportamientos sin exponer información sensible. En ese contexto, los datos sintéticos permiten simular escenarios preservando estándares de privacidad y cumplimiento normativo cada vez más exigentes.

De acuerdo con estimaciones que manejamos en Kantar, el mercado global de datos sintéticos podría alcanzar los USD 2,34 mil millones hacia 2030. Este dinamismo refleja una realidad operativa: obtener datos humanos de calidad es más costoso y complejo, especialmente en segmentos de nicho. La capacidad de escalar análisis y acelerar pruebas de hipótesis se ha convertido en una ventaja competitiva.

Uno de los aportes más relevantes de esta tecnología está en la mejora de la precisión estadística en subgrupos pequeños. Cuando los estudios ofrecen bases sólidas a nivel general pero limitadas en segmentos específicos, los modelos sintéticos permiten robustecer el análisis a partir de patrones ya observados. Esto incrementa la solidez de las decisiones y optimiza tiempos y presupuestos de investigación.

Conviene, además, despejar ciertas confusiones frecuentes. Los datos sintéticos no crean consumidores nuevos ni predicen comportamientos inexistentes; reproducen patrones detectados previamente en información real. Su calidad depende directamente de la calidad, representatividad y actualización de los datos que los alimentan. Modelos genéricos o entrenados con fuentes débiles tienden a amplificar sesgos y producir resultados poco confiables.

En paralelo, el avance de los grandes modelos de lenguaje (LLMs) ha abierto otro frente de transformación en la investigación de mercados. Estas tecnologías permiten resumir grandes volúmenes de información, clasificar respuestas abiertas, detectar temas emergentes y acelerar la elaboración de reportes. Sin embargo, también introducen riesgos específicos, como las llamadas “alucinaciones”, en las que el modelo genera respuestas plausibles pero incorrectas. Integrar LLMs en procesos de insight exige supervisión experta y validación constante.

Desde nuestra experiencia en Kantar, la clave está en combinar ambas capacidades dentro de un marco metodológico sólido. Hemos desarrollado modelos de datos sintéticos entrenados sobre paneles reales y verificados, y avanzamos en la construcción de gemelos digitales (digital twins) basados en más de 7 millones de panelistas en 54 mercados y 26 idiomas. Estos modelos permiten simular escenarios futuros con una base empírica robusta, incorporando controles éticos y regulatorios desde el diseño.

El impacto va más allá de la eficiencia técnica. Integrar datos humanos, datos sintéticos y herramientas de IA bien gobernadas permite reducir la incertidumbre estratégica en decisiones de innovación, posicionamiento y asignación de inversión. Las organizaciones que obtienen mejores resultados son aquellas que combinan investigación tradicional con modelamiento sintético y automatización analítica para responder preguntas específicas con mayor profundidad y velocidad.

El riesgo aparece cuando la adopción es superficial o guiada únicamente por la novedad tecnológica. Sin comprensión metodológica ni contraste con datos reales, cualquier modelo por sofisticado que parezca puede erosionar la confianza y distorsionar decisiones.

Los datos sintéticos están redefiniendo la forma en que las marcas deciden, innovan y compiten. Su valor estratégico reside en ampliar la capacidad de análisis manteniendo estándares científicos y éticos rigurosos. En un entorno donde la velocidad importa y la confianza determina el éxito, integrar datos humanos y modelos sintéticos con criterio metodológico se convierte en una ventaja competitiva sostenible.

También le puede interesar: Mujeres que están moviendo la creatividad