Un nuevo estudio revela que los clones de voz de IA son más fáciles de entender que los humanos en entornos ruidosos: pueden copiar voces reales con unos pocos segundos de habla grabada, utilizándose en asistencia virtual pero también para estafas.
La frontera entre la voz humana y la sintética ya es prácticamente imposible de precisar. Un estudio publicado en la revista The Journal of the Acoustical Society of America sostiene que las voces clonadas por Inteligencia Artificial (IA) resultan más fáciles de entender que las voces humanas cuando hay ruido de fondo. La investigación fue desarrollada por especialistas del University College London y la Universidad de Roehampton, en el Reino Unido.
El hallazgo no solo llama la atención por el resultado, sino también por su alcance: los investigadores partieron de clones de voz generados a partir de apenas unos segundos de habla registrada, una tecnología que ya se ha vuelto mucho más accesible con el avance de la IA generativa.
Clones de IA: más efectivos en todos los contextos
Según una nota de prensa, este tipo de clonación puede recrear una voz con alrededor de 10 segundos de muestra, lo cual amplía rápidamente el número de voces que pueden imitarse y las posibles aplicaciones del sistema. Como puede advertirse rápidamente, dichas aplicaciones pueden emplearse con fines útiles para la sociedad como también para nuevas alternativas de ciberdelincuencia.
Para medir la inteligibilidad real, el equipo comparó 10 voces humanas con sus 10 clones de IA, en un experimento en línea con 80 participantes. Los oyentes escucharon 80 oraciones, divididas entre voces humanas y clonadas, en cuatro niveles de ruido distintos: +3, 0, -3 y -6 dB (decibeles) de relación señal-ruido.
El resultado indicó que las voces clonadas fueron hasta 13,4 % más inteligibles o entendibles que sus equivalentes humanos, en todos los niveles de ruido. Sin embargo, los expertos esperaban que los clones fueran menos claros en contextos más ruidosos, al ser reproducciones artificiales y menos familiares para el oído.
No solo no fue así, sino que además el efecto se repitió incluso en pruebas con personas mayores, con oyentes de diferentes nacionalidades y con un filtro diseñado para simular implantes cocleares. En todas esas variantes, las voces clonadas por IA conservaron la ventaja con respecto a las reales.
Aplicaciones prácticas: entre la accesibilidad y el ciberdelito
El fenómeno no tiene una explicación definitiva. Luego de revisar más de 100 mediciones acústicas, el equipo no logró identificar aún cuál es la propiedad exacta que vuelve a estos clones más comprensibles en entornos ruidosos.
La hipótesis principal es que la respuesta podría estar en la forma en que los sistemas de síntesis de voz procesan digitalmente el sonido, una pista que abre una nueva línea de investigación sobre percepción auditiva, diseño de sintetizadores y accesibilidad.
Referencia
Voice clones are easier to understand in noise than their human originals: The voice cloning intelligibility benefit. Patti Adank and Han Wang. The Journal of the Acoustical Society of America (2026). DOI:https://doi.org/10.1121/10.0043094
En otro orden, las aplicaciones prácticas y sociales de estas tecnologías dan lugar tanto a la esperanza como a la preocupación. Por un lado, podrían mejorar asistentes virtuales, sistemas automatizados de atención y herramientas de accesibilidad para personas con dificultades auditivas.
Pero el mismo tiempo pueden facilitar acciones delictivas, relacionadas con la suplantación de identidades o la difusión de engaños de todo tipo. Sin dudas, la inclinación hacia uno u otro lado de la balanza dependerá de una combinación adecuada de regulaciones efectivas y educación tecnológica.













