El peligro de los ‘deepfakes’ de clonación de voz

por Juan Ignacio Rouyet28 Nov 2023Ética, Inteligencia artificial, Redes Sociales

Nuevas herramientas de Inteligencia Artificial permiten reproducir una voz en diversos idiomas, lo que puede llevar a que cibercriminales suplanten la identidad a través de llamadas falsas

En las películas de Misión Imposible vemos cómo mimetizan la voz de cualquier persona. Luego Ethan Hunt (Tom Cruise) se pone una máscara con la cara de la víctima. Llega al lugar de encuentro, habla de forma natural con la voz del suplantado y así se hace pasar por él. Parece misión imposible, pero hoy en día estamos más cerca gracias a la inteligencia artificial (IA). Al menos en lo que respecta a copiar la voz. Hay una diferencia. No siempre copiamos la voz con el noble objetivo de luchar contra el mal, como en las películas. A veces es para engañar de viva voz. Son las deepfake de clonación de voz.

La clonación de la voz con fines delictivos viene sucediendo desde hace unos años. Últimamente es más preocupante porque resulta más fácil y nadie está a salvo.

Desde inversores a humildes abuelos

En enero de 2020 un director de una sucursal de una empresa japonesa en Hong Kong sufrió una estafa de clonación voz. Recibió una llamada telefónica, aparentemente normal, de quien decía ser el director de la compañía. El director de la sucursal no lo dudó, pues la voz le resultaba totalmente familiar y no tuvo reparo en seguir todas las instrucciones que le dieron, hasta transferir 35 millones de dólares a los estafadores.

En la primavera de este año, el inversor de Florida Clive Kabatznik fue víctima de un intento similar y en Canadá unos abuelos recibieron una llamada supuestamente de su nieto, alarmándoles de que se encontraba en la cárcel y necesitaba efectivo para pagar la fianza. Afortunadamente en ambos casos los intentos fueron detectados y no se pudo consumar la estafa. Pero el riesgo existe y no es complejo de realizar.

Háblame durante 3 segundos

Actualmente la técnica de clonación de voz no es exactamente como en las películas de Misión Imposible. Más que transformar la voz de una persona en la de otra, lo que se hace es la generación de una voz particular a partir de un texto. Es lo que se conoce como síntesis de texto a discurso (test-to-speech, o TTS). Su funcionamiento se basa en identificar patrones de voz. Todos hablamos de una forma particular, y por ello reconocemos las voces de cada persona. Tenemos un cierto tono, un timbre y una cadencia particular. Una red neuronal para la clonación de voz ha sido entrenada para reconocer estos patrones identificativos de cada voz y luego reproducirlos en la lectura de cualquier texto.

Antes de usar este tipo de aplicaciones, es recomendable leer las condiciones legales, a pesar de no estar escritas en un lenguaje amigable

Un ejemplo significativo de IA de clonado de voz es VALL-E, elaborado por Microsoft. Su red neuronal ha sido entrenada por una librería de voces en inglés con más de 60.000 horas de audio y de 7000 personas diferentes. Su potencia radica en que, para entender los patrones de una voz, le basta con 3 segundos de grabación. Por el momento, Microsoft no facilita esta IA de forma abierta y en su página web solo se pueden ver ejemplos demostrativos de su capacidad.

Sin embargo, sí existen muchas aplicaciones en Internet que permiten clonar una voz de forma sencilla. Basta con 30 segundos de grabación o leer un texto corto que proporciona la propia aplicación. Estas aplicaciones no nacen con el propósito de estafar voces. Su objetivo es ofrecer voces particulares, o tu propia voz, para actividades como animar vídeos, dar voz a avatares en videojuegos, creación de parodias o acciones de marketing. También se puede aplicar con fines sociales, como la lectura de textos para personas con dislexia. Clonar la voz no es un hecho delictivo en sí mismo, sino que depende de la bondad o maldad de cada uno.

Cómo evitar ser estafado de viva voz

En todos los casos estas aplicaciones avisan de posibles usos fraudulentos, delegando en el usuario toda la responsabilidad de un uso inapropiado. Antes de usar este tipo de aplicaciones, es recomendable leer las condiciones legales, a pesar de no estar escritas en un lenguaje amigable, porque determinan cuáles son las responsabilidades y concesiones de los usuarios. Hay que vigilar qué datos recopila la aplicación, junto con el registro de tu voz, y con qué fines se pueden utilizar. Además, lo que se publica puede ser accesible a terceras partes, quedando fuera de la política de privacidad de la propia aplicación.

Otro punto de atención es utilizar una voz ajena sin permiso de su dueño. Algo similar ya ha ocurrido, en el caso de utilización de imágenes. La empresa Clearview AI utilizó 30.000 millones de imágenes tomadas de redes sociales, sin consentimiento de sus dueños, para entrenar su sistema de reconociendo facial. Esto significa que cualquier voz subida a redes sociales puede ser utilizada, bien como entrenamiento, o bien para ser clonada.

Por desgracia no somos buenos identificando voces clonadas. Una forma de identificar si una voz ha sido clonada con IA es utilizar la propia IA. Existen aplicaciones, basadas en IA, que permiten identificar la clonación de voz. Pero es posible que no siempre tengamos acceso a esta tecnología. Otras opciones, más al alcance de la mano, se basan en la natural intuición ante una estafa: por ejemplo, verificar con terceras personas si una grabación sospechosa puede ser de su dueño no; ponerse en contacto por otra vía con la persona supuestamente suplantada; o hacer alguna pregunta o comentario al interlocutor sospechoso sobre algo que solamente la verdadera persona conoce. Hay que recordar que clonan la voz, pero no la persona (todavía).

Publicado en The Conversation

Ver otros artículos