Así funciona la peligrosa inteligencia artificial de TikTok que imita voces: “Implica riesgos”

El sistema basado en inteligencia artificial se destaca por el realismo de los resultados y por la capacidad de funcionar en tiempo real. Especialistas advierten una profundización en la problemática de las deepfakes.

29 de enero 2024, 12:31hs

StreamVoice es un desarrollo de ByteDance, la empresa china detrás de TikTok. (Foto: Adobe Stock)

ByteDance, la compañía china que desarrolla TikTok, tiene entre manos un avanzado sistema capaz de imitar voces de otras personas con gran realismo. Además, a diferencia de las tecnologías hasta ahora disponibles, actúa en tiempo real. El progreso es valioso, aunque trae una serie de riesgos debido a la dificultad para distinguir el contenido falso. Así, se agrava la problemática de las deepfakes o falsificaciones profundas, con sus numerosas consecuencias indeseables, como la desinformación, la difamación y el engaño.

StreamVoice: así funciona el clonador de voces de ByteDance

Las deepfakes no se agotan en las imágenes y los videos. El audio es otro de los formatos sobre los que operan los sistemas de falsificación. El creado por ByteDance se llama StreamVoice. Tal como señalamos, su principal progreso es la capacidad de funcionar en tiempo real. En la práctica, alguien puede hablar al micrófono para que el sistema, en ese mismo momento, emule la voz de un tercero.

La problemática de las deepfakes también involucra a las voces. (Foto: Adobe Stock)

Los propios creadores de esa herramienta —junto a ByteDance trabajaron investigadores de la Northwester Polytechnical University, de China— reconocieron en un artículo académico que existen “riegos potenciales” derivados del uso del programa, como la difusión de información falsa o el fraude telefónico. Por eso, StreamVoice aún no está disponible para el público general.

StreamVoice de ByteDance: los detalles del sistema que imita voces

Según comentaron los investigadores, el programa puede “convertir en tiempo real” la voz de una persona, imitando la de un tercero.Para ello, se basa en una “única locución” de la voz que se emulará. En ese sentido, el funcionamiento es similar al de otras herramientas de inteligencia artificial generativa, que consigue sus resultados en base a un entrenamiento previo con datos.¿Qué tan cierto es aquello de “tiempo real”? En la práctica, la demora es de apenas 124 milisegundos, explicaron los expertos involucrados en este desarrollo.El paso fundamental radica en que los sistemas anteriormente disponibles con esa función trabajaron con retraso. “Los experimentos demuestran la capacidad de StreamVoice para convertir el habla en streaming con un alto grado de similitud entre locutores conocidos y desconocidos, manteniendo al mismo tiempo un rendimiento comparable al de los sistemas de conversión de voz en diferido”, detallan los desarrolladores.

Leé también: Deepfake: cuál es el secreto para poder reconocerla

Para la creación de este método, ByteDance y los científicos de la universidad china utilizaron la arquitectura LLaMA, el modelo de lenguaje creado por Meta, que es de código abierto, además del sistema AudioDec, también de la exFacebook.

Los riesgos de las deepfakes

Las falsificaciones profundas están en el candelero esta semana, tras la proliferación de imágenes falsas con el rostro de la cantante Taylor Swift. La viralidad de esas deepfakes obligó a medidas drásticas. Por ejemplo, en Twitter se bloquearon las búsquedas sobre la artista estadounidense.

Las deepfakes dificultan la comprensión de los límites entre el contenido real y el falso. (Foto: DPA)

Tal como señalamos, las falsificaciones con IA no se agotan en el contenido visual: los audios también están involucrados. En cualquiera de los formatos, el nivel de realismo se multiplicó en forma exponencial conforme los sistemas generativos aumentan sus capacidades. Con ello, también crecieron los riesgos.

Leé también: Deepfake: crecen los fraudes con manipulación de imágenes creadas por inteligencia artificial

Los peligros de las voces clonadas no son triviales, tal como informó el medio Business Insider. Por mencionar un caso reciente, una llamada falsa emuló la forma de hablar del presidente de Estados Unidos, Joe Biden, pidiendo a las personas que no acudan a votar en las elecciones primarias en aquel país.

Así funciona la peligrosa inteligencia artificial de TikTok que imita voces: “Implica riesgos”

El sistema basado en inteligencia artificial se destaca por el realismo de los resultados y por la capacidad de funcionar en tiempo real. Especialistas advierten una profundización en la problemática de las deepfakes.

StreamVoice: así funciona el clonador de voces de ByteDance

StreamVoice de ByteDance: los detalles del sistema que imita voces

Los riesgos de las deepfakes

Roy Nikisch valoró el trabajo conjunto con la provincia en la obra de avenida Coronel Falcón

El insólito error de uno de los umpires más prestigiosos en el Masters Shanghai: se olvidó de contarle un punto a Wawrinka

La selección de Uruguay se reencontró cara a cara con Marcelo Bielsa tras las explosivas declaraciones de Suárez y los referentes

Atenas y Boca abren la Liga Nacional de Básquet en Córdoba y con estadio nuevo

Roy Nikisch valoró el trabajo conjunto con la provincia en la obra de avenida Coronel Falcón

El insólito error de uno de los umpires más prestigiosos en el Masters Shanghai: se olvidó de contarle un punto a Wawrinka

La selección de Uruguay se reencontró cara a cara con Marcelo Bielsa tras las explosivas declaraciones de Suárez y los referentes

Atenas y Boca abren la Liga Nacional de Básquet en Córdoba y con estadio nuevo