Inicio Aplicaciones La clonación de voz: un grave peligro que amenaza nuestro trabajo

La clonación de voz: un grave peligro que amenaza nuestro trabajo

Los avances en Inteligencia Artificial aplicados a la clonación de voz representan un verdadero peligro. ¿Cómo enfrentarlo?

Por

Tito López

04/14/2023

445

Armando Plata Camacho acaba de ser reelegido como presidente de la Asociación Colombiana de Locutores, un nombramiento más que merecido para alguien que no solo ha sobresalido como actor de voz a lo largo de su extensa carrera, sino por su visión, sus investigaciones y sus propuestas siempre nuevas para el crecimiento de nuestro oficio.

En medio de su búsqueda de opciones novedosas, hace muchos años prestó su voz para un servicio de TTS (Text To Speech o Texto a voz). Él admite que, luego de estar encerrado horas y horas grabando miles de palabras, finalmente recibió un buen dinero por su trabajo.

Sin embargo, hoy se arrepiente. Y lo hace no solo porque gracias a esta herramienta podría estarles quitando trabajo a muchos colegas suyos.

Lo hace también porque su voz ha sido usada para narrar todo tipo de textos en comerciales, programas, pódcasts y hasta en videos pornográficos. Claro, él no tiene control sobre su voz, y con ella se puede hacer lo que uno quiera.

Si usted quiere escuchar su voz sintetizada, dé clic en este enlace:

Ahora, como dije antes, este sistema fue creado hace mucho tiempo, y la locución suena muy artificial y robotizada. Ya en 1968, el japonés Noriko Umeda había creado un sistema que permitía convertir un texto en inglés a voz. Pero a partir de ese momento, el sistema comenzó a evolucionar.

Y en los años 90 apareció una nueva tecnología TTS: la síntesis de selección de unidades, que sigue siendo ideal para los motores TTS de bajo consumo en la actualidad. Probablemente este fue el sistema utilizado para la grabación del señor Plata.

De esta forma, el sistema comenzaba a funcionar con una gran base de datos de voz grabada (alrededor de 20 horas o más) y seleccionaba los fragmentos de sonido que ya tienen la duración y el tono apropiados. El locutor que prestaba su voz debía hablar de manera natural.

Aunque ese sistema proporciona un habla similar a la humana sin mucha modificación de la señal, es muy fácil darse cuenta de que se trata de un proceso artificial.

Pero el tiempo siguió pasando, y a lo largo de todas estas décadas de desarrollo, el poder de procesamiento de los computadores y el crecimiento de la capacidad de almacenamiento de datos han venido creando el escenario apropiado para la próxima era en la tecnología TTS, que, como gran parte de nuestra era informática actual, se basa en la Inteligencia Artificial para realizar increíbles proezas de predicción.

Ahora las redes neuronales profundas son la tecnología que impulsa los avances actuales en la tecnología TTS, y son claves para los resultados realistas que ahora son posibles.

Al igual que sus predecesores, el TTS neuronal comienza con grabaciones de voz. Esa es una entrada. La otra entrada es el texto, el guion escrito que usó el locutor original para crear esas grabaciones. Al alimentar estas entradas a una red neuronal profunda se realizará el mejor mapeo posible entre un bit de texto y las características acústicas asociadas.

Una vez que el modelo esté entrenado, podrá entregar un sonido realista para nuevos textos, notablemente similares a la voz del talento de voz original cuando se expone a prácticamente cualquier texto nuevo.

Esa similitud entre la fuente y la salida es la razón por la cual el TTS neuronal a veces se denomina «clonación de voz», que es lo que estamos viviendo ahora.

¿Y cómo suena?

Aunque puedo leer y escuchar el idioma inglés con un nivel medio, mi pronunciación no es la mejor. Para crear un ejemplo quise grabar un texto con mi voz hablando en inglés. Así suena (dé clic en este enlace):

Luego, tomé esa misma voz como referencia para que fuera clonada por un sistema de Inteligencia Artificial. Modifiqué un poco el texto para que suene como que es el robot quien habla de mi pronunciación. ¿Qué tan parecida resulta esa voz? Juzgue usted mismo (dé clic en este enlace):

Quiero confesar que quedé aturdido, sorprendido, asustado, preocupado y muy molesto.

Aunque actualmente este sistema está hecho para ser usado en inglés, seguramente dentro de muy poco también funcionará perfectamente en español.

Claro, entonces llega nuestra preocupación: un productor podrá tomar como referencia cualquier voz y utilizarla para grabar lo que desee. Pero no solo para trabajos de actuación de voz. Hablo de cualquier persona del común, cuya voz podrá ser utilizada para lo que sea: estafas, engaños, amenazas, en fin la suplantación que a cualquiera se le ocurra.

Por ejemplo, hay bancos en México que usan la voz del cliente para acceder a su cuenta y hacer transacciones. ¡Un verdadero peligro!

¿Qué se puede hacer al respecto?

Como siempre, las leyes van mucho más atrás que la tecnología. Por ahora, y tratándose de algo tan nuevo, no existe en ningún país alguna ley que pueda regular este uso indiscriminado de la voz de cualquier persona.

Por esta razón, varias asociaciones de locutores o actores de voz ya han comenzado a pronunciarse al respecto.

Por ejemplo, en un artículo llamado “Los actores de voz se unen al ver peligrar su trabajo por la inteligencia artificial”, el diario El País de España dice que un sindicato de ese país lanzó un primer comunicado en el que pide, mediante regulación, la creación de algo llamado “acento IA”. Algo que permitiría distinguir con algún efecto de sonido que una voz no es humana.

Su preocupación tiene que ver con el reemplazo, por ejemplo, de los locutores que hacen doblajes de series o películas. Ponen el ejemplo de alguna casa productora que, en lugar de usar una voz femenina para doblar a Meryl Streep al español, prefiera usar la propia voz de esa artista mediante Inteligencia Artificial y que haga la sincronización digital con sus labios.

En el comunicado, el sindicato también se pregunta a quiénes pertenecen las voces que se usan cuando se clonan. Y esto, para mí, es lo más preocupante, no solo porque afecta nuestro trabajo sino también, como lo dije arriba, la privacidad de cualquier persona, sin importar su sexo, edad, nivel socioeconómico, idioma, rango, etcétera.

Solo imagínese a alguien usando la voz suya, sí, la de usted, sin su consentimiento, para insultar al Papa, al presidente de su país o a su vecino.

Pero no solo en España hay preocupación. Esta ya existe en todo el mundo, y nuestra región no podía quedarse atrás. Y, precisamente, un grupo de actores de voz de Latinoamérica, Estados Unidos y España ha conformado al OVU, Organización de Voces Unidas.

*Logo de OVU*, Organización de Voces Unidas

Justamente esta semana lanzaron una página web en la que incluyen un manifiesto en el que exponen unos requerimientos que podrían beneficiarnos a todos quienes trabajamos con la voz en cualquier campo.

Algunas de sus peticiones son:

Queremos tener derecho a decidir cómo se usan nuestras voces y decidir qué se hace con ellas.
Queremos participar en la creación de leyes. En la regulación y en la implementación de esa regulación.
Queremos participar activamente en foros, paneles, entrevistas, podcasts, también en webcasts, documentales y realmente hacer parte de la conversación.
¡Queremos tener voz! ¡Pero también voto! Queremos decidir qué se hace con nuestras voces. Cuál será su uso, su territorialidad y su temporalidad.
Queremos ser compensados de manera adecuada por las licencias que otorguemos sobre nuestras voces, ya sea de nuestras voces humanas o de nuestras voces sintéticas.
Queremos tener la posibilidad de decidir cómo queremos ser parte de esta nueva etapa. Decidir si trabajar exclusivamente como voces humanas verificadas, como voces híbridas o solo como voces sintetizadas.

Y cierran diciendo: “¡Somos actores de voz y hoy más que nunca estamos dispuestos a levantarla!”

En su página, OVU expone su misión y su visión. En esta última dicen: “OVU desea inspirar y motivar a otros Actores de Voz a unirse a la causa y ser la voz de todos aquellos que no tienen la posibilidad de alzar su propia voz.

OVU será una organización abierta y accesible para todos los interesados en esta causa, que fomente la comunicación y el diálogo constante entre los miembros y la comunidad en general”.

Así que la invitación está abierta a todos quienes trabajamos con nuestra voz. La inscripción es gratuita.

Únase a esta organización visitando su portal. Dé clic en este enlace: https://ovu.world /ovu