Como integrante del equipo del programa ‘En Blu Jeans’ de Blu Radio, yo realizaba una sección llamada “La Titopedia”, en la cual compartía datos curiosos y desconocidos de la música en todos sus géneros.
Para hacer más divertida la conversación, muchas veces creaba unos cuestionarios que mis compañeros de mesa debían responder. La mayoría de las veces yo mismo realizaba las preguntas, pero en otras ocasiones las realizaba un personaje ficticio que yo inventé llamado “Íñigo”.
Este locutor virtual de acento español –de ahí su nombre- lo encontré en internet en un sitio llamado TTSReader. Al entrar allí, solo tenía que seleccionar el idioma, escribir un texto y escoger algunas de las voces disponibles.
De manera automática, ese locutor virtual leía el texto que yo había escrito. Luego lo grababa, lo editaba e interactuaba con “él” en el programa, como si estuviéramos llevando a cabo una conversación.
Parece que esta herramienta es usada cada vez más por productores que no quieren invertir en voces humanas para sus proyectos, especialmente para videos y presentaciones, pero ¿llegará el momento en el que estas voces artificiales reemplacen a los locutores humanos?
El Congreso Internacional de la Voz, conocido por su nombre Voicemasters, es un evento que reúne locutores, actores de doblaje y profesionales de la voz de toda Latinoamérica desde hace 4 años.
La semana pasada se realizó su cuarta versión, solo que esta vez, y con motivo de la pandemia del Covid-19, tuvo que hacerse de manera virtual. En el congreso se realizaron conferencias, workshops, paneles de expertos, sesiones de networking, castings, premiaciones, sociales y otras actividades.
Aprovechando su presencia en ese evento, Armando Plata Camacho, el nuevo presidente de la Asociación Colombiana de Locutores, publicó en sus redes un video en el cual aparece sosteniendo una charla ficticia consigo mismo.
Hace unos años, el señor Plata había sido contratado para un servicio de ‘Text To Speech’ similar al que yo usaba para mi personaje “Íñigo”. Por eso su voz está disponible actualmente en internet y es usada por diferentes productores.
En medio de su presentación en el Congreso, el señor Plata se refirió a ese trabajo y sostuvo la siguiente conversación con lo que él llama “su alter ego”:
Al hacer la comparación entre ambas voces –la natural que hace las preguntas y la robótica que hace las respuestas– se nota una gran diferencia, no en el sonido de la voz, que es similar, sino en las inflexiones, que suenan con un tono muy artificial, como de locutor tradicional.
Pero, ¿qué es la Inteligencia Artificial?
La Inteligencia Artificial, o I.A., es un área de la informática que se ocupa de crear máquinas que puedan funcionar de forma inteligente e independiente. La IA se utiliza en automóviles, teléfonos inteligentes, videojuegos, banca y muchos otros aspectos de nuestra vida diaria.
Por ejemplo, si alguna vez usted le ha dicho a Alexa que toque una canción, probablemente esté interactuando con inteligencia artificial.
En resumen, la I.A. crea sistemas incorporados con inteligencia similar a la humana para realizar tareas como nosotros. Proporciona a las máquinas la capacidad de adaptarse, razonar y ofrecer soluciones.
En este momento, la industria total de la inteligencia artificial está valorada en 3.5 mil millones de dólares. Para 2023, se espera que ese número aumente a 26.4 mil millones a medida que más inversores, ingenieros, codificadores y diseñadores aprovechen este tipo de tecnología inteligente para crear procesos nuevos, automatizados y mejorados en nuestro mundo.
Para muchas tareas unidimensionales, como escanear imágenes de seguridad en busca de evidencia de un ladrón, brindar opciones de viaje compartido a través de una aplicación o tener una sensación de inmersión en un videojuego, la Inteligencia Artificial (AI) definitivamente está acelerando nuestro mundo actual.
Sin embargo para otras tareas, como es el caso de la locución, todavía falta un largo trecho por recorrer. La locución requiere entonación, emoción y sentimiento, características que aún no pueden ser replicadas de manera idónea por una computadora.
Steve Wozniak, cofundador de Apple, advirtió que los computadores se harán cargo de la mayoría de las tareas humanas y el futuro podría ser aterrador para mucha gente. Personalidades famosas como Stephen Hawking y Elon Musk también declararon a la I.A. como una amenaza para la humanidad.
Por su parte, la NBC publicó un artículo titulado «Nueve trabajos que los humanos pueden perder debido a los robots». El artículo explicaba cómo los robots actualmente realizan tareas que alguna vez fueron realizadas por humanos.
Esa lista incluye farmacéuticos, astronautas, niñeras, soldados, rescatistas, conductores, empleados de tiendas, abogados, periodistas deportivos y otros reporteros.
Pero, para tareas específicas que requieren emociones, valores y entonación humanos, la inteligencia artificial aún tiene un largo camino por recorrer. Uno de esos trabajos es la locución humana.
Armando Plata me dijo: “la conclusión es que siguen investigando y siguen desarrollando softwares que cada vez tienen menos “roboticidad”. Son una amenaza para el mercado pequeño, es decir, para proyectos de bajo presupuesto que en el contexto de la industria cada vez son más generalizados debido a que las empresas ya no pueden pagar proyectos que producen gente muy profesional”.
“Pero se abre un espacio para las voces muy profesionales, las voces que están muy preparadas para transmitir emociones, sentimientos, porque eso sí, por ahora, es muy difícil que sea reemplazado por una máquina”.
Y concluye: “Por eso en mi charla dije que tengo ‘mixed feelings’ (sentimientos encontrados): por un lado parece que sí hay un negocio alrededor de las voces robóticas, y uno puede formar parte siempre y cuando en los contratos sea muy cuidadoso, pero por otro lado, parece ser que tampoco es que nos vayan a suplantar, por lo menos en los próximos 5 años”.
En mi caso particular, pienso que todavía falta mucho para que una voz robótica pueda reemplazar a la voz humana en la radio, en los doblajes, en los comerciales de radio, televisión y redes sociales, en documentales y en proyectos de gran formato.
La tecnología tiene un largo camino por recorrer antes de que pueda reemplazar por completo los trabajos de los actores de doblaje y los locutores en general. ¿Por qué?
1. Elemento humano
Hay un elemento humano y emocional en nuestras voces que las máquinas no pueden replicar. Suelen parecer monótonos, lo que puede hacer que el contenido sea aburrido. Imagínese escuchar dibujos animados, películas o audiolibros con una voz robótica. Se perdería toda la emoción.
2. Inflexiones tonales únicas
¿Alguna vez se ha preguntado por qué usted puede reconocer la voz de su amigo entre una multitud? Porque cada ser humano tiene un tono, inflexión, sincronización y resonancia únicos en su habla.
Además, estos factores nos producen esa sensación de conexión entre nosotros. Y este tipo de voz emotiva y única podría no ser posible para las máquinas más allá de los 5 años que pronostica el señor Plata. Yo pienso que podría demorarse más, al menos 20 a 30 años.
3. Falta de juicio
Uno de los inconvenientes importantes de la I.A. es su incapacidad para juzgar. Debido a esto, los computadores no pueden decidir cuándo cambiar su entonación en función del contexto y la nueva información.
Por lo tanto, mientras los robots no estén programados para hablar con la misma tonalidad e inflexión de la voz humana, es probable que el trabajo de locución no vaya a tener problemas por el momento.
Conclusión
Al margen de si seremos o no reemplazados por las nuevas tecnologías, lo que sí es cierto que aún existe la posibilidad para ser contratados para realizar ese trabajo de TTS. A medida que más personas requieren de voces robóticas habrá necesidad de locutores con entonaciones y acentos diferentes.
Si usted está pensando en incursionar en ese negocio, y tal como lo dijo en el video, Armando Plata nos recuerda esta advertencia:
“Me pagaron muy bien. Lo que pasa es que nunca dimensioné lo que eso iba a ser a largo plazo porque 12 o 13 años atrás era una tecnología que nadie se imaginaba que iba a dar este resultado”
“En realidad se demoraron tanto para salir con esos softwares. Ellos fueron experimentando a lo largo del tiempo y solo hasta hace 1 o 2 años, o tal vez 4, ya se dieron cuenta de que podrían tener una masificación, y lo de hoy se oye muy bien en comparación con los primeros softwares”.
“Sin embargo, lo que sí debí haber hecho como negocio es haber acordado unas regalías o un contrato de limitación de tiempo pero al final firmé un contrato de por vida”.
Y, aparte de esa negociación, si usted va a entrar al negocio de la I.A., sepa que su voz estará disponible para quien quiera usarla en cualquier circunstancia, así que no se asuste si usted se escucha en un video hablando pestes de su político favorito o si su locución es usada en videos porno, como le sucedió a Armando.
Él mismo se burla de su locución artificial en ese tipo de películas diciendo de manera jocosa que “…desafortunadamente mi voz sale robótica porque yo soy muy robótico para hacer el amor”.