Meta Anunció VoiceBox, Una IA de habla, que crea voces nuevas en 6 idiomas.
- Luis Perez
- 19 jun 2023
- 4 Min. de lectura
Meta espera lograr una gran mejora en el aprendizaje de menores y mayores con esta nueva IA.
-En la fecha del 17 de junio de este año corriente, Meta anunció Voicebox, una IA generadora de habla que crea voces nuevas en 6 idiomas.
-Voicebox es una IA que puede generar audio a partir de texto y ayudar a editar contenido de sonido.
-Meta ha anunciado un nuevo avance en Inteligencia Artificial. Se trata de Voicebox, un modelo generativo de habla el cual se basa en un nuevo método propuesto por Meta IA llamado Flow Matching.
-De acuerdo con el comunicado de Meta, este modelo generativo de IA ayuda a la edición, sampling y estilización de audio.

-Además, en un futuro ayudará a los creadores a editar fácilmente pistas de audio, permitir a las personas con discapacidad visual escuchar los mensajes escritos de sus amigos en sus voces y que las personas se comuniquen en cualquier idioma extranjero usando su propia voz, señaló la compañía de Mark Zuckerberg.
¿Cómo funcionará Voicebox?
-Voicebox nace con el propósito de darle un nuevo enfoque a la generación de voz. Muchos de los sintetizadores de voz que existen en la actualidad dan salidas de audio monótonas, algo que Meta está dispuesto a cambiar.
-Con el uso del método de Flow Matching, el cual ha mejorado los modelos de difusión, Meta busca que Voicebox pueda entrenarse con datos más diversos y una escala de datos mucho mayor, además de tener variaciones de voz que rompan con este esquema del habla monótono.
-Al respecto, Meta explica en su comunicado que se capacitó a Voicebox con más de 50 000 horas de voz grabada y transcripciones de audiolibros de dominio público en inglés, francés, español, alemán, polaco y portugués.
-Voicebox está entrenado para predecir un segmento de voz cuando se le da el habla circundante y la transcripción del segmento. Habiendo aprendido a rellenar el habla a partir del contexto, el modelo puede aplicar esto en las tareas de generación de voz, incluida la generación de partes en medio de una grabación de audio sin tener que volver a crear la entrada completa.
-Es decir que nos encontramos con un modelo totalmente distinto a los sintetizadores de voz que ya conocemos y el cual brindará una experiencia de habla mucho más natural. Además, que en un futuro puede llegar a beneficiar a varios sectores de la sociedad.

Un modelo multitareas
-El modelo inteligente de Voicebox les permitirá a los usuarios realizar varias tareas que facilitarán su comunicación con otras personas. A continuación, te enlistamos algunas de las que mencionó Meta:
-Síntesis de contexto de texto a habla. En su comunicado, Meta señaló que, utilizando una muestra de audio de tan solo un par de segundos, Voicebox puede adaptar el estilo de audio y utilizarlo para la generación de texto a habla.
-Edición de habla y reducción de ruido. Una de las tareas que te permitirá hacer Voicebox es mejorar el audio eliminando el ruido del exterior o sustituyendo palabras que el hablante pronunció de manera inadecuada, esto sin tener que volver a grabar de nuevo el discurso.
-Transferencia de estilo entre idiomas. Como mencionamos anteriormente Voicebox tendrá la capacidad de producir el habla en seis idiomas diferentes, incluso si la muestra del habla y el texto no se encuentran en el mismo idioma.
-Con ello, Meta da un paso importante en la brecha de comunicación entre diferentes países ya que, en un futuro, las personas podrán comunicarse de forma natural con individuos que no hablen el mismo idioma.
-Muestreo de habla diversa. Otras de las características importantes de Voicebox, es que este modelo también podrá generar un habla muy parecida a cómo se expresan las personas en el mundo real.
-Por lo que ya no parecerá que hablamos con un robot, sino más bien con una persona más de nuestro círculo. Además, esto lo podrá hacer en los seis idiomas mencionados anteriormente.
Emergen riesgos de la IA
-Mientras que las herramientas de inteligencia artificial, específicamente los chatbots de IA, se han vuelto más comunes desde el lanzamiento del ChatGPT de OpenAI en noviembre pasado.
-Los avances rápidos en inteligencia artificial han llevado a líderes mundiales a sonar las alarmas sobre el posible mal uso de la tecnología por acontecimientos e inconvenientes en ciertos casos.
-El lunes, el Secretario General de la ONU reiteró la necesidad de tomar en serio las advertencias sobre la IA generativa.
-"Las campanas de alarma sobre la última forma de inteligencia artificial, la IA generativa, son ensordecedoras, y son más fuertes que los desarrolladores que las diseñaron", dijo el Secretario General de la ONU, Antonio Gutiérrez, en una conferencia de prensa.
-"Los científicos y expertos han llamado al mundo a actuar, declarando que la IA es una amenaza existencial para la humanidad al mismo nivel que es riesgo de una guerra nuclear."
-Quizás por ahora, la IA no sea tan preocupante como la amenaza de una guerra nuclear global, esa posibilidad sigue siendo parte de la ciencia ficción y las películas de Hollywood.
-Un abuso más probable de la IA generativa proviene de estafas que apuntan a individuos utilizando imágenes y voces generadas por IA para engañar a las víctimas y sacarles dinero, o como dijo la ONU en un informe reciente, para alimentar el odio y la desinformación en línea.
-Un deepfake es un tipo cada vez más común de contenido de video o audio creado con inteligencia artificial que representa eventos falsos, pero se hace de una manera que puede ser muy difícil de identificar como falso.
Uso de Inteligencia Artificial con responsabilidad
-El uso de la Inteligencia Artificial en los últimos tiempos ha generado polémica debido a la mala práctica que se le puede dar a los avances de esta rama y que pueden ocasionar daños potenciales.
-Meta está consciente de ello, por esta razón en su comunicado dio a conocer que este modelo generativo de voz puede distinguir entre voz auténtica y audio generado con Voicebox para mitigar riesgos futuros.
Comments