Inteligencia artificial

OpenAI lanza herramienta de audio capaz de clonar tu voz

El modelo llamado Voice Generation ha estado en desarrollo desde finales de 2022 cuya función es leer en voz alta en ChatGPT

OpenAI ofrece acceso limitado a una plataforma de generación de texto a voz que desarrolló llamada Voice Engine, que puede crear una voz sintética basada en un clip de 15 segundos de la voz de alguien. La voz generada por IA puede leer indicaciones de texto cuando se le ordena en el mismo idioma que el hablante o en varios otros idiomas.

"Estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría usarse para el bien en varias industrias", dijo OpenAI en su publicación de blog.

En estos ejemplos publicados por OpenAI, puede escuchar lo que Age of Learning ha estado haciendo con la tecnología para generar contenido de voz en off preescrito, además de leer en voz alta "respuestas personalizadas en tiempo real".

OpenAI dijo que comenzó a desarrollar Voice Engine a fines de 2022 y que la tecnología ya ha impulsado voces preestablecidas para la API de conversión de texto a voz y la función Leer en voz alta de ChatGPT.

En una entrevista con TechCrunch, Jeff Harris, miembro del equipo de producto de OpenAI para Voice Engine, dijo que el modelo fue entrenado en "una combinación de datos con licencia y disponibles públicamente". OpenAI dijo a la publicación que el modelo sólo estará disponible para unos 10 desarrolladores.

La generación de texto a audio con IA es un área de la IA generativa que continúa evolucionando. Si bien la mayoría se centra en sonidos instrumentales o naturales, menos se han centrado en la generación de voz, en parte debido a las preguntas citadas por OpenAI. Algunos nombres en el espacio incluyen compañías como Podcastle y ElevenLabs, que brindan tecnología y herramientas de clonación de voz de IA.


Al mismo tiempo, EE. UU. está tratando de frenar los usos poco éticos de la tecnología de voz AI. El mes pasado, la Comisión Federal de Comunicaciones prohibió las llamadas automáticas utilizando voces de IA después de que las personas recibieran llamadas no deseadas de una voz del presidente Joe Biden clonada por IA.

Según OpenAI, sus socios acordaron cumplir con sus políticas de uso que dicen que no utilizarán Voice Generation para hacerse pasar por personas u organizaciones sin su consentimiento. También requiere que los socios obtengan el “consentimiento explícito e informado” del hablante original, no creen formas para que los usuarios individuales creen sus propias voces y revelen a los oyentes que las voces son generadas por IA. OpenAI también agregó marcas de agua a los clips de audio para rastrear su origen y monitorear activamente cómo se usa el audio.

OpenAI sugirió varios pasos que cree que podrían limitar los riesgos en torno a herramientas como estas, incluida la eliminación gradual de la autenticación basada en voz para acceder a cuentas bancarias, políticas para proteger el uso de las voces de las personas en la IA, una mayor educación sobre los deepfakes de IA y el desarrollo de sistemas de seguimiento. de contenido de IA.

Contenido relacionado