IAs especializadas

3. Sonido e IAs de voz

Las IAs de voz son una forma de inteligencia artificial que pueden generar voces humanas a partir de texto. Actualmente, se utiliza en una gran cantidad de aplicaciones, que incluyen:

Texto a voz: Esta es la aplicación más común de la IA de voz. Se utiliza para convertir texto en voz humana, lo que puede ser útil para personas con discapacidades visuales o auditivas, o para crear contenido de audio como pódcast o audiolibros.
Asistentes virtuales: Los asistentes virtuales, como Siri, Alexa y Google Assistant, utilizan la IA de voz para interactuar con los usuarios. Pueden responder a preguntas, realizar tareas y proporcionar información.
Juegos: La IA de voz se utiliza en los juegos para crear personajes con voz realista. También se puede utilizar para proporcionar comentarios o instrucciones al jugador.
Entretenimiento: La IA de voz se utiliza para crear contenido de entretenimiento, como pódcast, audiolibros y música. También se puede utilizar para crear efectos de sonido y voces para películas y televisión.
Voz a Voz: Traducción simultanea al instante usando IA.

Actualmente, las IAs de voz y de sonido son las más usadas dada su versatilidad, las podemos encontrar desde asistentes de domótica hasta en locuciones telefónicas.

Veamos un ejemplo:

Nos dirigimos a la página elevenlabs.io.
La página está en inglés, pero podemos generar voces en prácticamente cualquier idioma.
Podemos usar la página sin registro, pero recomendamos registrarse si vamos a usarla de manera continua.
Copiamos y pegamos las primeras líneas de este tema para poder escuchar un ejemplo.
Pulsamos sobre el botón play.

Se pueden crear modelos de voces desde 0, clonar la voz de alguien o modificarla para que parezca la de otra persona. Para estas opciones hay que estar registrado, y tenemos que tener en cuenta que las opciones actualmente se encuentran en inglés.

Veámoslo en un ejemplo: