Cómo transcribir audios con Whisper en Python.


La tecnología del reconocimiento de voz ha experimentado avances significativos en los últimos años, y uno de los últimos hitos en este campo es el modelo Whisper. Desarrollado por OpenAI, Whisper ha revolucionado la forma en que interactuamos con el audio y ha abierto nuevas posibilidades en áreas como la transcripción, traducción y análisis de sentimientos.

En este pequeño articulo les muestro un ejemplo de uso para pasar de un audio a texto. Si deseas conocer mas a fondo los usos y limitaciones, puedes leer su articulo de introducción en OpenAI dando clic aquí.

Ejemplo:

Audio:

Transcripción:

¿Qué tal amigos? Mi nombre es Angel Sánchez, soy el fundador de Azure Web y también soy el fundador de Azure School. Este audio lograbo para hacer pruebas con nuestro programa que nos va a ayudar a pasar de audio, a texto. Y para esto vamos a utilizar Whisper. Whisper es un modelo de reconocimiento de voz de propósito general. Está entrenado con un conjunto de datos amplio y diverso de audio. Y también es un modelo multitarea que puede realizar reconocimiento de voz en diferentes lenguajes. También puede traducir la voz e identificar el idioma de la misma.

Nota: la transcripción cuenta con algunos errores relacionados con la forma de que menciono algunas palabras y como el modelo las entiende.

¿Cómo usar Whisper en Python?

Primero abrimos nuestra terminal e instalamos Whisper.

pip install whisper

Después creamos un archivo en python, nosotros lo vamos a llamar “WhisperTranscriber.py”.

Dentro de ese archivo importamos la biblioteca de whisper:

import whisper

Cargamos el modelo:

modelo = whisper.load_model("base")

Hacemos la transcripción y la guardamos en una variable:

resultado = modelo.transcribe("audios/audio.m4a")

E imprimimos el resultado:

print(f"\nTranscripción:\n {resultado['text']}\n")

Para ejecutar nuestro programa vamos a nuestra terminal y los ejecutamos con Python:

python WhisperTranscriber.py

El código completo solo son pocas líneas, y lo puedes ver aquí´:

import whisper

#Cargar el modelo
modelo = whisper.load_model("base")

#Transcribir el auduio a texto
resultado = modelo.transcribe("audios/audio.m4a")

#Imprimir la transcripción
print(f"\nTranscripción:\n {resultado['text']}\n")

Recomendaciones:

Para realizar todos estos proyectos hago uso de Linux y Python, si no tienes conocimientos sobre estos temas te recomiendo estos cursos:

El uso de este programa se puede implementar de muchas formas, en lo particular lo use para crear un programa que Analiza y Genera Contenido a partir de Videos con Python y la API de OpenAI.


¿Tienes un cometario sobre esto? Dímelo en Twitter o Facebook.