La tecnología del reconocimiento de voz ha experimentado avances significativos en los últimos años, y uno de los últimos hitos en este campo es el modelo Whisper. Desarrollado por OpenAI, Whisper ha revolucionado la forma en que interactuamos con el audio y ha abierto nuevas posibilidades en áreas como la transcripción, traducción y análisis de sentimientos.
En este pequeño articulo les muestro un ejemplo de uso para pasar de un audio a texto. Si deseas conocer mas a fondo los usos y limitaciones, puedes leer su articulo de introducción en OpenAI dando clic aquí.
Ejemplo:
Audio:
Transcripción:
¿Qué tal amigos? Mi nombre es Angel Sánchez, soy el fundador de Azure Web y también soy el fundador de Azure School. Este audio lograbo para hacer pruebas con nuestro programa que nos va a ayudar a pasar de audio, a texto. Y para esto vamos a utilizar Whisper. Whisper es un modelo de reconocimiento de voz de propósito general. Está entrenado con un conjunto de datos amplio y diverso de audio. Y también es un modelo multitarea que puede realizar reconocimiento de voz en diferentes lenguajes. También puede traducir la voz e identificar el idioma de la misma.
Nota: la transcripción cuenta con algunos errores relacionados con la forma de que menciono algunas palabras y como el modelo las entiende.
¿Cómo usar Whisper en Python?
Primero abrimos nuestra terminal e instalamos Whisper.
pip install whisper
Después creamos un archivo en python, nosotros lo vamos a llamar “WhisperTranscriber.py”.
Dentro de ese archivo importamos la biblioteca de whisper:
import whisper
Cargamos el modelo:
modelo = whisper.load_model("base")
Hacemos la transcripción y la guardamos en una variable:
resultado = modelo.transcribe("audios/audio.m4a")
E imprimimos el resultado:
print(f"\nTranscripción:\n {resultado['text']}\n")
Para ejecutar nuestro programa vamos a nuestra terminal y los ejecutamos con Python:
python WhisperTranscriber.py
El código completo solo son pocas líneas, y lo puedes ver aquí´:
import whisper
#Cargar el modelo
modelo = whisper.load_model("base")
#Transcribir el auduio a texto
resultado = modelo.transcribe("audios/audio.m4a")
#Imprimir la transcripción
print(f"\nTranscripción:\n {resultado['text']}\n")
Recomendaciones:
Para realizar todos estos proyectos hago uso de Linux y Python, si no tienes conocimientos sobre estos temas te recomiendo estos cursos:
El uso de este programa se puede implementar de muchas formas, en lo particular lo use para crear un programa que Analiza y Genera Contenido a partir de Videos con Python y la API de OpenAI.