Explorando la inteligencia artificial y OpenAI con Python

0 of 25 lessons complete (0%)

Extracción de audio de video.

¿Qué son los tokens?

You don’t have access to this lesson

Please register or sign in to access the course content.

En el ámbito del procesamiento del lenguaje natural (PLN), los tokens son las unidades básicas de texto que se utilizan para el análisis. Los tokens son segmentos de texto que se obtienen al dividir el texto en unidades significativas. Por ejemplo, en inglés, los tokens suelen ser palabras individuales, pero también pueden ser signos de puntuación, números, abreviaturas, entre otros.

La tarea de tokenización es el proceso de dividir un texto en tokens. Esta tarea es importante porque permite analizar y comprender el texto de manera más efectiva, lo que es esencial en muchas aplicaciones de PLN, como la traducción automática, el procesamiento de texto, la extracción de información, la generación de texto y muchas más.

El número de tokens procesados en una solicitud de API determinada depende de la longitud de las entradas y salidas. Como regla general, 1 token es aproximadamente 4 caracteres o 0.75 palabras para el texto en inglés. Una limitación a tener en cuenta es que el mensaje de texto y la finalización generada combinados no deben ser más que la longitud máxima de contexto del modelo (para la mayoría de los modelos, esto es 2048 tokens, o aproximadamente 1500 palabras).

Herramienta para medir tokens: Tokenizer.

Nota del maestro: Recuerda que este curso es gratuito y no cuenta con soporte. Si tienes problemas o dudas, puedes escribirme en Twitter haciendo clic aquí y esperar a que tenga un tiempo libre para poder contestarte. También puedes considerar tomar el curso profesional en nuestra plataforma de Azul School, que incluye soporte prioritario para todos nuestros cursos y muchos más beneficios. Haz clic aquí para comprar tu membresía anual u obtener más información al respecto.