Embedding

¿Qué es embedding?

Un embedding es una representación numérica de palabras, frases o textos que captura su significado semántico, permitiendo que modelos de IA trabajen con lenguaje de forma más eficiente.

Definición extensa:

Un embedding es una técnica utilizada en inteligencia artificial y procesamiento de lenguaje natural (NLP) para transformar datos simbólicos o categóricos —como palabras, párrafos o incluso imágenes— en vectores de números reales que pueden ser procesados por algoritmos de machine learning.

En el caso de las palabras, los embeddings permiten que términos con significados similares tengan representaciones vectoriales cercanas entre sí en el espacio, lo que facilita tareas como:

Comparar similitud semántica (por ejemplo, saber que rey y reina están más relacionados que rey y mesa).
Agrupar conceptos relacionados (clustering).
Mejorar la eficiencia de modelos predictivos como transformers o redes neuronales recurrentes.

Los embeddings se pueden obtener mediante técnicas como:

Word2Vec: predice palabras basándose en su contexto (CBOW y Skip-gram).
GloVe: combina coocurrencias globales de palabras en corpus.
FastText: tiene en cuenta subpalabras para mejorar representaciones de palabras raras o desconocidas.
Sentence-BERT / Transformers: genera embeddings para frases o párrafos completos con comprensión contextual profunda.

Los embeddings no son exclusivos del lenguaje: también se usan en imágenes, audio, usuarios o productos, para representar características complejas en sistemas de recomendación, visión por computador, etc.

Referencias:

jalammar.github.io; Google.com