Chunk
¿Qué es chunk?
En procesamiento de lenguaje natural, un ‘chunk’ es una unidad de texto dividida a partir de un contenido mayor, como un párrafo o documento, con el objetivo de facilitar su análisis, indexación o procesamiento por IA.
Definición extensa:
El término «chunk» proviene de la lingüística computacional y se refiere a una porción o fragmento de texto más grande. En el contexto de los modelos de lenguaje como GPT, un chunk es un segmento de texto que se extrae de un documento para facilitar su análisis o búsqueda. Por ejemplo, un artículo largo puede dividirse en chunks de 300 a 500 palabras o tokens, los cuales luego se convierten en vectores para ser almacenados en una base vectorial como Pinecone o FAISS. Esto es especialmente útil en sistemas RAG (Generación Aumentada por Recuperación), donde se necesita buscar información específica dentro de documentos sin procesarlos por completo. Esta técnica se volvió común a partir de 2022 con la expansión de herramientas de búsqueda semántica.