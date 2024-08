El modelado de temas es una técnica de aprendizaje automático no supervisada que identifica automáticamente diferentes temas presentes en un documento (datos textuales). Los datos se han convertido en un activo/herramienta clave para gestionar muchas empresas en todo el mundo. Con el modelado de temas, puede recopilar conjuntos de datos no estructurados, analizar los documentos y obtener la información relevante y deseada que puede ayudarlo a tomar una mejor decisión.

Existen diferentes técnicas para realizar el modelado de tópicos (como LDA) pero, en este tutorial de PNL, aprenderás a usar la técnica BerTopic desarrollada por Maarten Grootendorst .

BerTopic es una técnica de modelado de temas que utiliza transformadores (incrustaciones BERT) y TF-IDF basado en clases para crear clústeres densos. También te permite interpretar y visualizar fácilmente los temas generados.

El algoritmo BerTopic contiene 3 etapas:

1.Incrustar los datos textuales (documentos)

En este paso, el algoritmo extrae incrustaciones de documentos con BERT, o puede usar cualquier otra técnica de incrustación.

De forma predeterminada, utiliza los siguientes transformadores de oraciones

2. Documentos del clúster

Utiliza UMAP para reducir la dimensionalidad de las incrustaciones y la técnica HDBSCAN para agrupar incrustaciones reducidas y crear grupos de documentos semánticamente similares.

3.Crear una representación de tema

El último paso es extraer y reducir temas con TF-IDF basado en clases y luego mejorar la coherencia de las palabras con Relevancia Marginal Máxima.

Puede instalar el paquete a través de pip:

Si está interesado en las opciones de visualización, debe instalarlas de la siguiente manera.

BerTopic admite diferentes transformadores y backends de lenguaje que puede usar para crear un modelo. Puede instalar uno de acuerdo con las opciones disponibles a continuación.

Usaremos las siguientes bibliotecas que nos ayudarán a cargar datos y crear un modelo desde BerTopic.