Demasiado Largo; Para Leer
BerTopic es una técnica de modelado de temas que utiliza transformadores (incrustaciones BERT) y TF-IDF basado en clases para crear clústeres densos. También te permite interpretar y visualizar fácilmente los temas generados. En este tutorial de PNL, utilizaremos los Tweets de los Juegos Olímpicos de Tokio 2020 con el objetivo de crear un modelo que pueda clasificar automáticamente los tweets por sus temas. El algoritmo BerTopic contiene 3 etapas: Incrustar los datos textuales (documentos) Incrustar los documentos con BERT, o puede usar cualquier otra técnica de incrustación. El algoritmo utiliza UMAP para reducir la dimensionalidad de las incrustaciones y la técnica HDBSCAN.