paint-brush
14 conjuntos de datos abiertos para clasificación de texto en aprendizaje automáticopor@Hent03
20,263 lecturas
20,263 lecturas

14 conjuntos de datos abiertos para clasificación de texto en aprendizaje automático

por Hengtee Lim4m2020/11/30
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

Los conjuntos de datos de clasificación de texto se utilizan para categorizar textos en lenguaje natural según el contenido. Por ejemplo, piense en clasificar artículos de noticias por tema o clasificar reseñas de libros en función de una respuesta positiva o negativa. La clasificación de texto también es útil para la detección de idiomas, la organización de los comentarios de los clientes y la detección de fraudes. Aunque requiere mucho tiempo cuando se realiza manualmente, este proceso se puede automatizar con modelos de aprendizaje automático. El resultado ahorra tiempo a las empresas y, al mismo tiempo, proporciona información valiosa sobre los datos.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - 14 conjuntos de datos abiertos para clasificación de texto en aprendizaje automático
Hengtee Lim HackerNoon profile picture

Los conjuntos de datos de clasificación de texto se utilizan para categorizar textos en lenguaje natural según el contenido. Por ejemplo, piense en clasificar artículos de noticias por tema o clasificar reseñas de libros en función de una respuesta positiva o negativa. La clasificación de texto también es útil para la detección de idiomas, la organización de los comentarios de los clientes y la detección de fraudes. Aunque requiere mucho tiempo cuando se realiza manualmente, este proceso se puede automatizar con modelos de aprendizaje automático. El resultado ahorra tiempo a las empresas y, al mismo tiempo, proporciona información valiosa sobre los datos.

A continuación, compilé conjuntos de datos de toda la web, incluidas reseñas de productos, evaluación de contenido en línea, clasificación de noticias y repositorios de conjuntos de datos. ¡Espero que proporcione una visión integral de los conjuntos de datos de código abierto disponibles y un punto de partida para los proyectos de aprendizaje automático!


Repositorios de conjuntos de datos de clasificación de texto

Conjuntos de datos de sistemas de recomendación : este repositorio de conjuntos de datos contiene una colección de conjuntos de datos de sistemas de recomendación que se han utilizado en la investigación de Julian McAuley, profesor asociado del departamento de informática de UCSD. Los conjuntos de datos contienen redes sociales, reseñas de productos, datos de círculos sociales y datos de preguntas y respuestas.

Repositorio de datos TREC : la Conferencia de recuperación de texto se inició con el propósito de apoyar la investigación en la comunidad de recuperación de información. Su repositorio de datos es una colección de trabajos de investigación relacionados con la PNL con sus conjuntos de datos correspondientes. Los conjuntos de datos incluyen artículos de noticias, conjuntos de preguntas/respuestas, spam y más. Tenga en cuenta: el sitio web es bastante antiguo y, a veces, difícil de navegar, ¡pero los conjuntos de datos están ahí para aquellos que deseen cavar!

Conjuntos de datos de clasificación de texto de Kaggle : Kaggle alberga el código y los datos para el trabajo de ciencia de datos y contiene 19 000 conjuntos de datos públicos para una variedad de casos de uso. ¡Aquí no hay escasez de conjuntos de datos de clasificación de texto! Aún así, querrá utilizar sus funciones de búsqueda y clasificación para limitar su búsqueda a exactamente lo que está buscando. Kaggle también organiza concursos con premios monetarios para fomentar proyectos e investigaciones de clasificación de textos específicos.

Conjuntos de datos de GroupLens : GroupLens es un laboratorio de investigación especializado en sistemas de recomendación, comunidades en línea, tecnologías móviles y ubicuas, bibliotecas digitales y sistemas de información geográfica. Los conjuntos de datos disponibles incluyen datos de calificación del sitio web de MovieLens, datos de recomendación de WikiLens, calificaciones de libros de BookCrossing y más.

Revisar conjuntos de datos

Conjunto de datos de reseñas de clasificación de opinión: este conjunto de datos contiene dos conjuntos de reseñas: uno para reseñas de hoteles en TripAdvisor y otro para reseñas de automóviles en Edmunds. Los datos de TripAdvisor incluyen 259 000 reseñas de hoteles en 10 ciudades de todo el mundo y entre 80 y 700 hoteles en cada ciudad. Los datos de revisión de automóviles de Edmunds abarcan de 2007 a 2009 e incluyen fechas, nombres de autores y revisiones textuales completas.

Gran conjunto de datos de reseñas de películas: del Stanford AI Laboratory, este conjunto de datos de clasificación de texto contiene un conjunto de 25 000 reseñas de películas muy polares, con 25 000 reseñas adicionales para capacitación. El conjunto de datos es útil para los experimentos de análisis de sentimientos. También incluye datos no etiquetados que se pueden usar para capacitación o pruebas adicionales.

Conjunto de datos de opinión de aerolíneas estadounidenses de Twitter : este conjunto de datos contiene una colección de datos de Twitter en los que los contribuyentes clasificaron los tweets como positivos, negativos y neutrales. Las razones negativas también se clasificaron bajo títulos como "vuelo tardío" o "servicio grosero". En total, hay alrededor de 15.000 tweets en seis aerolíneas.

Conjuntos de datos de evaluación de contenido en línea

Detenga el conjunto de datos de Clickbait : este conjunto de datos se utilizó en un documento titulado "Detenga el Clickbait: detección y prevención de Clickbaits en los medios de noticias en línea". Contiene 16.000 títulos de artículos clasificados como "clickbait" y "no clickbait". Los artículos de clickbait se han extraído de sitios web como Buzzfeed y Upworthy, mientras que los artículos que no son de clickbait provienen de sitios como Wikinoticias, The New York Times y The Guardian.

Spambase Dataset : Spambase es una base de datos de correo electrónico no deseado con 4601 mensajes de correo electrónico, de los cuales 1813 son correo no deseado. El conjunto de datos es útil para construir un filtro de spam personal, pero los autores también afirman que se necesita una recopilación más amplia de datos para intentar un filtro de spam de propósito general.

Conjunto de datos de discurso de odio y lenguaje ofensivo : este conjunto de datos se usó originalmente para investigar la detección de discurso de odio separando el discurso de odio de otras instancias de lenguaje ofensivo en las redes sociales. El texto fue tomado de tweets y está clasificado como: contiene discurso de odio, contiene solo lenguaje ofensivo y no contiene ninguno. Tenga en cuenta: debido a la naturaleza del contenido, el conjunto de datos contiene contenido que es racista, sexista, homofóbico y ofensivo.

El Corpus de autoría de blogs : El Corpus de autoría de blogs es una colección de 681 288 publicaciones recopiladas de blogger.com en 2004. Las publicaciones están escritas por 19 320 blogueros y, en total, el conjunto de datos contiene más de 140 millones de palabras. Este conjunto de datos de categorización de texto es útil para el análisis de opiniones, resúmenes y otros experimentos de aprendizaje automático basados en NLP.

Conjuntos de datos de noticias

Conjunto de datos de clasificación de temas de noticias de AG: el conjunto de datos de clasificación de temas de noticias de AG se basa en el conjunto de datos de AG, una colección de más de 1,000,000 de artículos de noticias recopilados de más de 2,000 fuentes de noticias por un motor de búsqueda de noticias académicas. Este conjunto de datos contiene 30 000 muestras de entrenamiento y 1900 muestras de prueba de las 4 clases más grandes del corpus AG. El número total de muestras de capacitación es de 120 000 con 7600 muestras de prueba.

Conjunto de datos de categorización de texto de Reuters : este conjunto de datos contiene 21 578 documentos de Reuters que aparecieron en el servicio de noticias de Reuters en 1987. El conjunto de datos se divide en un conjunto de entrenamiento de 13 625 y un conjunto de prueba de 6188. Cada documento está etiquetado según fecha, tema, lugar, personas, organizaciones, empresas, etc.

El conjunto de datos de 20 grupos de noticias : El conjunto de datos de 20 grupos de noticias es un conjunto de datos popular para experimentar con aplicaciones de texto de técnicas de aprendizaje automático, incluida la clasificación de texto. El conjunto de datos recopila aproximadamente 20 000 documentos de grupos de noticias divididos en 20 grupos de noticias diferentes, cada uno correspondiente a un tema diferente. El sitio web ofrece tres versiones del conjunto de datos para propósitos ligeramente diferentes.

También publicado en:https://lionbridge.ai/datasets/14-best-text-classification-datasets-for-machine-learning/