paint-brush
Los 20 mejores conjuntos de datos de imágenes para el aprendizaje automático y la visión artificialpor@limarc
27,042 lecturas
27,042 lecturas

Los 20 mejores conjuntos de datos de imágenes para el aprendizaje automático y la visión artificial

por Limarc Ambalina3m2020/12/14
Read on Terminal Reader
Read this story w/o Javascript

Demasiado Largo; Para Leer

La visión por computadora permite a las computadoras comprender el contenido de imágenes y videos. El objetivo de la visión artificial es automatizar las tareas que puede realizar el sistema visual humano. Los datos de la imagen pueden venir en diferentes formas, como secuencias de video, vistas desde múltiples cámaras en diferentes ángulos o datos multidimensionales de un escáner médico. El MIT ha creado un gran conjunto de datos de 187 240 imágenes, 62 197 imágenes anotadas y 658 992 objetos etiquetados. Open Images de Google es una colección de 9 millones de URL de imágenes que se han anotado con etiquetas que abarcan más de 6000 categorías.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Los 20 mejores conjuntos de datos de imágenes para el aprendizaje automático y la visión artificial
Limarc Ambalina HackerNoon profile picture

La visión por computadora permite a las computadoras comprender el contenido de imágenes y videos. El objetivo de la visión artificial es automatizar las tareas que puede realizar el sistema visual humano.

Las tareas de visión por computadora incluyen la adquisición de imágenes, el procesamiento de imágenes y el análisis de imágenes. Los datos de la imagen pueden venir en diferentes formas, como secuencias de video, vistas desde múltiples cámaras en diferentes ángulos o datos multidimensionales de un escáner médico.

Nota: este artículo fue escrito originalmente por Meiryum Ali y publicado en Lionbridge AI .

Conjuntos de datos de imágenes para entrenamiento de visión artificial

Labelme : un gran conjunto de datos creado por el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) que contiene 187 240 imágenes, 62 197 imágenes anotadas y 658 992 objetos etiquetados.

Ladrillos de Lego : Aproximadamente 12,700 imágenes de 16 ladrillos de Lego diferentes clasificados por carpetas y renderizados por computadora usando Blender.

ImageNet : el conjunto de datos de imagen de facto para nuevos algoritmos. Está organizado según la jerarquía de WordNet, en la que cada nodo de la jerarquía está representado por cientos y miles de imágenes.

LSUN : comprensión de la escena con muchas tareas auxiliares (estimación del diseño de la sala, predicción de prominencia, etc.)

MS COCO : COCO es un conjunto de datos de subtítulos, segmentación y detección de objetos a gran escala que contiene más de 200 000 imágenes etiquetadas. Se puede utilizar para la segmentación de objetos, el reconocimiento en contexto y muchos otros casos de uso.

Biblioteca de imágenes de la Universidad de Columbia : COIL100 es un conjunto de datos con 100 objetos diferentes fotografiados en todos los ángulos en una rotación de 360.

Visual Genome : Visual Genome es un conjunto de datos y una base de conocimientos creados en un esfuerzo por conectar conceptos de imágenes estructuradas con el lenguaje. La base de datos presenta una base de conocimiento visual detallada con subtítulos de 108,077 imágenes.

Imágenes abiertas de Google : una colección de 9 millones de URL de imágenes “que han sido anotadas con etiquetas que abarcan más de 6000 categorías” bajo Creative Commons.

Imágenes anotadas del conjunto de datos Open Images. Izquierda: Ghost Arches de Kevin Krejci. Derecha: Some Silverware de J B. Ambas imágenes utilizadas bajo licencia CC BY 2.0.

Youtube-8M : un conjunto de datos etiquetados a gran escala que consta de millones de ID de videos de YouTube, con anotaciones de más de 3800 entidades visuales.

Rostros etiquetados en la naturaleza : 13 000 imágenes etiquetadas de rostros humanos, para usar en el desarrollo de aplicaciones que involucran reconocimiento facial.

Conjunto de datos de perros de Stanford: contiene 20 580 imágenes y 120 categorías de razas de perros diferentes, con alrededor de 150 imágenes por clase.

Lugares : base de datos centrada en escenas con 205 categorías de escenas y 2,5 millones de imágenes con una etiqueta de categoría.

CelebFaces : conjunto de datos de rostros con más de 200 000 imágenes de celebridades, cada una con 40 anotaciones de atributos.

Imágenes de muestra del conjunto de datos de CelebFaces.

Flores : conjunto de datos de imágenes de flores que se encuentran comúnmente en el Reino Unido que consta de 102 categorías diferentes. Cada clase de flor consta de entre 40 y 258 imágenes con diferentes poses y variaciones de luz.

Análisis de imágenes de plantas: una colección de conjuntos de datos que abarcan más de 1 millón de imágenes de plantas. Puede elegir entre 11 especies de plantas.

Objetos domésticos : un conjunto de datos que contiene objetos aleatorios del hogar, principalmente de la cocina, el baño y la sala de estar, divididos en conjuntos de datos de prueba y de entrenamiento.

CIFAR-10 : un gran conjunto de datos de imágenes de 60 000 imágenes en color de 32 × 32 divididas en 10 clases. El conjunto de datos se divide en cinco lotes de entrenamiento y un lote de prueba, cada uno con 10 000 imágenes.

CompCars : contiene 163 marcas de automóviles con 1716 modelos de automóviles, con cada modelo de automóvil etiquetado con cinco atributos, que incluyen velocidad máxima, desplazamiento, número de puertas, número de asientos y tipo de automóvil.

Reconocimiento de escenas en interiores : un conjunto de datos muy específico, útil ya que la mayoría de los modelos de reconocimiento de escenas son mejores en "exteriores". Contiene 67 categorías Indoor y un total de 15620 imágenes.

VisualQA : VQA es un conjunto de datos que contiene preguntas abiertas sobre 265.016 imágenes. Estas preguntas requieren una comprensión de la visión y el lenguaje. Para cada imagen, hay al menos 3 preguntas y 10 respuestas por pregunta.