Excel est un outil indispensable pour l'analyse des données et avec les bons ensembles de données et les bonnes techniques, les débutants peuvent apprendre à découvrir des informations et à prendre des décisions éclairées. Dans cet article, nous avons compilé une liste de 15 jeux de données Excel pour les débutants en analyse de données. Ces ensembles de données Excel couvrant des sujets tels que l'analyse financière, l'analyse de marché et l'analyse de séries chronologiques peuvent être utilisés pour obtenir des informations sur des scénarios réels.
Excel est un outil indispensable pour l'analyse des données et avec les bons ensembles de données et les bonnes techniques, les débutants peuvent apprendre à découvrir des informations et à prendre des décisions éclairées. Son interface intuitive et ses fonctionnalités puissantes permettent aux utilisateurs d'effectuer un large éventail de processus tels que la manipulation de données, la visualisation de données et l'analyse statistique.
Que sont les "jeux de données Excel" ?
Les ensembles de données Excel sont des collections de données qui sont stockées et organisées dans une feuille de calcul Excel, qui est un logiciel couramment utilisé qui permet aux utilisateurs de créer, de manipuler et d'analyser des données dans un format structuré. Ces ensembles de données peuvent se présenter sous deux formats principaux : Excel (.xlsx) et valeurs séparées par des virgules (CSV). Le format Excel offre des fonctionnalités plus avancées pour organiser et analyser des données complexes, y compris l'utilisation de formules et de visualisations, tandis que CSV, d'autre part, offre un format plus simple compatible avec une large gamme d'applications logicielles, ce qui facilite le partage. données entre différents programmes.
Dans cet article, nous avons compilé une liste de 15 jeux de données Excel pour les débutants en analyse de données . Avec ces ensembles de données Excel couvrant des sujets tels que l'analyse financière, l'analyse de marché et l'analyse de séries chronologiques, les débutants peuvent pratiquer des techniques d'analyse de données telles que le nettoyage des données, les tableaux croisés dynamiques et les graphiques tout en obtenant des informations sur des scénarios réels.
Liste des ensembles de données Excel pour les débutants en analyse de données
Ventes en supermarché
Iris
Titanesque
Qualité du vin
Revenu du recensement des adultes
Logement à Boston
Ensemble de données du Wisconsin sur le cancer du sein
Intention d'achat des acheteurs en ligne
Marketing bancaire
Prix de l'avocat
Amazon Top 50 des livres les plus vendus de 2009 à 2019
Les données Superstore Sales fournissent des données sur les ventes d'une entreprise de vente au détail fictive, y compris des informations sur les produits, les commandes et les clients. Il est souvent utilisé pour pratiquer l'analyse de données.
Ce jeu de données Excel comprend les variables suivantes :
ID de commande - Un identifiant unique pour chaque commande.
ID client - Un identifiant unique pour chaque client.
Date de la commande - La date de passation de la commande.
Date d'expédition - La date à laquelle la commande a été expédiée.
Mode d'expédition - Le mode d'expédition de la commande (par exemple, standard, le jour même).
Segment - Le segment de clientèle (p. ex. Consommateur, Entreprise, Bureau à domicile).
Région - La région où se trouve le client (par exemple, Ouest, Centre, Est).
Catégorie - La catégorie du produit acheté (par exemple, mobilier, technologie, fournitures de bureau).
Sous-catégorie - La sous-catégorie du produit acheté (par exemple, chaises, ordinateurs de bureau, papier).
Nom du produit - Le nom du produit acheté.
Ventes - Le chiffre d'affaires du produit acheté.
Quantité - Le nombre d'unités du produit acheté.
Remise - La remise appliquée au produit acheté.
Bénéfice - Le bénéfice généré par le produit acheté.
Cet ensemble de données comprend des mesures de la longueur des sépales, de la largeur des sépales, de la longueur des pétales et de la largeur des pétales de 150 fleurs d'iris, qui appartiennent à 3 espèces différentes : setosa, versicolor et virginica. L'ensemble de données d'iris comporte 150 lignes et 5 colonnes, qui sont stockées sous forme de données, y compris une colonne pour l'espèce de chaque fleur.
La description de ses variables comprend :
Sepal.Length - Sepal.length représente la longueur du sépale en centimètres.
Sepal.Width - Sepal.width représente la largeur du sépale en centimètres.
Petal.Length - Petal.length représente la longueur du pétale en centimètres.
Espèce - La variable espèce représente l'espèce de la fleur d'iris, avec trois valeurs possibles : setosa, versicolor et virginica.
Un cas d'utilisation du jeu de données Iris dans Excel consiste à analyser la relation entre les différentes caractéristiques de la fleur Iris et à classer les espèces de fleurs en fonction des valeurs des caractéristiques. Cela peut être fait en utilisant des techniques telles que l'analyse de corrélation, les statistiques inférentielles et la modélisation prédictive.
Vous pouvez également télécharger ce jeu de données Excel sur Kaggle en cliquant surici .
Cet ensemble de données open source populaire offre des informations sur les passagers à bord du navire Titanic lorsqu'il a coulé le 15 avril 1912. Il peut être utilisé par les débutants en analyse de données intéressés par le nettoyage et le prétraitement des données, les statistiques descriptives, la visualisation des données et la modélisation prédictive.
Certaines des variables incluses dans l'ensemble de données :
PassengerId - Un identifiant unique pour chaque passager.
Survived - Indique si le passager a survécu ou non (0 = Non, 1 = Oui).
Pclass - Une classe de passager (1 = 1er, 2 = 2e, 3 = 3e).
Nom - Le nom d'un passager.
Sexe - Le sexe d'un passager.
Âge - L'âge d'un passager.
SibSp - Le nombre de frères et sœurs/conjoints à bord.
Parch - Le nombre de parents/enfants à bord.
Ticket - Le numéro du ticket.
Tarif - Le tarif payé pour le billet.
Cabine - Le numéro de la cabine.
Embarqué - Le port d'embarquement (C = Cherbourg, Q = Queenstown, S = Southampton).
L'ensemble de données Wine Quality contient des informations sur les échantillons de vins rouges et blancs. Cet ensemble de données vise à classer la qualité du vin en fonction de propriétés chimiques telles que le pH, la densité, la teneur en alcool et la teneur en acide citrique.
Les variables communes incluses dans cet ensemble de données Excel :
Acidité fixe - Le nombre d'acides fixes dans le vin, exprimé en g/dm^3.
Acidité volatile - Le nombre d'acides volatils dans le vin, exprimé en g/dm^3.
Acide citrique - La quantité d'acide citrique dans le vin, exprimée en g/dm^3.
Sucre résiduel - La quantité de sucre résiduel dans le vin, exprimée en g/dm^3
Chlorures - La quantité de chlorure dans le vin, exprimée en g/dm^3.
Dioxyde de soufre libre - La quantité de dioxyde de soufre libre dans le vin, exprimée en mg/dm^3.
Dioxyde de soufre total - La quantité de dioxyde de soufre total dans le vin, exprimée en mg/dm^3.
Densité - La densité du vin, exprimée en g/cm^3.
pH - Le niveau de pH du vin.
Sulfates - Le nombre de sulfates dans le vin, exprimé en g/dm^3.
Alcool - La teneur en alcool du vin, exprimée en % vol.
Qualité - La cote de qualité du vin, sur une échelle de 0 à 10.
Cet ensemble de données Excel est une collection d'informations sur les individus vivant aux États-Unis, extraites de la base de données du recensement de 1994. Il contient divers attributs démographiques, sociaux et économiques de chaque individu.
Certains des attributs inclus dans cet ensemble de données :
âge
Classe de travail - Privé, Auto-emploi-pas-inc, Auto-emploi-inc, Fédéral-gouvernement, Local-gouvernement, État-gouvernement, Sans salaire, N'a jamais travaillé.
L'ensemble de données Boston Housing comprend des informations sur le logement dans la région de Boston, Massachusetts. Il contient environ 506 lignes et 14 colonnes de données.
Certaines des variables de l'ensemble de données incluent :
CRIM - Taux de criminalité par habitant par ville.
ZN - La proportion de terrains résidentiels zonés pour les lots de plus de 25 000 pi.ca.
INDUS - La proportion d'acres commerciales non commerciales par ville.
CHAS - Variable fictive Charles River (= 1 si le secteur délimite la rivière ; 0 sinon).
NOX - La concentration d'oxyde nitrique (parties par 10 millions).
RM - Le nombre moyen de pièces par logement.
AGE - La proportion d'unités occupées par leur propriétaire construites avant 1940.
DIS - Les distances pondérées à cinq centres d'emploi de Boston.
RAD - L'indice d'accessibilité aux autoroutes radiales.
TAXE - Le taux de la taxe foncière sur la valeur totale par tranche de 10 000 $.
PTRATIO - Le ratio élèves-enseignant par ville.
B - 1000(Bk - 0.63)^2 où -Bk est la proportion de noirs par ville.
LSTAT - Le pourcentage de statut inférieur de la population.
MEDV - La valeur médiane des maisons occupées par leur propriétaire en milliers de dollars.
Cet ensemble de données peut être utilisé dans l'analyse de données pour analyser la relation entre diverses caractéristiques des prix des logements et un marché du logement, effectuer une analyse de données et générer des informations.
Cet ensemble de données Excel contient des informations sur les tumeurs du cancer du sein et a été initialement créé par le Dr William H. Wolberg. L'ensemble de données a été créé pour aider les chercheurs et les praticiens de l'apprentissage automatique à classer les tumeurs comme malignes (cancéreuses) ou bénignes (non cancéreuses).
Certaines des variables incluses dans cet ensemble de données :
numéro d'identification
Diagnostic (M = malin, B = bénin).
Rayon (moyenne des distances entre le centre et les points du périmètre).
Texture (l'écart type des valeurs d'échelle de gris).
Périmètre
Zone
Lissé (la variation locale des longueurs de rayon).
Compacité (le périmètre ^ 2 / surface - 1,0).
Concavité (la gravité des parties concaves du contour).
Points concaves (le nombre de parties concaves du contour).
Symétrie
Dimension fractale ("approximation du littoral" - 1).
L'ensemble de données sur les intentions d'achat des acheteurs en ligne est une collection de données relatives aux habitudes d'achat et au comportement des consommateurs dans le contexte des achats en ligne. Il a été créé en menant des enquêtes auprès d'acheteurs en ligne et en collectant des données à partir de leurs réponses.
Certaines des variables de cet ensemble de données incluent :
Administratif - Le nombre de pages du site Web visitées par l'utilisateur à des fins administratives
Administrative_Duration - Le temps total passé par l'utilisateur sur les pages administratives du site Web
Informationnel - Le nombre de pages du site Web visitées par l'utilisateur à des fins d'information
Informational_Duration - Le temps total passé par l'utilisateur sur les pages d'information du site Web
ProductRelated - Le nombre de pages du site Web visitées par l'utilisateur à des fins liées au produit
ProductRelated_Duration - Le temps total passé par l'utilisateur sur les pages liées aux produits du site Web
BounceRates - Le pourcentage de visiteurs qui entrent sur le site Web et le quittent sans consulter d'autres pages
Taux de sortie - Le pourcentage de visiteurs qui quittent le site Web à partir d'une page particulière après l'avoir visitée
PageValues - La valeur moyenne des pages consultées par l'utilisateur avant la transaction
SpecialDay - La proximité de la visite avec un jour spécial (par exemple, la fête des mères, la Saint-Valentin, etc.)
Cet ensemble de données Excel est utilisé dans la recherche et l'analyse liées au commerce électronique et au marketing en ligne. Cela peut aider les entreprises à comprendre les facteurs qui déterminent le comportement des clients et est également utile pour les débutants en analyse de données.
Cet ensemble de données populaire est destiné à étudier les campagnes marketing d'une institution bancaire portugaise. Il contient des informations sur les campagnes marketing de la banque, ainsi que des données démographiques sur les clients et des indicateurs économiques.
Certaines des variables incluses dans cet ensemble de données :
Âge - Âge du client (numérique)
Emploi - Type d'emploi
Marital - État matrimonial
Éducation - Niveau d'éducation
Défaut - Le crédit est-il en défaut ?
Solde - Solde annuel moyen, en euros.
Logement - A un prêt logement ?
Prêt - A un prêt personnel ?
Contact - Type de communication des contacts.
Jour - Jour du mois contacté.
La variable de sortie indique si le client a souscrit ou non à un dépôt à terme après avoir été contacté par la banque.
L'ensemble de données Avocado Prices se compose de données relatives aux prix des avocats aux États-Unis. Les données sont collectées auprès de diverses sources telles que le Hass Avocado Board et le Département de l'agriculture des États-Unis (USDA).
Certaines des variables de cet ensemble de données incluent :
Date - La date de l'observation.
AveragePrice - Le prix moyen d'un seul avocat.
Volume total - Nombre total d'avocats vendus.
Code PLU (Price Look-Up) - Un code utilisé pour identifier un type spécifique d'avocat.
Type - Conventionnel ou biologique
Région - La ville ou la région de l'observation.
Il peut également être utilisé par les entreprises de l'industrie alimentaire pour prendre des décisions stratégiques concernant l'achat et la vente d'avocats.
Cet ensemble de données Excel est une collection de données relatives aux 50 livres les plus vendus sur Amazon pour chaque année entre 2009 et 2019.
L'ensemble de données comprend les variables suivantes :
Nom - Le titre du livre.
Auteur - Le nom de l'auteur du livre.
Note de l'utilisateur - La note moyenne du livre telle que fournie par les utilisateurs d'Amazon.
Avis - Le nombre total d'avis que le livre a reçus sur Amazon.
Prix - Le prix du livre en dollars américains.
Année - L'année de publication du livre.
Genre - Le genre du livre.
Le Top 50 des livres les plus vendus d'Amazon peut être utilisé pour explorer les tendances des ventes de livres sur Amazon sur une décennie et est utile aux débutants en analyse de données.
L'ensemble de données de la Coupe du Monde de la FIFA est une collection de données relatives à la Coupe du Monde de la FIFA qui a lieu tous les quatre ans. Il contient des informations sur chaque tournoi de la Coupe du monde de 1930 à 2014.
Certaines des variables de cet ensemble de données incluent :
Année - L'année du tournoi.
Pays - Le pays hôte du tournoi.
Vainqueur - L'équipe qui a remporté le tournoi.
Finalistes - L'équipe qui a terminé deuxième.
Troisième - L'équipe qui a terminé à la troisième place.
Quatrième - L'équipe qui a terminé à la quatrième place.
GoalsScored - Le nombre total de buts marqués dans le tournoi.
QualifiedTeams - Le nombre total d'équipes qualifiées pour le tournoi.
Participation - Le nombre total de spectateurs qui ont assisté aux matchs.
L'ensemble de données peut être utilisé pour analyser les tendances de la Coupe du monde au fil du temps, telles que les changements dans le nombre d'équipes qui participent ou le nombre de buts marqués.
Cet ensemble de données Excel se compose d'informations publiques sur les annonces et les mesures Airbnb à New York. Les données ouvertes Airbnb de la ville de New York 2019 comprennent des informations sur environ 50 000 logements Airbnb dans la ville et sont mises à la disposition du public par le gouvernement de la ville de New York pour promouvoir la transparence et la compréhension de l'impact des locations sur la ville.
Certaines des variables de l'ensemble de données incluent :
Id - Un identifiant unique pour chaque annonce Airbnb.
Nom - Le nom de l'annonce Airbnb.
Host_id - Un identifiant unique pour l'hôte Airbnb.
Host_name - Le nom de l'hôte Airbnb.
Neighbourhood_group - L'arrondissement de la liste Airbnb.
Quartier - Le quartier de la liste Airbnb.
Latitude - La latitude de l'annonce Airbnb.
Longitude - La longitude de l'annonce Airbnb.
Room_type - Le type de chambre disponible à la location (par exemple, chambre privée, maison/appartement entier, chambre partagée).
Prix - Le prix par nuit pour louer l'annonce Airbnb.
Cet ensemble de données comprend des informations sur les niveaux de bonheur de plus de 150 pays, tels que les facteurs économiques, sociaux et sanitaires qui contribuent au bonheur. Il est utile aux débutants en analyse de données pour pratiquer l'exploration, la visualisation et l'analyse de régression des données.
Certaines des variables de cet ensemble de données incluent :
Nom du pays - Nom du pays.
Année - Année de l'enquête.
Échelle de vie - Score moyen de satisfaction à l'égard de la vie basé sur une échelle de 0 à 10.
Log PIB par habitant - Logarithme naturel du PIB par habitant, ajusté en fonction de la parité de pouvoir d'achat (PPA) en dollars internationaux constants de 2017.
Espérance de vie en bonne santé à la naissance - Le nombre prévu d'années à vivre en pleine santé, ajusté pour les années passées en mauvaise santé.
Cet ensemble de données comprend les cours boursiers quotidiens de diverses sociétés, telles qu'Apple, Google et Amazon. Il est utile pour pratiquer l'analyse de séries chronologiques et prédire les cours boursiers futurs.
Les variables de cet ensemble de données :
Date - La date à laquelle le cours de l'action a été enregistré.
Ouvert - Le cours d'ouverture de l'action.
Élevé - Le prix le plus élevé de l'action au cours de la journée de négociation.
Bas - Le prix le plus bas de l'action au cours de la journée de négociation.
Clôture - Le cours de clôture de l'action.
Adj Close - Le cours de clôture ajusté de l'action.
Volume - Le nombre d'actions échangées au cours de la journée.
Questions de pratique courantes pour ces ensembles de données Excel
Ventes en supermarché
Quel est le revenu total généré par le magasin ?
Quelle catégorie de produits contribue le plus aux ventes ?
Quelle a été la tendance des ventes au cours de l'année écoulée ?
Quelle région a les ventes les plus élevées et laquelle a les plus faibles ?
Quelle est la marge bénéficiaire moyenne du magasin ?
Iris
Quelle est la distribution de chaque espèce d'iris dans l'ensemble de données ?
Quelle est la corrélation entre la longueur des pétales et la largeur des pétales ?
Quelle est la longueur moyenne des sépales pour chaque espèce d'iris ?
Quelle espèce d'iris a la plus grande surface de pétales ?
Combien y a-t-il d'observations pour chaque espèce d'iris ?
Titanesque
Quel est le taux de survie des passagers ?
Quel est l'âge moyen des passagers ?
Quelle est la proportion de passagers hommes et femmes ?
Quelle classe de passagers avait le taux de survie le plus élevé ?
Quelle est la répartition du tarif payé par les passagers ?
Qualité du vin
Quelle est la corrélation entre le pH et la teneur en alcool ?
Quel type de vin (rouge ou blanc) a une note de qualité médiane la plus élevée ?
Quelle est l'acidité volatile médiane pour chaque type de vin ?
Quelle est la proportion de chaque type de vin dans l'ensemble de données ?
Quelle est la répartition de l'acide citrique pour chaque type de vin ?
Revenu du recensement des adultes
Quelle est la proportion de personnes qui gagnent plus de 50 000 $ ?
Quel est l'âge moyen des personnes qui gagnent plus de 50 000 $ ?
Quelle est la corrélation entre l'âge et le niveau d'éducation ?
Quelle est la proportion d'hommes et de femmes qui gagnent plus de 50 000 $ ?
Quel est le nombre médian d'heures travaillées par semaine pour les personnes qui gagnent plus de 50 000 $ ?
Logement à Boston
Quelle est la corrélation entre le nombre de pièces et la valeur médiane des logements en propriété ?
Quelle variable a la plus forte corrélation avec la valeur médiane des logements occupés par leur propriétaire ?
Quel est l'âge moyen des maisons ?
Quelle est la répartition du ratio élèves-enseignant par commune ?
Quelle ville a la valeur médiane la plus élevée des logements occupés par leur propriétaire ?
Ensemble de données du Wisconsin sur le cancer du sein
Quelle est la proportion de tumeurs bénignes et malignes ?
Quelle est la corrélation entre le rayon et le périmètre de la tumeur ?
Quelle est la finesse moyenne des tumeurs ?
Quelle est la distribution de la concavité des tumeurs ?
Quelle est la surface médiane des tumeurs ?
Intention d'achat des acheteurs en ligne
Quelle est la proportion de visiteurs ayant effectué un achat ?
Quelle est la répartition du nombre de pages visitées par les visiteurs ?
Quel est le temps moyen passé sur le site par les visiteurs ?
Quelle est la corrélation entre le taux de rebond et les revenus ?
Quelle est la distribution du système d'exploitation utilisé par les visiteurs ?
Marketing bancaire
Quelle est la proportion de personnes ayant souscrit à un dépôt à terme ?
Quelle est la corrélation entre l'âge et l'équilibre ?
Quelle est la répartition du type d'emploi des clients ?
Quelle est la durée moyenne des appels ?
Quelle est la proportion d'appels effectués chaque mois ?
Amazon Top 50 des livres les plus vendus de 2009 à 2019
Quelle est la note moyenne des livres ?
Quelle est la distribution du nombre de critiques reçues par les livres ?
Quel livre a le prix le plus élevé ?
Quelle est la corrélation entre la note et le prix des livres ?
Quelle est la répartition des genres des livres ?
Coupe du monde Fifa
Quel est le nombre moyen de buts marqués par match ?
Quelle est la proportion de matchs qui se sont terminés par un match nul ?
Quel pays a remporté le plus de titres de Coupe du monde ?
Quel est l'âge moyen des joueurs du tournoi ?
Quelle est la répartition de la fréquentation pour chaque match ?
Données ouvertes d'Airbnb à New York
Quel est le prix moyen des annonces ?
Quelle est la répartition des types de chambres disponibles pour les annonces ?
Quel quartier a le plus d'annonces ?
Quelle est la corrélation entre le nombre d'avis et le prix des annonces ?
Quelle est la répartition des conditions d'annulation pour les annonces ?
Rapport mondial sur le bonheur
Quelle est la distribution des scores de bonheur pour chaque pays ?
Quel pays a le score de bonheur le plus élevé ?
Quelle est la corrélation entre le PIB par habitant et le score de bonheur ?
Quelle est la répartition des facteurs qui contribuent au bonheur ?
Quelle région du monde a le score de bonheur moyen le plus élevé ?
Prix de l'action
Quel est le rendement quotidien moyen de l'action ?
Quelle est la répartition du volume quotidien des échanges ? Prix de l'avocat
Quel est le prix moyen des avocats ?
Quelle est la répartition du prix moyen par région ?
Quelle région a le prix moyen le plus élevé et le plus bas ?
Quelle est la corrélation entre le volume total et le prix moyen ?
Quelle est la répartition du volume total par année ?
Dernières pensées
Excel propose une large gamme d'outils pour les débutants en analyse de données et vous pouvez améliorer vos compétences en utilisant les jeux de données Excel répertoriés dans cet article.
Vous pouvez également créer différents types de visualisations telles que des graphiques linéaires, des graphiques à barres, des nuages de points, des histogrammes et des graphiques circulaires pour répondre aux questions ci-dessus.
L'image principale de cet article a été générée via le modèleAI Stable Diffusion de HackerNoon à l'aide de l'invite "Excel datasets".