paint-brush
15 Excel-Datensätze für Datenanalyse-Anfängervon@datasets
231,822 Lesungen
231,822 Lesungen

15 Excel-Datensätze für Datenanalyse-Anfänger

Zu lang; Lesen

Excel ist ein unverzichtbares Werkzeug für die Datenanalyse und mit den richtigen Datensätzen und Techniken können Anfänger lernen, Erkenntnisse zu gewinnen und fundierte Entscheidungen zu treffen. In diesem Artikel haben wir eine Liste mit 15 Excel-Datensätzen für Einsteiger in die Datenanalyse zusammengestellt. Diese Excel-Datensätze zu Themen wie Finanzanalyse, Marktanalyse und Zeitreihenanalyse können verwendet werden, um Einblicke in reale Szenarien zu gewinnen.
featured image - 15 Excel-Datensätze für Datenanalyse-Anfänger
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Excel ist ein unverzichtbares Werkzeug für die Datenanalyse und mit den richtigen Datensätzen und Techniken können Anfänger lernen, Erkenntnisse zu gewinnen und fundierte Entscheidungen zu treffen. Dank der intuitiven Benutzeroberfläche und leistungsstarken Funktionalität können Benutzer eine Vielzahl von Prozessen wie Datenmanipulation, Datenvisualisierung und statistische Analyse durchführen.

Was sind „Excel-Datensätze“?

Excel-Datensätze sind Datensammlungen, die in einer Excel-Tabelle gespeichert und organisiert werden. Dabei handelt es sich um eine häufig verwendete Software, mit der Benutzer Daten in einem strukturierten Format erstellen, bearbeiten und analysieren können. Diese Datensätze können in zwei Hauptformaten vorliegen: Excel (.xlsx) und durch Kommas getrennte Werte (CSV). Das Excel-Format bietet erweiterte Funktionen zum Organisieren und Analysieren komplexer Daten, einschließlich der Verwendung von Formeln und Visualisierungen, während CSV dagegen ein einfacheres Format bietet, das mit einer Vielzahl von Softwareanwendungen kompatibel ist und so die Weitergabe erleichtert Daten zwischen verschiedenen Programmen.


In diesem Artikel haben wir eine Liste mit 15 Excel-Datensätzen für Einsteiger in die Datenanalyse zusammengestellt. Mit diesen Excel-Datensätzen zu Themen wie Finanzanalyse, Marktanalyse und Zeitreihenanalyse können Anfänger Datenanalysetechniken wie Datenbereinigung, Pivot-Tabellen und Diagramme üben und gleichzeitig Einblicke in reale Szenarien gewinnen.

Liste der Excel-Datensätze für Datenanalyse-Anfänger

  1. Superstore-Verkäufe
  2. Iris
  3. Titanic
  4. Weinqualität
  5. Einkommen der Erwachsenenzählung
  6. Boston Housing
  7. Brustkrebs-Wisconsin-Datensatz
  8. Kaufabsicht von Online-Käufern
  9. Bankmarketing
  10. Avocado-Preise
  11. Die 50 meistverkauften Bücher von Amazon 2009 – 2019
  12. FIFA Weltmeisterschaft
  13. Offene Daten von New York City Airbnb
  14. Weltglücksbericht
  15. Standard Preis

1. Superstore-Verkäufe

Die Superstore Sales-Daten liefern Verkaufsdaten für ein fiktives Einzelhandelsunternehmen, einschließlich Informationen zu Produkten, Bestellungen und Kunden. Es wird häufig zum Üben von Datenanalysen verwendet.


Dieser Excel-Datensatz enthält die folgenden Variablen:


  • Bestell-ID – Eine eindeutige Kennung für jede Bestellung.
  • Kunden-ID – Eine eindeutige Kennung für jeden Kunden.
  • Bestelldatum – Das Datum der Auftragserteilung.
  • Versanddatum – Das Datum, an dem die Bestellung versandt wurde.
  • Versandmodus – Der Versandmodus für die Bestellung (z. B. Standard, am selben Tag).
  • Segment – Das Kundensegment (z. B. Consumer, Corporate, Home Office).
  • Region – Die Region, in der sich der Kunde befindet (z. B. West, Mitte, Ost).
  • Kategorie – Die Kategorie des gekauften Produkts (z. B. Möbel, Technik, Bürobedarf).
  • Unterkategorie – Die Unterkategorie des gekauften Produkts (z. B. Stühle, Schreibtische, Papier).
  • Produktname – Der Name des gekauften Produkts.
  • Verkäufe – Der Verkaufserlös für das gekaufte Produkt.
  • Menge – Die Anzahl der gekauften Produkteinheiten.
  • Rabatt – Der Rabatt, der auf das gekaufte Produkt angewendet wird.
  • Gewinn – Der durch das gekaufte Produkt erzielte Gewinn.


2. Iris

Dieser Datensatz umfasst Messungen der Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite von 150 Irisblüten, die zu drei verschiedenen Arten gehören: Setosa, Versicolor und Virginica. Der Iris-Datensatz besteht aus 150 Zeilen und 5 Spalten, die als Datenrahmen gespeichert werden, einschließlich einer Spalte für die Art jeder Blume.


Die Beschreibung seiner Variablen umfasst:


  • Sepal.Length – Die sepal.length gibt die Länge des Kelchblatts in Zentimetern an.
  • Sepal.Width – Die sepal.width gibt die Breite des Kelchblatts in Zentimetern an.
  • Petal.Length – Die petal.length gibt die Länge des Blütenblatts in Zentimetern an.
  • Art – Die Artvariable stellt die Art der Irisblume mit drei möglichen Werten dar: Setosa, Versicolor und Virginica.


Ein Anwendungsfall des Iris-Datensatzes in Excel besteht darin, die Beziehung zwischen den verschiedenen Merkmalen der Irisblume zu analysieren und die Blumenarten anhand der Merkmalswerte zu klassifizieren. Dies kann mithilfe von Techniken wie Korrelationsanalyse, Inferenzstatistik und prädiktiver Modellierung erfolgen.


Sie können diesen Excel-Datensatz auch auf Kaggle herunterladen, indem Sie auf klicken Hier .

3. Titanic

Dieser beliebte Open-Source-Datensatz bietet Informationen über die Passagiere an Bord des Titanic-Schiffes, als dieses am 15. April 1912 sank. Er kann von Datenanalyse-Anfängern verwendet werden, die sich für Datenbereinigung und -vorverarbeitung, deskriptive Statistik, Datenvisualisierung und prädiktive Modellierung interessieren.

Einige der im Datensatz enthaltenen Variablen:


  • PassengerId – Eine eindeutige Kennung für jeden Passagier.
  • Überlebt – Hier wird angezeigt, ob der Passagier überlebt hat oder nicht (0 = Nein, 1 = Ja).
  • Pclass – Eine Passagierklasse (1 = 1., 2 = 2., 3 = 3.).
  • Name – Der Name eines Passagiers.
  • Geschlecht – Das Geschlecht eines Passagiers.
  • Alter – Das Alter eines Passagiers.
  • SibSp – Die Anzahl der Geschwister/Ehepartner an Bord.
  • Parch – Die Anzahl der Eltern/Kinder an Bord.
  • Ticket – Die Ticketnummer.
  • Fahrpreis – Der für das Ticket bezahlte Fahrpreis.
  • Kabine – Die Kabinennummer.
  • Eingeschifft – Der Einschiffungshafen (C = Cherbourg, Q = Queenstown, S = Southampton).

4. Weinqualität

Der Weinqualitätsdatensatz enthält Informationen zu Rot- und Weißweinproben. Ziel dieses Datensatzes ist es, die Qualität des Weins anhand chemischer Eigenschaften wie pH-Wert, Dichte, Alkoholgehalt und Zitronensäuregehalt zu klassifizieren.


Die in diesem Excel-Datensatz enthaltenen allgemeinen Variablen:


  • Fester Säuregehalt – Die Anzahl der festen Säuren im Wein, ausgedrückt in g/dm^3.
  • Flüchtige Säure – Die Anzahl der flüchtigen Säuren im Wein, ausgedrückt in g/dm^3.
  • Zitronensäure – Die Menge an Zitronensäure im Wein, ausgedrückt in g/dm^3.
  • Restzucker – Die Menge des Restzuckers im Wein, ausgedrückt in g/dm^3
  • Chloride – Die Menge an Chlorid im Wein, ausgedrückt in g/dm^3.
  • Freies Schwefeldioxid – Die Menge an freiem Schwefeldioxid im Wein, ausgedrückt in mg/dm^3.
  • Gesamtschwefeldioxid – Die Gesamtschwefeldioxidmenge im Wein, ausgedrückt in mg/dm^3.
  • Dichte – Die Dichte des Weins, ausgedrückt in g/cm^3.
  • pH-Wert – Der pH-Wert des Weins.
  • Sulfate – Die Anzahl der Sulfate im Wein, ausgedrückt in g/dm^3.
  • Alkohol – Der Alkoholgehalt des Weines, ausgedrückt in % vol.
  • Qualität – Die Qualitätsbewertung des Weins auf einer Skala von 0 bis 10.

5. Einkommen der Erwachsenenzählung

Bei diesem Excel-Datensatz handelt es sich um eine Sammlung von Informationen über in den Vereinigten Staaten lebende Personen, die aus der Volkszählungsdatenbank von 1994 extrahiert wurden. Es enthält verschiedene demografische, soziale und wirtschaftliche Merkmale jedes Einzelnen.


Einige der in diesem Datensatz enthaltenen Attribute:


  • Alter

  • Arbeiterklasse – Privat, Selbständiger ohne Erwerbstätigkeit, Selbstständiger Arbeitnehmer, Bundesregierung, Kommunalregierung, Landesregierung, ohne Bezahlung, nie gearbeitet.

  • fnlwgt

  • Ausbildung – Bachelor, Some-College, 11., HS-Grad, Prof-School, Assoc-acdm, Assoc-voc, 9., 7.-8., 12., Master, 1.-4., 10., Doktorat, 5.-6., Vorschule.

  • Ausbildungsnr

  • Familienstand – Verheiratet-Lebenspartner, Geschieden, Nie verheiratet, Getrennt, Verwitwet, Verheirateter-Ehepartner-abwesend, Verheirateter-AF-Ehepartner.

  • Beruf - Technischer Support, Handwerk-Reparatur, Sonstige Dienstleistungen, Verkauf, Führungskraft, Professionell, Handler-Reiniger, Maschinen-Inspektion, Verwaltungsbüro, Landwirtschaft-Fischerei, Transport-Umzug, Privathaus- Dienst, Schutzdienst, Streitkräfte.

  • Beziehung - Ehefrau, eigenes Kind, Ehemann, nicht in der Familie, mit anderen Verwandten, unverheiratet.

  • Rasse – Weiß, Asiatisch-Pazifik-Insulaner, Amerikanisch-Indisch-Eskimo, Andere, Schwarz.

  • Geschlecht – männlich oder weiblich.


Das Attribut „Einkommen“ ist die Zielvariable und der Datensatz ist für Einsteiger in die Datenanalyse sehr nützlich.


6. Boston Housing

Der Boston Housing-Datensatz besteht aus Informationen zum Wohnungsbau in der Gegend von Boston, Massachusetts. Es verfügt über etwa 506 Zeilen und 14 Datenspalten.


Zu den Variablen im Datensatz gehören:


  • CRIM – Pro-Kopf-Kriminalitätsrate nach Stadt.
  • ZN – Der Anteil des Wohngrundstücks, das für Grundstücke über 25.000 Quadratfuß in Zonen ausgewiesen ist.
  • INDUS – Der Anteil der Nicht-Einzelhandelsflächen pro Stadt.
  • CHAS – Charles River-Dummy-Variable (= 1, wenn das Gebiet an den Fluss grenzt; andernfalls 0).
  • NOX – Die Stickoxidkonzentration (Teile pro 10 Millionen).
  • RM – Die durchschnittliche Anzahl der Zimmer pro Wohnung.
  • ALTER – Der Anteil der Eigentumswohnungen, die vor 1940 gebaut wurden.
  • DIS – Die gewichteten Entfernungen zu fünf Bostoner Arbeitsvermittlungszentren.
  • RAD – Der Index der Zugänglichkeit zu Radialstraßen.
  • STEUER – Der volle Grundsteuersatz pro 10.000 US-Dollar.
  • PTRATIO – Das Schüler-Lehrer-Verhältnis nach Städten.
  • B - 1000(Bk - 0,63)^2 wobei -Bk der Anteil der Schwarzen pro Stadt ist.
  • LSTAT – Der prozentuale niedrigere Status der Bevölkerung.
  • MEDV – Der mittlere Wert von Eigenheimen in 1.000 US-Dollar.


Dieser Datensatz kann in der Datenanalyse verwendet werden, um die Beziehung zwischen verschiedenen Merkmalen von Immobilienpreisen und einem Immobilienmarkt zu analysieren, Datenanalysen durchzuführen und Erkenntnisse zu gewinnen.

7. Brustkrebs-Wisconsin-Datensatz

Dieser Excel-Datensatz besteht aus Informationen über Brustkrebstumore und wurde ursprünglich von Dr. William H. Wolberg erstellt. Der Datensatz wurde erstellt, um Forschern und Praktikern des maschinellen Lernens dabei zu helfen, Tumore entweder als bösartig (krebsartig) oder gutartig (nicht krebsartig) zu klassifizieren.


Einige der in diesem Datensatz enthaltenen Variablen:


  • ID-Nummer
  • Diagnose (M = bösartig, B = gutartig).
  • Radius (der Mittelwert der Abstände vom Mittelpunkt zu Punkten auf dem Umfang).
  • Textur (die Standardabweichung der Graustufenwerte).
  • Umfang
  • Bereich
  • Glätte (die lokale Variation der Radiuslängen).
  • Kompaktheit (Umfang^2 / Fläche - 1,0).
  • Konkavität (der Schweregrad der konkaven Teile der Kontur).
  • Konkave Punkte (die Anzahl der konkaven Teile der Kontur).
  • Symmetrie
  • Fraktale Dimension („Küstennäherung“ – 1).

8. Kaufabsicht von Online-Käufern

Der Datensatz „Kaufabsicht von Online-Käufern“ ist eine Sammlung von Daten zu Kaufmustern und Verbraucherverhalten im Zusammenhang mit Online-Einkäufen. Es wurde durch die Durchführung von Umfragen unter Online-Käufern und das Sammeln von Daten aus deren Antworten erstellt.


Zu den Variablen in diesem Datensatz gehören:


  • Administrativ – Die Anzahl der Seiten der Website, die der Benutzer zu Verwaltungszwecken besucht
  • Administrative_Duration – Die Gesamtzeit, die der Benutzer auf Verwaltungsseiten der Website verbracht hat
  • Informativ – Die Anzahl der Seiten der Website, die der Benutzer zu Informationszwecken besucht
  • Informational_Duration – Die Gesamtzeit, die der Benutzer auf Informationsseiten der Website verbringt
  • ProductRelated – Die Anzahl der Seiten der Website, die der Benutzer zu produktbezogenen Zwecken besucht hat
  • ProductRelated_Duration – Die Gesamtzeit, die der Benutzer auf produktbezogenen Seiten der Website verbringt
  • Absprungraten – Der Prozentsatz der Besucher, die die Website betreten und wieder verlassen, ohne andere Seiten anzusehen
  • ExitRates – Der Prozentsatz der Besucher, die die Website nach dem Besuch einer bestimmten Seite verlassen
  • PageValues – Der durchschnittliche Wert der Seiten, die der Benutzer vor der Transaktion angesehen hat
  • SpecialDay – Die Nähe des Besuchs zu einem besonderen Tag (z. B. Muttertag, Valentinstag usw.)


Dieser Excel-Datensatz wird in Forschung und Analyse im Zusammenhang mit E-Commerce und Online-Marketing verwendet. Es kann Unternehmen helfen, die Faktoren zu verstehen, die das Kundenverhalten beeinflussen, und ist auch für Einsteiger in die Datenanalyse nützlich.

9. Bankmarketing

Dieser beliebte Datensatz dient der Untersuchung von Marketingkampagnen für ein portugiesisches Bankinstitut. Es enthält Informationen über die Marketingkampagnen der Bank sowie Kundendemografien und Wirtschaftsindikatoren.


Einige der in diesem Datensatz enthaltenen Variablen:


  • Alter – Alter des Kunden (numerisch)
  • Job – Art des Jobs
  • Familienstand – Familienstand
  • Bildung – Bildungsniveau
  • Zahlungsausfall – Kreditausfall?
  • Saldo – Durchschnittlicher Jahressaldo in Euro.
  • Wohnen – Gibt es einen Wohnungsbaukredit?
  • Darlehen – Haben Sie einen Privatkredit?
  • Kontakt – Kontaktkommunikationstyp.
  • Tag – Tag des kontaktierten Monats.
  • Die Ausgabevariable gibt an, ob der Kunde nach Kontaktaufnahme durch die Bank ein Festgeld abonniert hat oder nicht.

10. Avocado-Preise

Der Datensatz „Avocado-Preise“ besteht aus Daten zu den Avocado-Preisen in den Vereinigten Staaten. Die Daten stammen aus verschiedenen Quellen wie dem Hass Avocado Board und dem US-Landwirtschaftsministerium (USDA).


Zu den Variablen in diesem Datensatz gehören:


  • Datum – Das Datum der Beobachtung.
  • AveragePrice – Der Durchschnittspreis einer einzelnen Avocado.
  • Gesamtvolumen – Gesamtzahl der verkauften Avocados.
  • PLU-Code (Price Look-Up) – Ein Code zur Identifizierung einer bestimmten Avocadosorte.
  • Typ – konventionell oder biologisch
  • Region – Die Stadt oder Region der Beobachtung.


Es kann auch von Unternehmen der Lebensmittelindustrie genutzt werden, um strategische Entscheidungen über den Kauf und Verkauf von Avocados zu treffen.

11. Die 50 meistverkauften Bücher von Amazon 2009–2019

Dieser Excel-Datensatz ist eine Sammlung von Daten zu den 50 meistverkauften Büchern auf Amazon für jedes Jahr zwischen 2009 und 2019.


Der Datensatz enthält die folgenden Variablen:


  • Name – Der Titel des Buches.
  • Autor – Der Name des Autors des Buchs.
  • Benutzerbewertung – Die durchschnittliche Bewertung des Buchs, wie sie von Amazon-Benutzern bereitgestellt wird.
  • Rezensionen – Die Gesamtzahl der Rezensionen, die das Buch auf Amazon erhalten hat.
  • Preis – Der Preis des Buchs in US-Dollar.
  • Jahr – Das Jahr, in dem das Buch veröffentlicht wurde.
  • Genre – Das Genre des Buches.


Die Amazon Top 50 Bestseller-Bücher können verwendet werden, um Trends bei den Buchverkäufen auf Amazon über ein Jahrzehnt hinweg zu erkunden, und sind für Einsteiger in die Datenanalyse hilfreich.


12. FIFA Weltmeisterschaft

Der FIFA-Weltmeisterschaftsdatensatz ist eine Sammlung von Daten im Zusammenhang mit der alle vier Jahre stattfindenden FIFA-Weltmeisterschaft. Es enthält Informationen zu jedem WM-Turnier von 1930 bis 2014.


Zu den Variablen in diesem Datensatz gehören:


  • Jahr – Das Jahr des Turniers.
  • Land – Das Gastgeberland des Turniers.
  • Gewinner – Das Team, das das Turnier gewonnen hat.
  • Zweiter – Das Team, das den zweiten Platz belegt hat.
  • Dritter – Das Team, das den dritten Platz belegte.
  • Vierter – Das Team, das den vierten Platz belegte.
  • GoalsScored – Die Gesamtzahl der im Turnier erzielten Tore.
  • QualifiedTeams – Die Gesamtzahl der Teams, die sich für das Turnier qualifiziert haben.
  • Anwesenheit – Die Gesamtzahl der Zuschauer, die die Spiele besucht haben.


Mithilfe des Datensatzes können Trends bei der Weltmeisterschaft im Zeitverlauf analysiert werden, beispielsweise Veränderungen in der Anzahl der teilnehmenden Mannschaften oder der Anzahl der erzielten Tore.

13. Offene Daten von New York City Airbnb

Dieser Excel-Datensatz besteht aus öffentlichen Informationen über Airbnb-Inserate und Kennzahlen in New York City. Die New York City Airbnb Open Data 2019 enthalten Informationen zu etwa 50.000 Airbnb-Inseraten in der Stadt und werden von der Regierung von New York City der Öffentlichkeit zugänglich gemacht, um Transparenz und Verständnis für die Auswirkungen von Vermietungen auf die Stadt zu fördern.


Zu den Variablen im Datensatz gehören:


  • ID – Eine eindeutige Kennung für jedes Airbnb-Inserat.
  • Name – Der Name des Airbnb-Eintrags.
  • Host_id – Eine eindeutige Kennung für den Airbnb-Host.
  • Hostname – Der Name des Airbnb-Hosts.
  • Neighbourhood_group – Der Bezirk des Airbnb-Eintrags.
  • Nachbarschaft – Die Nachbarschaft des Airbnb-Eintrags.
  • Breitengrad – Der Breitengrad des Airbnb-Eintrags.
  • Längengrad – Der Längengrad des Airbnb-Eintrags.
  • Room_type – Der Typ des zur Miete verfügbaren Zimmers (z. B. Privatzimmer, ganzes Haus/Wohnung, Mehrbettzimmer).
  • Preis – Der Preis pro Nacht für die Anmietung des Airbnb-Inserats.

14. Weltglücksbericht

Dieser Datensatz enthält Informationen zum Glücksniveau von über 150 Ländern, beispielsweise zu wirtschaftlichen, sozialen und gesundheitlichen Faktoren, die zum Glück beitragen. Für Einsteiger in die Datenanalyse ist es nützlich, um Datenexploration, Visualisierung und Regressionsanalyse zu üben.


Zu den Variablen in diesem Datensatz gehören:


  • Ländername – Name des Landes.
  • Jahr – Jahr der Umfrage.
  • Lebensleiter – Durchschnittlicher Lebenszufriedenheitswert basierend auf einer Skala von 0–10.
  • Logarithmisches BIP pro Kopf – Natürlicher Logarithmus des BIP pro Kopf, angepasst an die Kaufkraftparität (KKP) in konstanten internationalen Dollar für 2017.
  • Gesunde Lebenserwartung bei der Geburt – Die erwartete Anzahl der Jahre, die man bei voller Gesundheit leben kann, angepasst an die Jahre, die man bei schlechter Gesundheit verbracht hat.

15. Standard Preis

Dieser Datensatz umfasst die täglichen Aktienkurse verschiedener Unternehmen wie Apple, Google und Amazon. Es ist nützlich, um Zeitreihenanalysen zu üben und zukünftige Aktienkurse vorherzusagen.


Die Variablen in diesem Datensatz:


  • Datum – Das Datum, an dem der Aktienkurs aufgezeichnet wurde.
  • Open – Der Eröffnungskurs der Aktie.
  • Hoch – Der höchste Kurs der Aktie während des Handelstages.
  • Niedrig – Der niedrigste Preis der Aktie während des Handelstages.
  • Schlusskurs – Der Schlusskurs der Aktie.
  • Adj Close – Der angepasste Schlusskurs der Aktie.
  • Volumen – Die Anzahl der im Laufe des Tages gehandelten Aktien.


Häufige Praxisfragen für diese Excel-Datensätze

Superstore-Verkäufe

  • Wie hoch ist der Gesamtumsatz des Ladens?
  • Welche Produktkategorie trägt am meisten zum Umsatz bei?
  • Wie war die Umsatzentwicklung im vergangenen Jahr?
  • Welche Region hat die höchsten Umsätze und welche die niedrigsten?
  • Wie hoch ist die durchschnittliche Gewinnspanne des Ladens?

Iris

  • Wie ist die Verteilung der einzelnen Irisarten im Datensatz?
  • Welcher Zusammenhang besteht zwischen Blütenblattlänge und Blütenblattbreite?
  • Was ist die durchschnittliche Kelchblattlänge für jede Irisart?
  • Welche Irisart hat die größte Blütenblattfläche?
  • Wie viele Beobachtungen gibt es für jede Irisart?

Titanic

  • Wie hoch ist die Überlebensrate der Passagiere?
  • Wie hoch ist das Durchschnittsalter der Passagiere?
  • Wie hoch ist der Anteil männlicher und weiblicher Passagiere?
  • Welche Passagierklasse hatte die höchste Überlebensrate?
  • Wie verteilt sich der Fahrpreis auf die Fahrgäste?

Weinqualität

  • Welcher Zusammenhang besteht zwischen pH-Wert und Alkoholgehalt?
  • Welche Weinsorte (Rot- oder Weißwein) hat eine höhere durchschnittliche Qualitätsbewertung?
  • Wie hoch ist der mittlere flüchtige Säuregehalt für jede Weinsorte?
  • Wie hoch ist der Anteil der einzelnen Weinsorten im Datensatz?
  • Wie ist die Verteilung der Zitronensäure bei den einzelnen Weinsorten?

Einkommen der Erwachsenenzählung

  • Wie hoch ist der Anteil der Menschen, die mehr als 50.000 US-Dollar verdienen?
  • Wie hoch ist das Durchschnittsalter von Menschen, die mehr als 50.000 US-Dollar verdienen?
  • Welcher Zusammenhang besteht zwischen Alter und Bildungsniveau?
  • Wie hoch ist der Anteil der Männer und Frauen, die mehr als 50.000 US-Dollar verdienen?
  • Wie hoch ist die durchschnittliche wöchentliche Arbeitszeit von Personen, die mehr als 50.000 US-Dollar verdienen?

Boston Housing

  • Welcher Zusammenhang besteht zwischen der Anzahl der Zimmer und dem Medianwert der Eigentumswohnungen?
  • Welche Variable weist die höchste Korrelation mit dem Medianwert von Eigenheimen auf?
  • Wie hoch ist das Durchschnittsalter der Häuser?
  • Wie verteilt sich das Schüler-Lehrer-Verhältnis nach Städten?
  • Welche Stadt hat den höchsten Durchschnittswert an Eigentumswohnungen?

Brustkrebs-Wisconsin-Datensatz

  • Wie hoch ist der Anteil gutartiger und bösartiger Tumoren?
  • Welcher Zusammenhang besteht zwischen Tumorradius und -umfang?
  • Was ist die durchschnittliche Glätte der Tumore?
  • Wie ist die Konkavitätsverteilung der Tumoren?
  • Wie groß ist die mittlere Fläche der Tumoren?

Kaufabsicht von Online-Käufern

  • Wie hoch ist der Anteil der Besucher, die einen Kauf getätigt haben?
  • Wie verteilt sich die Anzahl der von den Besuchern besuchten Seiten?
  • Wie hoch ist die durchschnittliche Verweildauer der Besucher auf der Website?
  • Welcher Zusammenhang besteht zwischen der Absprungrate und dem Umsatz?
  • Wie ist die Verteilung des von den Besuchern verwendeten Betriebssystems?

Bankmarketing

  • Wie hoch ist der Anteil der Personen, die ein Festgeld angelegt haben?
  • Welcher Zusammenhang besteht zwischen Alter und Gleichgewicht?
  • Wie ist die Auftragstypverteilung der Kunden?
  • Wie hoch ist die durchschnittliche Dauer der Anrufe?
  • Wie hoch ist der Anteil der monatlich getätigten Anrufe?

Die 50 meistverkauften Bücher von Amazon 2009 – 2019

  • Wie hoch ist die durchschnittliche Bewertung der Bücher?
  • Wie verteilt sich die Anzahl der Rezensionen, die die Bücher erhalten?
  • Welches Buch hat den höchsten Preis?
  • Welcher Zusammenhang besteht zwischen der Bewertung und dem Preis der Bücher?
  • Wie ist die Genreverteilung der Bücher?

FIFA Weltmeisterschaft

  • Wie viele Tore werden durchschnittlich pro Spiel erzielt?
  • Wie hoch ist der Anteil der Spiele, die unentschieden endeten?
  • Welches Land hat die meisten WM-Titel gewonnen?
  • Wie hoch ist das Durchschnittsalter der Spieler im Turnier?
  • Wie verteilt sich die Zuschauerzahl bei den einzelnen Spielen?

Offene Daten von New York City Airbnb

  • Wie hoch ist der durchschnittliche Preis der Angebote?
  • Wie ist die Verteilung der für die Inserate verfügbaren Zimmertypen?
  • Welches Viertel hat die meisten Angebote?
  • Welcher Zusammenhang besteht zwischen der Anzahl der Bewertungen und dem Preis der Einträge?
  • Wie lauten die Stornierungsbedingungen für die Inserate?

Weltglücksbericht

  • Wie ist die Verteilung der Glückswerte für jedes Land?
  • Welches Land hat den höchsten Glückswert?
  • Welcher Zusammenhang besteht zwischen dem Pro-Kopf-BIP und dem Glücksscore?
  • Wie ist die Verteilung der Faktoren, die zum Glück beitragen?
  • Welche Region der Welt hat den höchsten durchschnittlichen Glückswert?

Standard Preis

  • Wie hoch ist die durchschnittliche tägliche Rendite der Aktie?
  • Wie verteilt sich das tägliche Handelsvolumen? Avocado-Preise
  • Was ist der durchschnittliche Preis für Avocados?
  • Wie verteilt sich der Durchschnittspreis nach Regionen?
  • Welche Region hat den höchsten und niedrigsten Durchschnittspreis?
  • Welcher Zusammenhang besteht zwischen dem Gesamtvolumen und dem Durchschnittspreis?
  • Wie verteilt sich das Gesamtvolumen auf die Jahre?

Abschließende Gedanken

Excel bietet eine breite Palette an Tools für Einsteiger in die Datenanalyse und Sie können Ihre Fähigkeiten verbessern, indem Sie die in diesem Artikel aufgeführten Excel-Datensätze verwenden.


Sie können auch verschiedene Arten von Visualisierungen wie Liniendiagramme, Balkendiagramme, Streudiagramme, Histogramme und Kreisdiagramme erstellen, um die oben genannten Fragen zu beantworten.


Das Hauptbild dieses Artikels wurde mit demAI Stable Diffusion-Modell von HackerNoon unter Verwendung der Eingabeaufforderung „Excel-Datensätze“ generiert.


Weitere Datensatz-Listicles:

  1. Tableau-Datensätze
  2. Power BI-Datensätze
  3. Keras-Datensätze