paint-brush
डेटा एनालिटिक्स शुरुआती के लिए 15 एक्सेल डेटासेट द्वारा@datasets
322,303 रीडिंग
322,303 रीडिंग

डेटा एनालिटिक्स शुरुआती के लिए 15 एक्सेल डेटासेट

द्वारा Open Datasets Compiled by HackerNoon
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Open Datasets Compiled by HackerNoon

@datasets

A library of open datasets for data analytics/machine learning compiled...

15 मिनट read2023/03/19
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

एक्सेल डेटा विश्लेषण के लिए एक अनिवार्य उपकरण है और सही डेटासेट और तकनीकों के साथ, शुरुआती लोग अंतर्दृष्टि को उजागर करना और सूचित निर्णय लेना सीख सकते हैं। इस लेख में, हमने शुरुआती डेटा एनालिटिक्स के लिए 15 एक्सेल डेटासेट की एक सूची तैयार की है। वित्तीय विश्लेषण, बाजार विश्लेषण और समय श्रृंखला विश्लेषण जैसे विषयों को कवर करने वाले इन एक्सेल डेटासेट का उपयोग वास्तविक दुनिया के परिदृश्यों में अंतर्दृष्टि प्राप्त करने के लिए किया जा सकता है।
featured image - डेटा एनालिटिक्स शुरुआती के लिए 15 एक्सेल डेटासेट
Open Datasets Compiled by HackerNoon HackerNoon profile picture
Open Datasets Compiled by HackerNoon

Open Datasets Compiled by HackerNoon

@datasets

A library of open datasets for data analytics/machine learning compiled by HackerNoon.

एक्सेल डेटा विश्लेषण के लिए एक अनिवार्य उपकरण है और सही डेटासेट और तकनीकों के साथ, शुरुआती लोग अंतर्दृष्टि को उजागर करना और सूचित निर्णय लेना सीख सकते हैं। इसका सहज इंटरफ़ेस और शक्तिशाली कार्यक्षमता उपयोगकर्ताओं को डेटा हेरफेर, डेटा विज़ुअलाइज़ेशन और सांख्यिकीय विश्लेषण जैसी प्रक्रियाओं की एक विस्तृत श्रृंखला करने की अनुमति देती है।

"एक्सेल डेटासेट" क्या हैं?

एक्सेल डेटासेट डेटा का संग्रह है जो एक्सेल स्प्रेडशीट में संग्रहीत और व्यवस्थित होता है, जो आमतौर पर इस्तेमाल किया जाने वाला सॉफ़्टवेयर है जो उपयोगकर्ताओं को संरचित प्रारूप में डेटा बनाने, हेरफेर करने और विश्लेषण करने में सक्षम बनाता है। ये डेटासेट दो मुख्य स्वरूपों में आ सकते हैं: एक्सेल (.xlsx) और कॉमा सेपरेटेड वैल्यूज़ (CSV)। एक्सेल प्रारूप सूत्रों और विज़ुअलाइज़ेशन के उपयोग सहित जटिल डेटा को व्यवस्थित और विश्लेषण करने के लिए अधिक उन्नत सुविधाएँ प्रदान करता है, जबकि दूसरी ओर, सीएसवी एक सरल प्रारूप प्रदान करता है जो सॉफ्टवेयर अनुप्रयोगों की एक विस्तृत श्रृंखला के साथ संगत है, जिससे इसे साझा करना आसान हो जाता है। विभिन्न कार्यक्रमों के बीच डेटा।


इस लेख में, हमने डेटा एनालिटिक्स शुरुआती के लिए 15 एक्सेल डेटासेट की एक सूची तैयार की है। वित्तीय विश्लेषण, बाजार विश्लेषण और समय श्रृंखला विश्लेषण जैसे विषयों को कवर करने वाले इन एक्सेल डेटासेट के साथ, शुरुआती वास्तविक दुनिया के परिदृश्यों में अंतर्दृष्टि प्राप्त करते हुए डेटा विश्लेषण तकनीकों जैसे डेटा सफाई, पिवट टेबल और चार्ट का अभ्यास कर सकते हैं।

डेटा एनालिटिक्स शुरुआती के लिए एक्सेल डेटासेट की सूची

  1. सुपरस्टोर की बिक्री
  2. आँख की पुतली
  3. टाइटैनिक
  4. शराब की गुणवत्ता
  5. वयस्क जनगणना आय
  6. बोस्टन हाउसिंग
  7. स्तन कैंसर विस्कॉन्सिन डेटासेट
  8. ऑनलाइन खरीदारी करने वाले का इरादा
  9. बैंक मार्केटिंग
  10. एवोकैडो की कीमतें
  11. अमेज़न शीर्ष 50 बेस्टसेलिंग पुस्तकें 2009 - 2019
  12. फ़ीफ़ा वर्ल्ड कप
  13. न्यूयॉर्क सिटी Airbnb ओपन डेटा
  14. वर्ल्ड हैप्पीनेस रिपोर्ट
  15. शेयर की कीमत

1. सुपरस्टोर की बिक्री

सुपरस्टोर बिक्री डेटा एक काल्पनिक खुदरा कंपनी के लिए बिक्री डेटा प्रदान करता है, जिसमें उत्पादों, ऑर्डर और ग्राहकों की जानकारी शामिल है। इसका उपयोग अक्सर डेटा एनालिटिक्स का अभ्यास करने के लिए किया जाता है।


इस एक्सेल डेटासेट में निम्नलिखित चर शामिल हैं:


  • आदेश आईडी - प्रत्येक आदेश के लिए एक अद्वितीय पहचानकर्ता।
  • ग्राहक आईडी - प्रत्येक ग्राहक के लिए एक अद्वितीय पहचानकर्ता।
  • आदेश दिनांक - आदेश देने की तिथि।
  • शिप करने की तारीख - जिस तारीख को ऑर्डर शिप किया गया था।
  • शिप मोड - ऑर्डर के लिए शिपिंग मोड (जैसे मानक, उसी दिन)।
  • खंड - ग्राहक खंड (जैसे उपभोक्ता, कॉर्पोरेट, गृह कार्यालय)।
  • क्षेत्र - वह क्षेत्र जहां ग्राहक स्थित है (जैसे पश्चिम, मध्य, पूर्व)।
  • श्रेणी - खरीदे गए उत्पाद की श्रेणी (उदाहरण के लिए फर्नीचर, प्रौद्योगिकी, कार्यालय आपूर्तियाँ)।
  • उप-श्रेणी - खरीदे गए उत्पाद की उप-श्रेणी (जैसे कुर्सियाँ, डेस्कटॉप, कागज़)।
  • उत्पाद का नाम - खरीदे गए उत्पाद का नाम।
  • बिक्री - खरीदे गए उत्पाद के लिए बिक्री राजस्व।
  • मात्रा - खरीदे गए उत्पाद की इकाइयों की संख्या।
  • छूट - खरीदे गए उत्पाद पर लागू छूट।
  • लाभ - खरीदे गए उत्पाद से उत्पन्न लाभ।


image

2. आँख की पुतली

इस डेटासेट में 150 आईरिस फूलों की बाह्यदल की लंबाई, बाह्यदल की चौड़ाई, पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई के माप शामिल हैं, जो 3 अलग-अलग प्रजातियों से संबंधित हैं: सेटोसा, वर्सिकलर और वर्जिनिका। आइरिस डेटासेट में 150 पंक्तियाँ और 5 कॉलम होते हैं, जिन्हें डेटाफ़्रेम के रूप में संग्रहीत किया जाता है, जिसमें प्रत्येक फूल की प्रजातियों के लिए एक कॉलम भी शामिल है।


इसके चरों के विवरण में शामिल हैं:


  • बाह्यदल की लंबाई - बाह्यदल की लंबाई सेंटीमीटर में बाह्यदल की लंबाई को दर्शाती है।
  • बाह्यदल.चौड़ाई - बाह्यदल.चौड़ाई सेंटीमीटर में बाह्यदल की चौड़ाई का प्रतिनिधित्व करती है।
  • पंखुड़ी.लंबाई - पंखुड़ी.लंबाई सेंटीमीटर में पंखुड़ी की लंबाई दर्शाती है।
  • प्रजाति - प्रजाति चर आईरिस फूल की प्रजाति का प्रतिनिधित्व करता है, तीन संभावित मूल्यों के साथ: सेटोसा, वर्सिकलर और वर्जिनिका।


एक्सेल में आइरिस डेटासेट का एक उपयोग आइरिस फूल की विभिन्न विशेषताओं के बीच संबंधों का विश्लेषण करने और फीचर मूल्यों के आधार पर फूलों की प्रजातियों को वर्गीकृत करने के लिए है। यह सहसंबंध विश्लेषण, अनुमानित सांख्यिकी और भविष्य कहनेवाला मॉडलिंग जैसी तकनीकों का उपयोग करके किया जा सकता है।


आप इस एक्सेल डेटासेट को कागल पर क्लिक करके भी डाउनलोड कर सकते हैं यहाँ .

3. टाइटैनिक

यह लोकप्रिय ओपन-सोर्स डेटासेट 15 अप्रैल, 1912 को डूबे टाइटैनिक जहाज पर सवार यात्रियों के बारे में जानकारी प्रदान करता है। इसका उपयोग डेटा एनालिटिक्स शुरुआती लोगों द्वारा किया जा सकता है, जो डेटा की सफाई और प्रीप्रोसेसिंग, वर्णनात्मक आँकड़े, डेटा विज़ुअलाइज़ेशन और प्रेडिक्टिव मॉडलिंग में रुचि रखते हैं।

डेटासेट में शामिल कुछ चर:


  • पैसेंजर आईडी - प्रत्येक यात्री के लिए एक अद्वितीय पहचानकर्ता।
  • बच गया - इससे पता चलता है कि यात्री बच गया या नहीं (0 = नहीं, 1 = हाँ)।
  • Pclass - एक यात्री की कक्षा (1 = 1, 2 = 2, 3 = 3)।
  • नाम - एक यात्री का नाम।
  • लिंग - एक यात्री का लिंग।
  • उम्र - एक यात्री की उम्र।
  • SibSp - सवार भाई-बहनों/पत्नियों की संख्या।
  • Parch - सवार माता-पिता/बच्चों की संख्या।
  • टिकट - टिकट संख्या।
  • किराया - टिकट के लिए चुकाया गया किराया।
  • केबिन - केबिन नंबर।
  • चढ़ाई - चढ़ाई का बंदरगाह (सी = चेरबर्ग, क्यू = क्वीन्सटाउन, एस = साउथेम्प्टन)।

4. शराब की गुणवत्ता

वाइन गुणवत्ता डेटासेट में रेड और व्हाइट वाइन के नमूनों की जानकारी होती है। इस डेटासेट का उद्देश्य पीएच, घनत्व, अल्कोहल सामग्री और साइट्रिक एसिड सामग्री जैसे रासायनिक गुणों के आधार पर वाइन की गुणवत्ता को वर्गीकृत करना है।


इस एक्सेल डेटासेट में शामिल सामान्य चर:


  • नियत अम्लता - वाइन में स्थिर अम्लों की संख्या, g/dm^3 में व्यक्त की जाती है।
  • वाष्पशील अम्लता - वाइन में वाष्पशील अम्लों की संख्या, g/dm^3 में व्यक्त की जाती है।
  • साइट्रिक एसिड - वाइन में साइट्रिक एसिड की मात्रा, g/dm^3 में व्यक्त की जाती है।
  • अवशिष्ट चीनी - वाइन में अवशिष्ट चीनी की मात्रा, g/dm^3 में व्यक्त की जाती है
  • क्लोराइड - वाइन में क्लोराइड की मात्रा, g/dm^3 में व्यक्त की जाती है।
  • मुक्त सल्फर डाइऑक्साइड - वाइन में मुक्त सल्फर डाइऑक्साइड की मात्रा, mg/dm^3 में व्यक्त की जाती है।
  • कुल सल्फर डाइऑक्साइड - वाइन में कुल सल्फर डाइऑक्साइड की मात्रा, mg/dm^3 में व्यक्त की जाती है।
  • घनत्व - वाइन का घनत्व, g/cm^3 में व्यक्त किया जाता है।
  • पीएच - वाइन का पीएच स्तर।
  • सल्फेट्स - वाइन में सल्फेट्स की संख्या, g/dm^3 में व्यक्त की जाती है।
  • शराब - शराब की शराब सामग्री, % वॉल्यूम में व्यक्त की गई।
  • गुणवत्ता - 0 से 10 के पैमाने पर शराब की गुणवत्ता रेटिंग।

5. वयस्क जनगणना आय

यह एक्सेल डेटासेट 1994 की जनगणना डेटाबेस से निकाली गई संयुक्त राज्य अमेरिका में रहने वाले व्यक्तियों के बारे में जानकारी का एक संग्रह है। इसमें प्रत्येक व्यक्ति के बारे में विभिन्न जनसांख्यिकीय, सामाजिक और आर्थिक विशेषताएं शामिल हैं।


इस डेटासेट में शामिल कुछ विशेषताएं:


  • आयु

  • वर्कक्लास - प्राइवेट, सेल्फ़-एम्प-नॉट-इंक, सेल्फ़-एम्प-इंक, फ़ेडरल-गोव, लोकल-गोव, स्टेट-गोव, विदाउट-पे, नेवर वर्क्ड।

  • fnlwgt

  • शिक्षा - स्नातक, कुछ-कॉलेज, 11वीं, एचएस-ग्रेड, प्रो-स्कूल, एसोसिएट-एसीडीएम, एसोसिएट-वोक, 9वीं, 7वीं-8वीं, 12वीं, मास्टर्स, पहली-चौथी, 10वीं, डॉक्टरेट, 5वीं-6वीं, प्रीस्कूल।

  • शिक्षा-संख्या

  • वैवाहिक-स्थिति - विवाहित-नागरिक-पति-पत्नी, तलाकशुदा, कभी-विवाहित नहीं, अलग, विधवा, विवाहित-पति-पत्नी-अनुपस्थित, विवाहित-वायुसेना-पति।

  • पेशा - टेक-सपोर्ट, क्राफ्ट-रिपेयर, अन्य-सर्विस, सेल्स, एक्जीक्यूटिव-मैनेजेरियल, प्रो-स्पेशियलिटी, हैंडलर-क्लीनर, मशीन-ऑप-इंस्पेक्ट, एडमिन-क्लेरिकल, फार्मिंग-फिशिंग, ट्रांसपोर्ट-मूविंग, प्राइवेट-हाउस- सेवा, सुरक्षा-सेवा, सशस्त्र बल।

  • रिश्ता - पत्नी, खुद की संतान, पति, गैर-परिवार, अन्य-रिश्तेदार, अविवाहित।

  • रेस - व्हाइट, एशियन-पीएसी-आइलैंडर, आमेर-इंडियन-एस्किमो, अन्य, ब्लैक।

  • लिंग - पुरुष या महिला।


"आय" विशेषता लक्ष्य चर है और डेटा एनालिटिक्स शुरुआती लोगों के लिए डेटासेट बहुत उपयोगी है।


image

6. बोस्टन हाउसिंग

बोस्टन हाउसिंग डेटासेट में बोस्टन, मैसाचुसेट्स के क्षेत्र में आवास के बारे में जानकारी शामिल है। इसमें लगभग 506 पंक्तियाँ और डेटा के 14 स्तंभ हैं।


डेटासेट में कुछ चरों में शामिल हैं:


  • CRIM - शहर के अनुसार प्रति व्यक्ति अपराध दर।
  • ZN - 25,000 sq.ft से अधिक लॉट के लिए ज़ोन की गई आवासीय भूमि का अनुपात।
  • इंडस - प्रति शहर गैर-खुदरा व्यापार एकड़ का अनुपात।
  • चास - चार्ल्स रिवर डमी वेरिएबल (= 1 अगर ट्रैक्ट रिवर को बांधता है; 0 अन्यथा)।
  • NOX - नाइट्रिक ऑक्साइड सांद्रता (भाग प्रति 10 मिलियन)।
  • आरएम - प्रति आवास कमरों की औसत संख्या।
  • AGE - 1940 से पहले निर्मित स्वामित्व वाली इकाइयों का अनुपात।
  • डीआईएस - बोस्टन के पांच रोजगार केंद्रों की भारित दूरी।
  • रेड - रेडियल राजमार्गों तक पहुंच का सूचकांक।
  • टैक्स - प्रति $10,000 पर पूरे मूल्य की संपत्ति-कर की दर।
  • PTRATIO - शहर द्वारा छात्र-शिक्षक अनुपात।
  • B - 1000(Bk - 0.63)^2 जहां -Bk शहर द्वारा अश्वेतों का अनुपात है।
  • LSTAT - जनसंख्या का प्रतिशत कम स्थिति।
  • MEDV - $1000 में मालिक के कब्जे वाले घरों का औसत मूल्य।


इस डेटासेट का उपयोग डेटा विश्लेषण में घर की कीमतों और आवास बाजार की विभिन्न विशेषताओं के बीच संबंधों का विश्लेषण करने, डेटा विश्लेषण करने और अंतर्दृष्टि उत्पन्न करने के लिए किया जा सकता है।

7. स्तन कैंसर विस्कॉन्सिन डेटासेट

इस एक्सेल डेटासेट में स्तन कैंसर के ट्यूमर के बारे में जानकारी शामिल है और शुरुआत में इसे डॉ. विलियम एच. वोलबर्ग ने बनाया था। ट्यूमर को घातक (कैंसर) या सौम्य (गैर-कैंसर) के रूप में वर्गीकृत करने में शोधकर्ताओं और मशीन लर्निंग चिकित्सकों की सहायता के लिए डेटासेट बनाया गया था।


इस डेटासेट में शामिल कुछ चर:


  • आईडी नंबर
  • निदान (एम = घातक, बी = सौम्य)।
  • त्रिज्या (केंद्र से परिधि पर बिंदुओं तक की दूरी का माध्य)।
  • बनावट (ग्रे-स्केल मानों का मानक विचलन)।
  • परिमाप
  • क्षेत्र
  • चिकनाई (त्रिज्या लंबाई में स्थानीय भिन्नता)।
  • कॉम्पैक्टनेस (परिधि^2 / क्षेत्र - 1.0)।
  • अवतलता (समोच्च के अवतल भागों की गंभीरता)।
  • अवतल बिंदु (समोच्च के अवतल भागों की संख्या)।
  • समरूपता
  • भग्न आयाम ("समुद्र तट सन्निकटन" - 1)।

8. ऑनलाइन खरीदारी करने वाले का इरादा

ऑनलाइन शॉपर्स परचेजिंग इंटेंशन डेटासेट ऑनलाइन खरीदारी के संदर्भ में खरीद पैटर्न और उपभोक्ता व्यवहार से संबंधित डेटा का एक संग्रह है। यह ऑनलाइन खरीददारों का सर्वेक्षण करके और उनकी प्रतिक्रियाओं से डेटा एकत्र करके बनाया गया था।


इस डेटासेट में कुछ चर शामिल हैं:


  • प्रशासनिक - प्रशासनिक उद्देश्यों के लिए उपयोगकर्ता द्वारा देखे गए वेबसाइट के पृष्ठों की संख्या
  • प्रशासनिक_अवधि - वेबसाइट के प्रशासनिक पृष्ठों पर उपयोगकर्ता द्वारा बिताया गया कुल समय
  • सूचनात्मक - सूचनात्मक उद्देश्यों के लिए उपयोगकर्ता द्वारा देखे गए वेबसाइट के पृष्ठों की संख्या
  • सूचनात्मक_अवधि - वेबसाइट के सूचनात्मक पृष्ठों पर उपयोगकर्ता द्वारा बिताया गया कुल समय
  • उत्पाद संबंधी - उत्पाद से संबंधित उद्देश्यों के लिए उपयोगकर्ता द्वारा देखे गए वेबसाइट के पृष्ठों की संख्या
  • ProductRelated_Duration - वेबसाइट के उत्पाद से संबंधित पृष्ठों पर उपयोगकर्ता द्वारा बिताया गया कुल समय
  • बाउंस दर - आगंतुकों का प्रतिशत जो वेबसाइट में प्रवेश करते हैं और कोई अन्य पृष्ठ देखे बिना छोड़ देते हैं
  • ExitRates - विज़िटर्स का प्रतिशत जो किसी विशेष पृष्ठ पर विज़िट करने के बाद वेबसाइट से बाहर निकल जाते हैं
  • PageValues - लेन-देन से पहले उपयोगकर्ता द्वारा देखे गए पृष्ठों का औसत मूल्य
  • विशेष दिवस - किसी विशेष दिन की यात्रा की निकटता (जैसे, मातृ दिवस, वेलेंटाइन दिवस, आदि)


इस एक्सेल डेटासेट का इस्तेमाल ई-कॉमर्स और ऑनलाइन मार्केटिंग से जुड़े रिसर्च और एनालिटिक्स में किया जाता है। यह व्यवसायों को ग्राहक व्यवहार को चलाने वाले कारकों को समझने में मदद कर सकता है और डेटा एनालिटिक्स शुरुआती लोगों के लिए भी उपयोगी है।

9. बैंक मार्केटिंग

यह लोकप्रिय डेटासेट एक पुर्तगाली बैंकिंग संस्थान के मार्केटिंग अभियानों का अध्ययन करने के लिए है। इसमें बैंक के विपणन अभियानों के साथ-साथ ग्राहक जनसांख्यिकी और आर्थिक संकेतकों के बारे में जानकारी शामिल है।


इस डेटासेट में शामिल कुछ चर:


  • आयु - ग्राहक की आयु (संख्यात्मक)
  • नौकरी - नौकरी का प्रकार
  • वैवाहिक - वैवाहिक स्थिति
  • शिक्षा - शिक्षा स्तर
  • डिफ़ॉल्ट - क्या क्रेडिट डिफ़ॉल्ट रूप से है?
  • बैलेंस - औसत वार्षिक बैलेंस, यूरो में।
  • हाउसिंग - क्या हाउसिंग लोन है?
  • ऋण - एक व्यक्तिगत ऋण है?
  • संपर्क - संपर्क संचार प्रकार।
  • दिन - महीने का दिन संपर्क किया।
  • आउटपुट वेरिएबल यह दर्शाता है कि बैंक द्वारा संपर्क किए जाने के बाद ग्राहक ने सावधि जमा की सदस्यता ली या नहीं।

10. एवोकैडो की कीमतें

एवोकाडो प्राइस डेटासेट में संयुक्त राज्य अमेरिका में एवोकाडो की कीमतों से संबंधित डेटा शामिल है। डेटा हस एवोकैडो बोर्ड और यूनाइटेड स्टेट्स डिपार्टमेंट ऑफ एग्रीकल्चर (यूएसडीए) जैसे विभिन्न स्रोतों से एकत्र किया गया है।


इस डेटासेट में कुछ चर शामिल हैं:


  • तिथि - अवलोकन की तिथि।
  • औसत कीमत - एक एवोकाडो की औसत कीमत।
  • कुल मात्रा - बेचे गए एवोकाडो की कुल संख्या।
  • PLU (प्राइस लुक-अप) कोड - एक विशिष्ट प्रकार के एवोकैडो की पहचान करने के लिए उपयोग किया जाने वाला कोड।
  • प्रकार - पारंपरिक या जैविक
  • क्षेत्र - अवलोकन का शहर या क्षेत्र।


एवोकाडोस खरीदने और बेचने के बारे में रणनीतिक निर्णय लेने के लिए इसका उपयोग खाद्य उद्योग में व्यवसायों द्वारा भी किया जा सकता है।

11। अमेज़न शीर्ष 50 बेस्टसेलिंग पुस्तकें 2009 - 2019

यह एक्सेल डेटासेट 2009 और 2019 के बीच प्रत्येक वर्ष अमेज़न पर शीर्ष 50 सबसे अधिक बिकने वाली पुस्तकों से संबंधित डेटा का एक संग्रह है।


डेटासेट में निम्नलिखित चर शामिल हैं:


  • नाम - पुस्तक का शीर्षक।
  • लेखक - पुस्तक के लेखक का नाम।
  • उपयोगकर्ता रेटिंग - अमेज़ॅन उपयोगकर्ताओं द्वारा प्रदान की गई पुस्तक की औसत रेटिंग।
  • समीक्षाएं - Amazon पर पुस्तक को प्राप्त समीक्षाओं की कुल संख्या.
  • मूल्य - यूएस डॉलर में पुस्तक का मूल्य।
  • वर्ष - पुस्तक प्रकाशित होने का वर्ष।
  • शैली - पुस्तक की शैली।


Amazon की शीर्ष 50 सर्वाधिक बिकने वाली पुस्तकों का उपयोग Amazon पर एक दशक से भी अधिक समय में पुस्तकों की बिक्री के रुझानों का पता लगाने के लिए किया जा सकता है और यह डेटा एनालिटिक्स शुरुआती लोगों के लिए उपयोगी है।


image

12. फ़ीफ़ा वर्ल्ड कप

फीफा विश्व कप डेटासेट फीफा विश्व कप से संबंधित डेटा का एक संग्रह है जो हर चार साल में आयोजित किया जाता है। इसमें 1930 से 2014 तक हर विश्व कप टूर्नामेंट की जानकारी शामिल है।


इस डेटासेट में कुछ चर शामिल हैं:


  • वर्ष - टूर्नामेंट का वर्ष।
  • देश - टूर्नामेंट का मेजबान देश।
  • विजेता - टूर्नामेंट जीतने वाली टीम।
  • उपविजेता - वह टीम जो उपविजेता रही।
  • तृतीय - तीसरे स्थान पर रहने वाली टीम।
  • चौथा - चौथे स्थान पर रहने वाली टीम।
  • गोल स्कोर - टूर्नामेंट में किए गए गोलों की कुल संख्या।
  • QualifiedTeams - टूर्नामेंट के लिए क्वालीफाई करने वाली टीमों की कुल संख्या।
  • उपस्थिति - मैचों में भाग लेने वाले दर्शकों की कुल संख्या।


समय के साथ विश्व कप में रुझानों का विश्लेषण करने के लिए डेटासेट का उपयोग किया जा सकता है, जैसे कि भाग लेने वाली टीमों की संख्या में परिवर्तन या गोल किए गए लक्ष्यों की संख्या।

13. न्यूयॉर्क सिटी Airbnb ओपन डेटा

इस एक्सेल डेटासेट में न्यूयॉर्क शहर में Airbnb लिस्टिंग और मेट्रिक्स के बारे में सार्वजनिक जानकारी शामिल है। 2019 न्यूयॉर्क सिटी एयरबीएनबी ओपन डेटा में शहर में लगभग 50,000 एयरबीएनबी लिस्टिंग की जानकारी शामिल है और शहर पर किराये के प्रभाव की पारदर्शिता और समझ को बढ़ावा देने के लिए न्यूयॉर्क शहर सरकार द्वारा जनता के लिए उपलब्ध कराया गया है।


डेटासेट में कुछ चरों में शामिल हैं:


  • आईडी - प्रत्येक Airbnb लिस्टिंग के लिए एक विशिष्ट पहचानकर्ता।
  • नाम - Airbnb लिस्टिंग का नाम।
  • Host_id - Airbnb होस्ट के लिए एक विशिष्ट पहचानकर्ता।
  • Host_name - Airbnb होस्ट का नाम।
  • Neighbourhood_group - Airbnb लिस्टिंग का बरो।
  • आस-पड़ोस - Airbnb लिस्टिंग का आस-पड़ोस।
  • अक्षांश - Airbnb लिस्टिंग का अक्षांश।
  • देशांतर - Airbnb लिस्टिंग का देशांतर।
  • Room_type - किराए के लिए उपलब्ध कमरे का प्रकार (जैसे निजी कमरा, पूरा घर/अपार्टमेंट, साझा कमरा)।
  • मूल्य - Airbnb लिस्टिंग को किराए पर देने के लिए प्रति रात का मूल्य।

14. वर्ल्ड हैप्पीनेस रिपोर्ट

इस डेटासेट में 150 से अधिक देशों के खुशी के स्तर की जानकारी शामिल है, जैसे कि आर्थिक, सामाजिक और स्वास्थ्य कारक जो खुशी में योगदान करते हैं। डेटा अन्वेषण, विज़ुअलाइज़ेशन और प्रतिगमन विश्लेषण का अभ्यास करने के लिए डेटा एनालिटिक्स शुरुआती लोगों के लिए यह उपयोगी है।


इस डेटासेट में कुछ चर शामिल हैं:


  • देश का नाम - देश का नाम।
  • वर्ष - सर्वेक्षण का वर्ष।
  • जीवन सीढ़ी - 0-10 के पैमाने पर आधारित औसत जीवन संतुष्टि स्कोर।
  • लॉग जीडीपी प्रति व्यक्ति - प्रति व्यक्ति जीडीपी का प्राकृतिक लघुगणक, निरंतर 2017 अंतरराष्ट्रीय डॉलर में क्रय शक्ति समानता (पीपीपी) के लिए समायोजित।
  • जन्म के समय स्वस्थ जीवन प्रत्याशा - पूर्ण स्वास्थ्य में रहने के लिए वर्षों की अपेक्षित संख्या, खराब स्वास्थ्य में व्यतीत वर्षों के लिए समायोजित।

15. शेयर की कीमत

इस डेटासेट में Apple, Google और Amazon जैसी विभिन्न कंपनियों के दैनिक स्टॉक मूल्य शामिल हैं। यह समय श्रृंखला विश्लेषण का अभ्यास करने और भविष्य की स्टॉक कीमतों की भविष्यवाणी करने के लिए उपयोगी है।


इस डेटासेट में चर:


  • दिनांक - वह दिनांक जब स्टॉक मूल्य दर्ज किया गया था।
  • खुला - स्टॉक का शुरुआती मूल्य।
  • उच्च - कारोबारी दिन के दौरान शेयर की उच्चतम कीमत।
  • कम - कारोबारी दिन के दौरान शेयर की सबसे कम कीमत।
  • बंद - स्टॉक का समापन मूल्य।
  • Adj Close - स्टॉक का समायोजित समापन मूल्य।
  • वॉल्यूम - दिन के दौरान कारोबार किए गए शेयरों की संख्या।


image

इन एक्सेल डेटासेट के लिए सामान्य अभ्यास प्रश्न

सुपरस्टोर की बिक्री

  • स्टोर द्वारा उत्पन्न कुल राजस्व क्या है?
  • बिक्री में किस श्रेणी के उत्पादों का सर्वाधिक योगदान है?
  • पिछले एक साल में बिक्री का रुझान कैसा रहा है?
  • किस क्षेत्र में सबसे अधिक बिक्री हुई है और किस क्षेत्र में सबसे कम?
  • स्टोर का औसत लाभ मार्जिन क्या है?

आँख की पुतली

  • डेटासेट में परितारिका की प्रत्येक प्रजाति का वितरण क्या है?
  • पंखुड़ी की लंबाई और पंखुड़ी की चौड़ाई के बीच क्या संबंध है?
  • परितारिका की प्रत्येक प्रजाति के लिए औसत बाह्यदल की लंबाई क्या है?
  • परितारिका की किस प्रजाति का पंखुड़ी क्षेत्र सबसे बड़ा होता है?
  • परितारिका की प्रत्येक प्रजाति के लिए कितने अवलोकन हैं?

टाइटैनिक

  • यात्रियों की उत्तरजीविता दर क्या है?
  • यात्रियों की औसत आयु क्या है?
  • पुरुष और महिला यात्रियों का अनुपात क्या है?
  • किस श्रेणी के यात्रियों की उत्तरजीविता दर सबसे अधिक थी?
  • यात्रियों द्वारा भुगतान किए गए किराए का वितरण क्या है?

शराब की गुणवत्ता

  • पीएच और अल्कोहल सामग्री के बीच क्या संबंध है?
  • किस प्रकार की शराब (लाल या सफेद) की औसत गुणवत्ता रेटिंग अधिक है?
  • प्रत्येक प्रकार की शराब के लिए औसत वाष्पशील अम्लता क्या है?
  • डेटासेट में प्रत्येक वाइन प्रकार का अनुपात क्या है?
  • प्रत्येक वाइन प्रकार के लिए साइट्रिक एसिड का वितरण क्या है?

वयस्क जनगणना आय

  • $50K से अधिक कमाने वाले लोगों का अनुपात क्या है?
  • $50K से अधिक कमाने वाले लोगों की औसत आयु कितनी है?
  • आयु और शिक्षा स्तर के बीच क्या संबंध है?
  • $50K से अधिक कमाने वाले पुरुषों और महिलाओं का अनुपात क्या है?
  • $50K से अधिक कमाने वाले लोगों के लिए प्रति सप्ताह काम किए गए औसत घंटे क्या हैं?

बोस्टन हाउसिंग

  • कमरों की संख्या और मालिक के कब्जे वाले घरों के औसत मूल्य के बीच क्या संबंध है?
  • मालिक के कब्जे वाले घरों के औसत मूल्य के साथ किस चर का सबसे अधिक संबंध है?
  • घरों की औसत आयु क्या है?
  • शहर द्वारा छात्र-शिक्षक अनुपात का वितरण क्या है?
  • किस शहर में मालिक के कब्जे वाले घरों का उच्चतम औसत मूल्य है?

स्तन कैंसर विस्कॉन्सिन डेटासेट

  • सौम्य और घातक ट्यूमर का अनुपात क्या है?
  • ट्यूमर त्रिज्या और परिधि के बीच क्या संबंध है?
  • ट्यूमर की औसत चिकनाई क्या है?
  • ट्यूमर की समतलता का वितरण क्या है?
  • ट्यूमर का औसत क्षेत्र क्या है?

ऑनलाइन खरीदारी करने वाले का इरादा

  • खरीदारी करने वाले विज़िटर का अनुपात क्या है?
  • आगंतुकों द्वारा देखे गए पृष्ठों की संख्या का वितरण क्या है?
  • आगंतुकों द्वारा वेबसाइट पर बिताया गया औसत समय क्या है?
  • उछाल दर और राजस्व के बीच क्या संबंध है?
  • आगंतुकों द्वारा उपयोग किए जाने वाले ऑपरेटिंग सिस्टम का वितरण क्या है?

बैंक मार्केटिंग

  • सावधि जमा में अभिदान करने वाले लोगों का अनुपात कितना है?
  • आयु और संतुलन के बीच क्या संबंध है?
  • ग्राहकों के कार्य प्रकार का वितरण क्या है?
  • कॉल की औसत अवधि क्या है?
  • प्रत्येक माह किए गए कॉलों का अनुपात क्या है?

अमेज़न शीर्ष 50 बेस्टसेलिंग पुस्तकें 2009 - 2019

  • पुस्तकों की औसत रेटिंग क्या है?
  • पुस्तकों द्वारा प्राप्त समीक्षाओं की संख्या का वितरण क्या है?
  • किस किताब की कीमत सबसे ज्यादा है?
  • किताबों की रेटिंग और कीमत के बीच क्या संबंध है?
  • पुस्तकों की विधाओं का वितरण क्या है?

फ़ीफ़ा वर्ल्ड कप

  • प्रत्येक खेल में किए गए गोलों की औसत संख्या क्या है?
  • ड्रा में समाप्त होने वाले खेलों का अनुपात क्या है?
  • किस देश ने सर्वाधिक विश्व कप खिताब जीते हैं?
  • टूर्नामेंट में खिलाड़ियों की औसत आयु कितनी है?
  • प्रत्येक खेल के लिए उपस्थिति का वितरण क्या है?

न्यूयॉर्क सिटी Airbnb ओपन डेटा

  • लिस्टिंग का औसत मूल्य क्या है?
  • लिस्टिंग के लिए उपलब्ध कमरों के प्रकार का वितरण क्या है?
  • किस मोहल्ले में सबसे अधिक लिस्टिंग है?
  • समीक्षाओं की संख्या और लिस्टिंग की कीमत के बीच क्या संबंध है?
  • लिस्टिंग के लिए रद्द करने की नीतियों का वितरण क्या है?

वर्ल्ड हैप्पीनेस रिपोर्ट

  • प्रत्येक देश के लिए हैप्पीनेस स्कोर का वितरण क्या है?
  • किस देश का हैप्पीनेस स्कोर सबसे ज्यादा है?
  • प्रति व्यक्ति सकल घरेलू उत्पाद और खुशी स्कोर के बीच क्या संबंध है?
  • खुशी में योगदान देने वाले कारकों का वितरण क्या है?
  • दुनिया के किस क्षेत्र में उच्चतम औसत खुशी स्कोर है?

शेयर की कीमत

  • स्टॉक का औसत दैनिक रिटर्न क्या है?
  • दैनिक ट्रेडिंग वॉल्यूम का वितरण क्या है? एवोकैडो की कीमतें
  • एवोकाडोस की औसत कीमत क्या है?
  • क्षेत्र द्वारा औसत मूल्य का वितरण क्या है?
  • किस क्षेत्र में उच्चतम और निम्नतम औसत कीमत है?
  • कुल मात्रा और औसत कीमत के बीच क्या संबंध है?
  • वर्ष के अनुसार कुल मात्रा का वितरण क्या है?

अंतिम विचार

एक्सेल डेटा एनालिटिक्स शुरुआती के लिए उपकरणों की एक विस्तृत श्रृंखला प्रदान करता है और आप इस लेख में सूचीबद्ध एक्सेल डेटासेट का उपयोग करके अपने कौशल में सुधार कर सकते हैं।


उपरोक्त प्रश्नों के उत्तर देने के लिए आप विभिन्न प्रकार के विज़ुअलाइज़ेशन जैसे लाइन चार्ट, बार चार्ट, स्कैटर प्लॉट, हिस्टोग्राम और पाई चार्ट भी बना सकते हैं।


इस लेख की मुख्य छविहैकरनून के एआई स्थिर प्रसार मॉडल के माध्यम से शीघ्र 'एक्सेल डेटासेट' का उपयोग करके तैयार की गई थी।


अधिक डेटासेट सूची:

  1. झांकी डेटासेट
  2. पावर बीआई डेटासेट
  3. केरस डेटासेट


L O A D I N G
. . . comments & more!

About Author

Open Datasets Compiled by HackerNoon HackerNoon profile picture
Open Datasets Compiled by HackerNoon@datasets
A library of open datasets for data analytics/machine learning compiled by HackerNoon.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD