अध्याय 05 डेटा को समझना

“डेटा सूचना नहीं है, सूचना ज्ञान नहीं है, ज्ञान समझ नहीं है, समझ बुद्धि नहीं है।”

  • गैरी शूबर्ट

5.1 डेटा का परिचय

अनेक बार लोग किसी विशेष डेटा या सूचना के आधार पर निर्णय लेते हैं। उदाहरण के लिए, कॉलेज में प्रवेश लेते समय कोई व्यक्ति उस कॉलेज के पिछले वर्षों के प्लेसमेंट डेटा, शिक्षक सदस्यों की शैक्षिक योग्यता और अनुभव, प्रयोगशाला और छात्रावास की सुविधाएँ, शुल्क आदि को देखता है। इसलिए हम कह सकते हैं कि कॉलेज की पहचान विभिन्न डेटा और उनके विश्लेषण पर आधारित होती है। सरकारें जनगणना नामक प्रक्रिया के माध्यम से जनसंख्या के बारे में डेटा को व्यवस्थित रूप से एकत्र करती हैं और रिकॉर्ड करती हैं। जनगणना डेटा में मूल्यवान सूचना होती है जो योजना और नीतियाँ बनाने में सहायक होती है। इसी प्रकार, किसी खेल टीम की कोचिंग स्टाफ प्रतिद्वंद्वी टीमों की पिछली प्रदर्शनों का विश्लेषण रणनीति बनाने के लिए करती है। बैंक ग्राहकों, उनके खाते के विवरण और लेनदेन के बारे में डेटा रखते हैं। ये सभी उदाहरण विभिन्न क्षेत्रों में डेटा की आवश्यकता को रेखांकित करते हैं। डेटा वास्तव में निर्णय लेने के लिए अत्यंत महत्वपूर्ण हैं।

पिछले उदाहरणों में, केवल डेटा को देखकर कोई निर्णय नहीं लिया जा सकता। हमारे कॉलेज चुनने के उदाहरण में, मान लीजिए कि कॉलेज की प्लेसमेंट सेल ने पिछले 3 वर्षों में विभिन्न कंपनियों में विभिन्न वेतन पैकेजों पर रखे गए लगभग 2000 छात्रों का डेटा रखा है। ऐसे डेटा को देखकर कोई भी उस कॉलेज के छात्रों की प्लेसमेंट के बारे में कोई टिप्पणी नहीं कर सकता। कॉलेज इस डेटा को प्रोसेस और विश्लेषण करता है और परिणामों को कॉलेज की प्लेसमेंट ब्रोशर में सारांश और दृश्यों के माध्यम से आसान समझ के लिए दिया जाता है। इसलिए, निर्णय लेने के लिए डेटा को एकत्रित, प्रोसेस और विश्लेषण करने की आवश्यकता होती है।

एक ज्ञान आधार सूचना का भंडार होता है जिसमें तथ्य, धारणाएं और नियम होते हैं जिनका उपयोग एक $\mathrm{AI}$ प्रणाली निर्णय लेने के लिए कर सकती है।

सामान्य तौर पर, डेटा वर्णों, संख्याओं और अन्य प्रतीकों का संग्रह होता है जो किसी स्थिति या चर के मानों को दर्शाता है। डेटा बहुवचन है और डेटा शब्द का एकवचन “डेटम” है। कंप्यूटरों का उपयोग करके, डेटा को इलेक्ट्रॉनिक रूप में संग्रहीत किया जाता है क्योंकि डेटा प्रोसेसिंग लोगों द्वारा किए गए मैनुअल डेटा प्रोसेसिंग की तुलना में तेज और आसान हो जाती है। कंप्यूटर, मोबाइल और इंटरनेट के नेतृत्व में सूचना और संचार प्रौद्योगिकी (ICT) क्रांति ने बड़ी मात्रा में डेटा और बहुत तेज गति से उत्पन्न किया है। निम्न सूची में कुछ उदाहरण दिए गए हैं जिन डेटा से हम अक्सर परिचित होते हैं।

  • किसी व्यक्ति का नाम, आयु, लिंग, संपर्क विवरण आदि
  • बैंकिंग, टिकट बुकिंग, खरीदारी आदि के माध्यम से उत्पन्न लेन-देन डेटा, चाहे ऑनलाइन हो या ऑफलाइन
  • छवियाँ, ग्राफ़िक्स, एनिमेशन, ऑडियो, वीडियो
  • दस्तावेज़ और वेब पेज
  • ऑनलाइन पोस्ट, टिप्पणियाँ और संदेश
  • सेंसरों द्वारा उत्पन्न संकेत
  • उपग्रह डेटा जिसमें मौसम संबंधी डेटा, संचार डेटा, पृथ्वी अवलोकन डेटा आदि शामिल हैं

5.1.1 डेटा का महत्व

मानव निर्णय लेने के लिए डेटा पर निर्भर करते हैं। इसके अतिरिक्त, जब बड़ी मात्रा में डेटा को कंप्यूटर की सहायता से प्रोसेस किया जाता है, तो यह हमें संभावनाएँ या छिपे हुए लक्षण दिखाता है जो अन्यथा मनुष्यों को दिखाई नहीं देते। जब कोई एटीएम से पैसा निकालता है, तो बैंक को जुड़े खाते से निकाली गई राशि को डेबिट करना होता है। इसलिए बैंक को डेटा बनाए रखना होता है और जरूरत पड़ने पर उसे अपडेट करना होता है। मौसम विभाग लगातार उपग्रह डेटा की निगरानी करते रहते हैं कि कोई आने वाला चक्रवात या भारी वर्षा है या नहीं।

प्रतिस्पर्धी व्यापारिक वातावरण में, व्यापारिक संगठनों के लिए यह आवश्यक है कि वे बाज़ार के व्यवहार की अपने उत्पादों के संदर्भ में लगातार निगरानी और विश्लेषण करें और तदनुसार कार्रवाई करें। इसके अतिरिक्त, कंपनियाँ ग्राहकों की मांगों के साथ-साथ प्रतिक्रियाओं की भी पहचान करती हैं और अपने उत्पादों या सेवाओं में बदलाव करती हैं।

वायुयान और रेलवे द्वारा प्रयुक्त गतिशील मूल्य निर्धारण की अवधारणा एक और उदाहरण है जहाँ वे माँग और आपूर्ति के बीच संबंधों के आधार पर मूल्य तय करते हैं। कैब बुकिंग ऐप्स किसी विशेष समय पर कैब की माँग के आधार पर मूल्य बढ़ाते या घटाते हैं। कुछ रेस्तराँ छूट दर (हैप्पी आवर्स कहलाती है) प्रदान करते हैं, वे विभिन्न समयावधियों में बिक्री के आँकड़ों का विश्लेषण करके यह तय करते हैं कि कब और कितनी छूट देनी है।

व्यवसाय के अतिरिक्त, निम्नलिखित कुछ अन्य परिदृश्य हैं जहाँ निर्णय लेने के लिए आँकड़ों को भी संग्रहित और विश्लेषित किया जाता है:

  • इलेक्ट्रॉनिक वोटिंग मशीनें डाले गए मतों को रिकॉर्ड करने के लिए प्रयुक्त होती हैं। तत्पश्चात्, सभी मशीनों से मतदान के आँकड़ों को संचित करके मैनुअल रूप से मतपत्रों की गिनती की तुलना में कम समय में चुनाव परिणाम घोषित किए जाते हैं।
  • वैज्ञानिक प्रयोग करते समय आँकड़े रिकॉर्ड करते हैं परिणामों की गणना और तुलना करने के लिए।
  • फार्मास्युटिकल कंपनियाँ कोई नई दवा आज़माते समय इसकी प्रभावशीलता देखने के लिए आँकड़े रिकॉर्ड करती हैं।
  • पुस्तकालय पुस्तकालय में उपलब्ध पुस्तकों और पुस्तकालय की सदस्यता के बारे में आँकड़े बनाए रखते हैं।
  • खोज इंजन वर्ल्ड वाइड वेब (www) पर उपलब्ध वेबसाइटों पर मौजूद बड़ी मात्रा में आँकड़ों का विश्लेषण करने के बाद हमें परिणाम देते हैं।
  • मौसम की चेतावनियाँ विभिन्न उपग्रहों से प्राप्त आँकड़ों के विश्लेषण द्वारा उत्पन्न की जाती हैं।

5.1.2 आँकड़ों के प्रकार

जैसे डेटा विभिन्न स्रोतों से आता है, वे विभिन्न प्रारूपों में हो सकते हैं। उदाहरण के लिए, एक छवि पिक्सेल का संग्रह होती है; एक वीडियो फ्रेमों से बना होता है; एक फीस स्लिप कुछ संख्यात्मक और गैर-संख्यात्मक प्रविष्टियों से बना होता है; और संदेश/चैट टेक्स्ट, आइकन (इमोटिकॉन) और छवियों/वीडियो से बने होते हैं। दो व्यापक श्रेणियाँ जिनमें डेटा को उनके प्रारूप के आधार पर वर्गीकृत किया जा सकता है, ये हैं:

गतिविधि 5.1

अपने परिवार के सदस्यों के मतदाता पहचान पत्रों का अवलोकन करें और उन डेटा फ़ील्डों की पहचान करें जिनके तहत डेटा संगठित हैं। क्या वे सभी के लिए समान हैं?

(A) संरचित डेटा

डेटा जो संगठित होता है और एक सुव्यवस्थित प्रारूप में दर्ज किया जा सकता है, उसे संरचित डेटा कहा जाता है। संरचित डेटा आमतौर पर कंप्यूटर में सारणीबद्ध (पंक्तियों और स्तंभों में) प्रारूप में संग्रहीत किया जाता है जहाँ प्रत्येक स्तंभ एक विशेष पैरामीटर जिसे गुण/विशेषता/चर कहा जाता है, के लिए भिन्न डेटा को दर्शाता है और प्रत्येक पंक्ति विभिन्न गुणों के लिए एक प्रेक्षण का डेटा दर्शाती है। तालिका 5.1 एक दुकान द्वारा रखे गए रसोई सामान की सूची से संबंधित संरचित डेटा दिखाती है।

तालिका 5.1 दुकान में रसोई सामान के बारे में संरचित डेटा

ModelNo ProductName Unit Price Discount(%) Items_in_Inventory
ABC1 पानी की बोतल 126 8 13
ABC2 मेलामाइन प्लेटें 320 5 45
ABC3 डिनर सेट 4200 10 8
GH67 जग 80 0 10
GH78 टेबल स्पून 120 5 14
GH81 बाल्टी 190 12 6
NK2 रसोई तौलिया 25 0 32

इस डेटा को देखते हुए, कोई स्प्रेडशीट या ऐसे ही अन्य सॉफ़्टवेयर का उपयोग करके दुकान का मालिक यह पता लगा सकता है कि कुल कितनी वस्तुएँ हैं, टेबल 5.1 के Items_in_Inventory कॉलम का योग निकालकर। दुकान का मालिक यह भी गणना कर सकता है कि इन्वेंटरी में मौजूद सभी वस्तुओं की कुल कितनी कीमत है, कॉलम 3 (Unit Price) की प्रत्येक प्रविष्टि को कॉलम 5 (Items_in_Inventory) की संगत प्रविष्टि से गुणा करके और उनका योग निकालकर।

टेबल 5.2 विभिन्न गुणधर्मों के लिए दर्ज किए गए संरचित डेटा के और उदाहरण दिखाता है।

टेबल 5.2 विभिन्न गतिविधियों के लिए रखे गए गुणधर्म

Entity/Activities Data Fields/Parameters/Attributes
Books at a shop BookTitle, Author, Price, YearofPublication
Depositing fees in a school StudentName, Class, RollNo, FeesAmount, DepositDate
Amount withdrawal from ATM AccHolderName, AccountNo, TypeofAcc, DateofWithdrawal, AmountWithdrawn, ATMid, TimeOfWithdrawal

(B) असंरचित डेटा

एक समाचार-पत्र में विभिन्न प्रकार की समाचार सामग्री होती है जिन्हें डेटा भी कहा जाता है। लेकिन समाचार लेखों को रखने के लिए कोई निश्चित पैटर्न नहीं होता। एक दिन एक पृष्ठ पर तीन अलग-अलग आकारों की तस्वीरें हो सकती हैं, पाँच समाचार आइटम और एक या अधिक विज्ञापन। जबकि किसी अन्य दिन एक बड़ी तस्वीर के साथ तीन पाठ समाचार आइटम हो सकते हैं। इसलिए समाचार छापने के लिए कोई विशेष प्रारूप नहीं है और न ही कोई निश्चित संरचना है। एक अन्य उदाहरण ईमेल की सामग्री है। ईमेल में कितनी पंक्तियाँ या पैराग्राफ लिखनी हैं या कितनी फ़ाइलें संलग्न करनी हैं, इस बारे में कोई निश्चित संरचना नहीं है। संक्षेप में, डेटा जो पारंपरिक पंक्ति और स्तंभ संरचना में नहीं होता है, उसे असंरचित डेटा कहा जाता है।

असंरचित डेटा के उदाहरणों में वेब पेज शामिल हैं जिनमें पाठ के साथ-साथ मल्टीमीडिया सामग्री (छवि, ग्राफ़िक्स, ऑडियो/वीडियो) होती है। अन्य उदाहरणों में पाठ दस्तावेज़, व्यावसायिक रिपोर्टें, पुस्तकें, ऑडियो/वीडियो फ़ाइलें, सोशल मीडिया संदेश शामिल हैं। यद्यपि असंरचित डेटा को संसाधित करने के तरीके मौजूद हैं, हम इस पुस्तक में केवल संरचित डेटा को संभालने पर ध्यान केंद्रित करने जा रहे हैं।

सोचिए और विचार कीजिए

जब हम अपने डिजिटल या मोबाइल कैमरे से कोई फोटो क्लिक करते हैं, क्या उसके साथ कोई मेटाडेटा जुड़ा होता है?

असंरचित डेटा को कभी-कभी किसी अन्य डेटा की सहायता से वर्णित किया जाता है जिसे मेटाडेटा कहा जाता है। मेटाडेटा मूलतः डेटा के बारे में डेटा होता है। उदाहरण के लिए, हम ईमेल के विभिन्न भागों को विषय, प्राप्तकर्ता, मुख्य भाग, संलग्नक आदि के रूप में वर्णित करते हैं। ये ईमेल डेटा के लिए मेटाडेटा हैं। इसी प्रकार, हम किसी इमेज फ़ाइल के लिए मेटाडेटा के रूप में इमेज का आकार ($\mathrm{KB}$ या $\mathrm{MB}$ में), इमेज प्रकार (उदाहरण के लिए, JPEG, PNG), इमेज रेज़ोल्यूशन आदि रख सकते हैं।

5.2 डेटा संग्रह

डेटा को प्रोसेस करने के लिए हमें पहले डेटा इकट्ठा या संग्रहित करना होता है। हम फिर डेटा को बाद में उपयोग के लिए किसी फ़ाइल या डेटाबेस में संग्रहित कर सकते हैं। यहाँ डेटा संग्रह का अर्थ है पहले से उपलब्ध डेटा की पहचान करना या उपयुक्त स्रोतों से डेटा इकट्ठा करना। मान लीजिए किसी किराना दुकान में बिक्री डेटा तीन अलग-अलग परिदृश्यों में उपलब्ध है:

  • बिक्री डेटा दुकानदार के पास डायरी या रजिस्टर में उपलब्ध है। इस स्थिति में हमें डेटा को डिजिटल प्रारूप में, उदाहरण के लिए किसी स्प्रेडशीट में, दर्ज करना चाहिए।
  • डेटा पहले से ही डिजिटल प्रारूप में, मान लीजिए CSV (comma separated values) फ़ाइल में उपलब्ध है।
  • दुकानदार ने अब तक किसी भी रूप में डेटा रिकॉर्ड नहीं किया है, लेकिन वह बिक्री डेटा और लेखा रखने के लिए कोई सॉफ़्टवेयर विकसित करवाना चाहता है। सॉफ़्टवेयर को Python जैसी किसी प्रोग्रामिंग भाषा का उपयोग करके विकसित किया जा सकता है, जो CSV फ़ाइल या MySQL जैसे डेटाबेस प्रबंधन तंत्र से डेटा संग्रहित और पुनः प्राप्त करने के लिए उपयोग किया जा सकता है, जिसे आगे चर्चा की जाएगी।

सोचिए और विचार कीजिए

आधार कार्ड बनाने के लिए आवश्यक गुणों की पहचान कीजिए।

डेटा विभिन्न स्रोतों पर लगातार उत्पन्न हो रहे हैं। डिजिटल माध्यम के साथ हमारी बातचीत लगातार विशाल मात्रा में डेटा उत्पन्न कर रही है। अस्पताल अपनी सेवाओं को बेहतर बनाने के लिए मरीजों के बारे में डेटा एकत्र कर रहे हैं। शॉपिंग मॉल लोगों द्वारा खरीदी जा रही वस्तुओं के बारे में डेटा एकत्र कर रहे हैं। ऐसे डेटा का विश्लेषण करने पर, मान लीजिए कि यह प्रतीत होता है कि बेडशीट और किराने का सामान अक्सर एक साथ खरीदे जाते हैं। इसलिए, दुकानदार मॉल में किराने के सेक्शन के पास बेडशीट प्रदर्शित करने का निर्णय ले सकता है ताकि बिक्री बढ़ाई जा सके। इसी तरह, एक राजनीतिक विश्लेषक सोशल मीडिया प्लेटफॉर्म पर पोस्ट और संदेशों में मौजूद डेटा को देख सकता है और चुनाव से पहले जनता की राय जानने के लिए विश्लेषण कर सकता है। विश्व बैंक और अंतर्राष्ट्रीय मुद्रा कोष (IMF) जैसे संगठन विभिन्न देशों से विभिन्न आर्थिक मापदंडों से संबंधित डेटा एकत्र कर रहे हैं ताकि आर्थिक पूर्वानुमान लगाए जा सकें।

5.3 डेटा संग्रहण

एक बार जब हम डेटा एकत्र कर लेते हैं और परिणाम प्राप्त करने के लिए उनका प्रसंस्करण करते हैं, तो हम उस डेटा को सिर्फ त्याग नहीं देते। बल्कि, हम उन्हें भविष्य में उपयोग के लिए संग्रहित करना चाहते हैं। डेटा संग्रहण वह प्रक्रिया है जिसमें डेटा को संग्रहण उपकरणों पर संग्रहित किया जाता है ताकि उन्हें बाद में पुनः प्राप्त किया जा सके। आजकल बहुत तेज़ी से बड़ी मात्रा में डेटा उत्पन्न हो रहा है। परिणामस्वरूप, डेटा संग्रहण एक चुनौतीपूर्ण कार्य बन गया है। हालांकि, डिजिटल संग्रहण उपकरणों की लागत में कमी ने इस कार्य को सरल बनाने में मदद की है। बाज़ार में कई प्रकार के डिजिटल संग्रहण उपकरण उपलब्ध हैं, जैसे कि हार्ड डिस्क ड्राइव (HDD), सॉलिड स्टेट ड्राइव (SSD), CD/DVD, टेप ड्राइव, पेन ड्राइव, मेमोरी कार्ड आदि।

हम अपने कंप्यूटरों में चित्र, दस्तावेज़, ऑडियो/वीडियो आदि को फ़ाइलों के रूप में संग्रहित करते हैं। इसी प्रकार, स्कूल/अस्पताल का डेटा डेटा फ़ाइलों में संग्रहित किया जाता है। हम इन फ़ाइलों में डेटा जोड़ने, संशोधित करने या हटाने के लिए कंप्यूटरों का उपयोग करते हैं या इन डेटा फ़ाइलों को प्रसंस्कृत कर परिणाम प्राप्त करते हैं। हालांकि, फ़ाइल प्रसंस्करण की कुछ सीमाएँ होती हैं, जिन्हें डेटाबेस प्रबंधन प्रणाली (DBMS) के माध्यम से दूर किया जा सकता है।

सोचिए और विचार कीजिए

क्या डेटा को प्रसंस्करण से पहले फ़ाइलों में संग्रहित करना आवश्यक है?

5.4 डेटा प्रसंस्करण

हम डेटा को समझने में रुचि रखते हैं क्योंकि वे मूल्यवान तथ्यों और सूचनाओं को धारित करते हैं जो हमारे निर्णय लेने की प्रक्रिया में उपयोगी हो सकते हैं। हालांकि, विशाल या बड़ी मात्रा में डेटा को देखकर कोई निष्कर्ष पर नहीं पहुँच सकता। बल्कि, परिणाम प्राप्त करने के लिए डेटा का प्रसंस्करण करना होता है और उन परिणामों का विश्लेषण करने के बाद ही हम निष्कर्ष या निर्णय लेते हैं।

चित्र 5.1: डेटा प्रोसेसिंग में चरण

हम ऑनलाइन बिल भुगतान, शिकायतों का पंजीकरण, टिकट बुकिंग आदि जैसी स्थितियों में स्वचालित डेटा प्रोसेसिंग पाते हैं। चित्र 5.1 आउटपुट प्राप्त करने के लिए डेटा को प्रोसेस करने के लिए उपयोग किए जाने वाले बुनियादी चरणों को दर्शाता है।

चित्र 5.2 कुछ कार्यों को डेटा, प्रोसेसिंग और उत्पन्न आउटपुट/सूचना के साथ दिखाता है।

5.5 डेटा प्रोसेसिंग के लिए सांख्यिकीय तकनीकें

डेटा मानों के एक समुच्चय को देखते हुए, हमें सूचना प्राप्त करने के लिए उन्हें प्रोसेस करने की आवश्यकता होती है। विभिन्न तकनीकें हैं जो हमें डेटा के बारे में प्रारंभिक समझ प्राप्त करने में मदद करती हैं। सारणीबद्ध डेटा की सरल समझ के लिए सारांश विधियाँ लागू की जाती हैं। डेटा सारांश के लिए सामान्यतः प्रयुक्त सांख्यिकीय तकनीकें नीचे दी गई हैं:

5.5.1 केंद्रीय प्रवृत्ति के माप

एक केंद्रीय प्रवृत्ति की माप एक एकल मान है जो हमें डेटा के बारे में कुछ विचार देता है। केंद्रीय प्रवृत्ति की तीन सबसे सामान्य मापें माध्य, माध्यिका और बहुलक हैं। प्रत्येक व्यक्तिगत डेटा मानों को देखने के बजाय, हम डेटा का माध्य, माध्यिका और बहुलक गणना कर सकते हैं ताकि क्रमशः औसत, मध्य मान और किसी विशेष मान की आवृत्ति के बारे में विचार प्राप्त कर सकें। केंद्रीय प्रवृत्ति की माप का चयन डेटा की कुछ विशेषताओं पर निर्भर करता है।

(A) माध्य

माध्य किसी गुणधर्म के संख्यात्मक मानों का औसत होता है। माध्य को औसत भी कहा जाता है। मान लीजिए किसी कक्षा में 40 छात्रों के वजन के डेटा हैं। प्रत्येक डेटा मान को देखने के बजाय, हम औसत की गणना कर सकते हैं ताकि उस कक्षा में छात्रों के औसत वजन के बारे में विचार प्राप्त कर सकें।

परिभाषा: दिए गए $n$ मान $x_{1}, x_{2}, x_{3}, \ldots x_{n}$ के लिए, माध्य की गणना $\frac{\sum_{i}^{n} x_{i}}{n}$ के रूप में की जाती है।

उदाहरण 5.1

मान लीजिए कि किसी कक्षा में छात्रों की ऊंचाई (सेमी में) इस प्रकार है $[90,102,110,115,85,90,100,110,110]$। कक्षा की माध्य या औसत ऊंचाई है

$$ \frac{90+102+110+115+85+90+100+110+110}{9}=\frac{912}{9}=101.33 \mathrm{~cm} $$

यदि डेटा में आउटलायर हैं तो माध्य उपयुक्त विकल्प नहीं है। माध्य की गणना करने के लिए, आउटलायर या चरम मानों को दिए गए डेटा से हटा देना चाहिए और फिर शेष डेटा का माध्य गणना करना चाहिए।

नोट: आउटलायर (बहुत बड़ा या बहुत छोटा मान) अन्य आँकड़ों की तुलना में असाधारण रूप से बड़ा या छोटा होता है। आमतौर पर आउटलायर को त्रुटि माना जाता है क्योंकि वे औसत या अन्य सांख्यिकीय गणनाओं को प्रभावित कर सकते हैं।

(B) माध्यिका (Median)

माध्यिका भी एक समय में एकल गुणधर्म/चर के लिए ही निकाली जाती है। जब सभी मानों को आरोही या अवरोही क्रम में व्यवस्थित किया जाता है, तो बीच का मान माध्यिका कहलाता है। जब मानों की संख्या विषम होती है, तो माध्यिका बीच की स्थिति पर स्थित मान होता है। यदि सूची में सम संख्या में मान हों, तो माध्यिका दो मध्य मानों का औसत होता है। माध्यिका वह केंद्रीय मान दर्शाता है जिस पर दिया गया आँकड़ा दो बराबर भागों में बँट जाता है।

उदाहरण 5.2

ऊँचाई के पिछले आँकड़ों को लीजिए जिसका उपयोग माध्य निकालने में हुआ था। माध्यिका निकालने के लिए पहला कदम आँकड़ों को आरोही या अवरोही क्रम में व्यवस्थित करना है। हमने ऊँचाई के आँकड़ों को आरोही क्रम में इस प्रकार व्यवस्थित किया है: $[85,90,90,100,102,110,110,110,115]$। कुल 9 मान हैं (विषम संख्या), इसलिए माध्यिका 5वें स्थान पर स्थित मान है, अर्थात् $102 \mathrm{~cm}$, चाहे बाएँ से दाएँ गिनें या दाएँ से बाएँ। माध्यिका वास्तविक केंद्रीय मान दर्शाता है जिस पर दिया गया आँकड़ा दो बराबर भागों में बँट जाता है।

सोचिए और विचार कीजिए

माध्य (Mean) और माध्यिका (Median) में से कौन आँकड़ों के आउटलायर के प्रति अधिक संवेदनशील है?

(C) बहुलक (Mode)

एक विशेषता/चर के दिए गए आँकड़ों में सबसे अधिक बार आने वाला मान मोड (Mode) कहलाता है। इसकी गणना दिए गए आँकड़ों में विभिन्न मानों की आवृत्ति के आधार पर की जाती है। यदि प्रत्येक मान केवल एक बार आता है तो आँकड़ों का समुच्चय बिना मोड का होता है। यदि एक से अधिक मानों की उच्चतम आवृत्ति समान हो तो आँकड़ों में एकाधिक मोड हो सकते हैं। मोड संख्यात्मक और गैर-संख्यात्मक दोनों प्रकार के आँकड़ों के लिए ज्ञात किया जा सकता है।

उदाहरण 5.3

छात्रों की ऊँचाई की सूची में मोड 110 है क्योंकि इसकी सूची में आने की आवृत्ति 3 है, जो शेष मानों की आवृत्ति से अधिक है।

5.5.2 विचरण की मापें

विचरण की मापें मानों की माध्य के चारों ओर फैलाव या विचरण को दर्शाती हैं। इन्हें विस्तार की मापें भी कहा जाता है जो एक आँकड़ा समुच्चय में विविधता की डिग्री को दर्शाती हैं। ये समूह के भीतर अंतर को भी संकेत करती हैं। दो भिन्न आँकड़ा समुच्चयों की माध्य, माध्यिका या मोड समान हो सकती है लेकिन उनका फैलाव स्तर पूरी तरह भिन्न हो सकता है, या इसके विपरीत। विस्तार या विचरण की सामान्य मापें परास (Range) और मानक विचलन (Standard Deviation) हैं।

(A) परास

यह डेटा के अधिकतम और न्यूनतम मानों के बीच का अंतर है (सबसे बड़ा मान घटाया सबसे छोटा मान)। रेंज की गणना केवल संख्यात्मक डेटा के लिए ही की जा सकती है। यह विचरण का एक माप है और डेटा मानों के कवरेज/फैलाव के बारे में बताता है। उदाहरण के लिए कर्मचारियों के वेतन में अंतर, किसी छात्र के अंक, खिलौनों की कीमत आदि। चूँकि रेंज की गणना दो चरम मानों के आधार पर की जाती है, डेटा में कोई भी आउटलाइर परिणाम को बुरी तरह प्रभावित करता है।

मान लीजिए $M$ सबसे बड़ा या अधिकतम मान है और $S$ डेटा में सबसे छोटा या न्यूनतम मान है, तो रेंज दो चरम मानों के बीच का अंतर है अर्थात् $M-S$ या अधिकतम - न्यूनतम।

उदाहरण 5.4

उपरोक्त उदाहरण में, न्यूनतम ऊँचाई मान $85 \mathrm{~cm}$ है और अधिकतम ऊँचाई मान $115 \mathrm{~cm}$ है। इसलिए रेंज $115-85=30 \mathrm{~cm}$ है।

(B) मानक विचलन

मानक विचलन किसी चर के समूह या डेटा सेट के भीतर के अंतरों को दर्शाता है। रेंज की तरह, यह भी डेटा के फैलाव को मापता है। हालाँकि, रेंज के विपरीत जो केवल डेटा के दो चरम मानों का उपयोग करता है, मानक विचलन की गणना में सभी दिए गए डेटा को ध्यान में रखा जाता है। इसे डेटा के माध्य मान से प्रत्येक मान के वर्गित अंतर के औसत के धनात्मक वर्गमूल के रूप में गणना की जाती है। मानक विचलन का छोटा मान यह दर्शाता है कि डेटा कम फैले हुए हैं जबकि मानक विचलन का बड़ा मान यह दर्शाता है कि डेटा अधिक फैले हुए हैं।

दिए गए $n$ मान $x_{1}, x_{2}, x_{3}, \ldots x_{n}$ और उनका माध्य $\bar{x}$ होने पर, मानक विचलन, जिसे $\sigma$ (ग्रीक अक्षर सिग्मा) द्वारा दर्शाया जाता है, इस प्रकार परिकलित किया जाता है

$$ \sum=\sqrt{\frac{\sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}}{n}} $$

उदाहरण 5.5

आइए नौ विद्यार्थियों की ऊँचाई का मानक विचलन परिकलित करें जिनका उपयोग हमने माध्य की गणना करते समय किया था। माध्य $(\bar{x})$ 101.33 सेंटीमीटर निकाला गया था। प्रत्येक मान को माध्य से घटाएँ और उस मान का वर्ग लें। वर्ग मानों के योग को कुल मानों की संख्या से विभाजित कर और उसका वर्गमूल निकालने पर आँकड़ों में मानक विचलन प्राप्त होता है। विवरण के लिए सारणी 5.3 देखें।

सारणी 5.3 9 विद्यार्थियों की उपस्थिति का मानक विचलन

आइए निम्नलिखित समस्याओं को देखें और उपयुक्त सांख्यिकीय तकनीक चुनें (माध्य/माध्यिका/बहुलक/परास/मानक विचलन):

समस्या कथन उपयुक्त सांख्यिकीय विधि चुनें
एक कंपनी के प्रबंधन को सभी कर्मचारियों के वेतन में विषमता के बारे में जानना है।
शिक्षक को एक परीक्षा में पूरी कक्षा की औसत प्रदर्शन के बारे में जानना है।
दो शहरों के निवासियों की ऊँचाई की तुलना करें
मानों के समूह से प्रमुख मान खोजें
दो शहरों के निवासियों की आय की तुलना करें

यह समझना महत्वपूर्ण है कि सांख्यिकीय तकनीकें क्या हैं ताकि कोई यह तय कर सके कि निर्णय पर पहुँचने के लिए किस सांख्यिकीय तकनीक का उपयोग करना है। बड़ी मात्रा में डेटा के कुशल विश्लेषण के लिए विभिन्न प्रोग्रामिंग उपकरण उपलब्ध हैं। ये उपकरण डेटा विश्लेषण के लिए सांख्यिकीय तकनीकों का उपयोग करते हैं। एक ऐसा ही प्रोग्रामिंग उपकरण Python है और इसमें डेटा प्रोसेसिंग और विश्लेषण के लिए विशेष रूप से बनाई गई लाइब्रेरीज़ हैं। हम आगे आने वाले अध्यायों में उनमें से कुछ को कवर करेंगे।

सारांश

  • डेटा अव्यवस्थित तथ्यों को संदर्भित करता है जिन्हें प्रोसेस करके सार्थक परिणाम या सूचना उत्पन्न की जा सकती है।
  • डेटा संरचित या असंरचित हो सकता है।
  • हार्ड डिस्क, SSD, CD/DVD, पेन ड्राइव, मेमोरी कार्ड आदि कुछ सामान्यतः उपयोग किए जाने वाले स्टोरेज डिवाइस हैं।
  • डेटा प्रोसेसिंग चक्र में डेटा की इनपुट और स्टोरेज, उसकी प्रोसेसिंग और आउटपुट उत्पन्न करना शामिल होता है।
  • सांख्यिकीय तकनीकों का उपयोग करके डेटा का सारांश बनाना डेटा की विशेषताओं को प्रकट करने में सहायक होता है।
  • माध्य, माध्यिका, बहुलक, परास और मानक विचलन डेटा सारांश के लिए उपयोग की जाने वाली कुछ सांख्यिकीय तकनीकें हैं।
  • माध्य दिए गए मानों का औसत है।
  • माध्यिका वह मध्य मान है जब डेटा को आरोही/अवरोही क्रम में सॉर्ट किया जाता है।
  • बहुलक वह डेटा मान है जो सबसे अधिक बार प्रकट होता है।
  • परास अधिकतम और न्यूनतम मानों के बीच का अंतर है।
  • मानक विचलन प्रत्येक मान और माध्य के बीच के वर्ग अंतर के औसत का धनात्मक वर्गमूल है।

अभ्यास

1. निम्नलिखित सेवाओं को करने के लिए रखे जाने वाले डेटा की पहचान करें:

क) परीक्षा परिणाम घोषित करना और ई-प्रमाणपत्र प्रिंट करना

ख) प्रदर्शनी में प्रतिभागियों का पंजीकरण करना और बायोमेट्रिक आईडी कार्ड जारी करना

ग) किसी खोज इंजन द्वारा चित्र खोजना

घ) किसी अस्पताल के विशिष्ट विभाग में ओपीडी अपॉइंटमेंट बुक करना

2. एक विद्यालय जिसमें 500 विद्यार्थी हैं, वह मेरिट-कम-मीन्स छात्रवृत्ति के लाभार्थियों की पहचान करना चाहता है जिन्होंने लगातार दो वर्षों में 75% से अधिक अंक प्राप्त किए हों और जिनके परिवार की वार्षिक आय 5 लाख से कम हो।

विद्यालय द्वारा लाभार्थी सूची तैयार करने के लिए किए जाने वाले डेटा प्रोसेसिंग चरणों का संक्षेप में वर्णन कीजिए।

3. एक बैंक ‘xyz’ शहर ‘ABC’ के निवासियों के बीच अपनी लोकप्रियता जानना चाहता है, इस आधार पर कि प्रत्येक परिवार के पास कितने बैंक खाते हैं और प्रत्येक व्यक्ति की औसत मासिक खाता शेष राशि क्या है। डेटा संग्रह के लिए किए जाने वाले चरणों का संक्षेप में वर्णन कीजिए और यह भी बताइए कि संग्रहित डेटा के प्रोसेसिंग से कौन-कौन से परिणाम जांचे जा सकते हैं।

4. निम्नलिखित परिदृश्यों में एकत्रित/उत्पन्न होने वाले डेटा के प्रकार की पहचान कीजिए:

क) वीडियो रिकॉर्ड करना

ख) शिक्षक द्वारा उपस्थिति अंकित करना

ग) ट्वीट लिखना

घ) ऑनलाइन आवेदन पत्र भरना

5. सप्ताह के 7 दिनों का तापमान (सेल्सियस में) इस प्रकार है: 34,34,27,28,27,34,34। निम्नलिखित की गणना के लिए उपयुक्त सांख्यिकीय तकनीक की पहचान कीजिए:

क) औसत तापमान ज्ञात करना।

ख) उस सप्ताह का तापमान परिसर (Range) ज्ञात करना।

ग) मानक विचलन तापमान ज्ञात करना।

6. एक विद्यालय के शिक्षक परिणामों का विश्लेषण करना चाहते हैं। निम्नलिखित स्थितियों के लिए उपयुक्त सांख्यिकीय तकनीक की पहचान करें और उसका औचित्य भी दें:

a) शिक्षक कक्षा XII A और कक्षा XII B के छात्रों द्वारा प्राप्त श्रेणी के आधार पर प्रदर्शन की तुलना करना चाहते हैं, जहाँ प्रत्येक कक्षा की संख्या समान है।

b) शिक्षक ने जुलाई से नवंबर तक के महीनों में पाँच इकाई परीक्षाएँ आयोजित की हैं और इन पाँच महीनों में कक्षा के प्रदर्शन की तुलना करना चाहते हैं।

7. मान लीजिए आपके विद्यालय का वार्षिकोत्सव मनाया जाना है। विद्यालय ने कक्षा XI और XII में पढ़ने वाले उन छात्रों के माता-पिता को सम्मानित करने का निर्णय लिया है, जो स्वयं इसी विद्यालय के पूर्व छात्र हैं। इस संदर्भ में निम्नलिखित प्रश्नों के उत्तर दें:

a) उन छात्रों की संख्या ज्ञात करने के लिए कौन-सी सांख्यिकीय तकनीक का उपयोग किया जाना चाहिए जिनके दोनों माता-पिता इस विद्यालय के पूर्व छात्र हैं?

b) उस विद्यालय के छात्रों के माता-पिता की आयु किस हद तक विभिन्न है?

8. वार्षिकोत्सव समारोह के लिए शिक्षक 42 छात्रों की कक्षा में एक एंकर की तलाश कर रहे हैं। शिक्षक गायन कौशल, लेखन कौशल और निगरानी कौशल के आधार पर एंकर का चयन करेंगे।

a) डेटा संग्रह का कौन-सा तरीका प्रयुक्त किया जाना चाहिए?

b) आप छात्रों के कौशल को डेटा के रूप में कैसे प्रस्तुत करेंगे?

9. संरचित और असंरचित डेटा में अंतर बताते हुए एक उदाहरण दें।

10. एक विद्यालय के प्रधानाचार्य कैंटीन में खरीदे और बेचे गए खाद्य पदार्थों के आधार पर निम्नलिखित विश्लेषण करना चाहते हैं:

क) फलों के रस और बिस्कुट के क्रय मूल्य तथा विक्रय मूल्य की तुलना करें।

ख) फलों के रस, बिस्कुट और समोसे की बिक्री की तुलना करें।

ग) समान मात्रा (मि.ली. में) के लिए विभिन्न कंपनियों के फलों के रस के विक्रय मूल्य में विचरण।

इन वस्तुओं (फलों का रस, बिस्कुट, समोसा) के लिए उनके क्रय मूल्य और विक्रय मूल्य सूचीबद्ध करते हुए एक उपयुक्त डेटासेट बनाएं। तुलनाएँ करने के लिए आधारभूत सांख्यिकीय तकनीकों का प्रयोग करें।