Skip to main content
Global

4.8: डेटा माइनिंग

  • Page ID
    169571
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    डेटा माइनिंग बड़े डेटा (टेराबाइट्स में मापा गया) के माध्यम से छांटने की प्रक्रिया है। अतीत में, विश्लेषण करने के लिए डेटा की कमी थी। चुनौती डेटा की अधिकता है जिसकी समीक्षा की जानी चाहिए, जिसे डेटा ओवरलोड कहा जाता है। यह एक मुद्दा बन जाता है क्योंकि उपयोगकर्ता को यह मूल्यांकन करने की आवश्यकता होती है कि कौन सी जानकारी उपयोगी है और कौन सी नहीं। कई व्यवसाय अपने ग्राहकों, उत्पादों के बारे में विस्तृत जानकारी प्राप्त करने और व्यावसायिक निर्णयों को अनुकूलित करने के लिए खनन करते हैं। विश्लेषण को परिष्कृत कार्यक्रमों के साथ निष्पादित किया जाता है। प्रोग्राम कई डेटाबेस को जोड़ सकते हैं। अंतिम प्रभाव इतना जटिल है कि कंपनियों को डेटा संग्रहीत करने का एक तरीका खोजना होगा। डेटा वेयरहाउस की जरूरत है। डेटा वेयरहाउस वह जगह है जहां डेटा माइनिंग से जानकारी संग्रहीत और संसाधित की जाती है। एक साधारण गोदाम की कीमत $10 मिलियन से शुरू हो सकती है।

    Google, Netflix, Amazon और Facebook जैसी कंपनियां डेटा माइनिंग की बड़ी उपयोगकर्ता हैं। वे यह पता लगाना चाहते हैं कि उनका उपभोक्ता कौन है और उन्हें कैसे रखना और उन्हें अधिक उत्पाद बेचना सबसे अच्छा है। वे अपने उत्पादों की समीक्षा भी करते हैं। उपयोग किए जाने वाले साधन डेटा की समीक्षा कर रहे हैं और निर्णय लेने के लिए रुझान, पैटर्न और संघों को ढूंढ रहे हैं। आम तौर पर, डेटा वेयरहाउस जैसे व्यापक डेटा सेट के खिलाफ स्वचालित साधनों के माध्यम से डेटा माइनिंग पूरी की जाती है।

    डेटा माइनिंग के उदाहरणों में शामिल हैं:

    • एक बड़ी किराने की चेन से बिक्री का विश्लेषण यह निर्धारित कर सकता है कि 50,000 से कम आबादी वाले शहरों में बारिश के अगले दिन दूध अधिक बार खरीदा जाता है।
    • एक बैंक यह जान सकता है कि ऋण आवेदक जिनके बैंक खाते विशेष जमा और निकासी पैटर्न दिखाते हैं, वे अच्छे क्रेडिट जोखिम नहीं हैं।
    • एक बेसबॉल टीम उन कॉलेजिएट बेसबॉल खिलाड़ियों को ढूंढ सकती है, जो अधिक सफल प्रमुख लीग खिलाड़ियों के लिए मारने, पिचिंग और फील्डिंग में विशिष्ट आंकड़े रखते हैं।

    कुछ मामलों में, एक काल्पनिक परिणाम को ध्यान में रखते हुए एक डेटा-माइनिंग परियोजना शुरू की जाती है। उदाहरण के लिए, किराने की चेन को पहले से ही कुछ अंदाजा हो सकता है कि बारिश के बाद खरीदारी के पैटर्न बदल जाते हैं और वास्तव में क्या हो रहा है, इसकी गहरी समझ प्राप्त करना चाहते हैं। अन्य मामलों में, कोई पूर्वधारणा नहीं है, और पैटर्न और संघों को खोजने के लिए बड़े डेटा सेट के खिलाफ डेटा-माइनिंग प्रोग्राम चलाया जाता है।