4.8: تنقيب البيانات

Last updated
Save as PDF

Page ID: 168371

Ly-Huong T. Pham, Tejal Desai-Naik, Laurie Hammond, & Wael Abdeljabbar
ASCCC Open Educational Resources Initiative (OERI)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

استخراج البيانات هو عملية فرز البيانات الضخمة (المقاسة بالتيرابايت). في الماضي، كان هناك نقص في البيانات لتحليلها. يتمثل التحدي في وفرة البيانات التي يجب مراجعتها، وهو ما يسمى بالحمل الزائد للبيانات. تصبح هذه مشكلة لأن المستخدم يحتاج إلى تقييم المعلومات المفيدة وغير المفيدة. تقوم العديد من الشركات بالتعدين للحصول على نظرة مفصلة عن عملائها ومنتجاتها ولتحسين قرارات الأعمال. يتم تنفيذ التحليل من خلال برامج متطورة. يمكن للبرامج الجمع بين قواعد بيانات متعددة. التأثير النهائي معقد للغاية بحيث يجب على الشركات إيجاد طريقة لتخزين البيانات. هناك حاجة إلى مستودعات البيانات. مستودع البيانات هو المكان الذي يتم فيه تخزين المعلومات ومعالجتها من استخراج البيانات. يمكن أن يبدأ سعر المستودع البسيط من 10 ملايين دولار.

تعد شركات مثل Google و Netflix و Amazon و Facebook من المستخدمين الكبار لاستخراج البيانات. إنهم يسعون لمعرفة من هو المستهلك وأفضل طريقة للاحتفاظ بهم وبيع المزيد من المنتجات لهم. كما يقومون بمراجعة منتجاتهم. الوسائل المستخدمة هي مراجعة البيانات وإيجاد الاتجاهات والأنماط والارتباطات لاتخاذ القرارات. بشكل عام، يتم استخراج البيانات من خلال وسائل آلية مقابل مجموعات بيانات واسعة النطاق، مثل مستودع البيانات.

تتضمن أمثلة استخراج البيانات ما يلي:

قد يحدد تحليل المبيعات من سلسلة البقالة الكبيرة أن الحليب يتم شراؤه بشكل متكرر في اليوم التالي لهطول الأمطار في المدن التي يقل عدد سكانها عن 50,000 نسمة.
قد يجد البنك أن المتقدمين للحصول على قروض الذين تُظهر حساباتهم المصرفية أنماطًا معينة للإيداع والسحب لا يمثلون مخاطر ائتمانية جيدة.
قد يجد فريق البيسبول لاعبي البيسبول الجامعيين الذين لديهم إحصائيات محددة في الضرب والرمي والإيقاع للاعبين الأكثر نجاحًا في الدوري الرئيسي.

في بعض الحالات، يبدأ مشروع التنقيب عن البيانات مع وضع نتيجة افتراضية في الاعتبار. على سبيل المثال، قد يكون لدى سلسلة البقالة بالفعل فكرة أن أنماط الشراء تتغير بعد هطول الأمطار وترغب في الحصول على فهم أعمق لما يحدث بالضبط. في حالات أخرى، لا توجد افتراضات مسبقة، ويتم تشغيل برنامج استخراج البيانات مقابل مجموعات بيانات كبيرة للعثور على الأنماط والارتباطات.