# 4.8: Data Mining

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$ $$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\kernel}{\mathrm{null}\,}$$ $$\newcommand{\range}{\mathrm{range}\,}$$ $$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$ $$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$ $$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$ $$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\kernel}{\mathrm{null}\,}$$ $$\newcommand{\range}{\mathrm{range}\,}$$ $$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$ $$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$ $$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$ $$\newcommand{\Span}{\mathrm{span}}$$$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

Uchimbaji wa data ni mchakato wa kuchagua kupitia data kubwa (kipimo katika terabytes). Katika siku za nyuma, kulikuwa na ukosefu wa data kuchambua. Changamoto ni overabundance ya data ambayo inapaswa kupitiwa, ambayo inaitwa data overload. Hii inakuwa suala kwa sababu mtumiaji anahitaji kutathmini habari gani ni muhimu na ambayo sio. Biashara nyingi hufanya madini ili kupata ufahamu wa kina juu ya wateja wao, bidhaa na kuongeza maamuzi ya biashara. Uchunguzi unafanywa na mipango ya kisasa. Programu zinaweza kuchanganya database nyingi. Athari ya mwisho ni ngumu sana kwamba makampuni yanapaswa kutafuta njia ya kuhifadhi data. Maghala ya data yanahitajika. Ghala la data ni mahali ambapo habari huhifadhiwa na kusindika kutoka kwa madini ya data. Bei ya ghala rahisi inaweza kuanza saa \$10,000,000.

Makampuni kama Google, Netflix, Amazon, na Facebook ni watumiaji kubwa wa madini ya data. Wanatafuta kujua nani walaji wao ni nani na jinsi ya kuwaweka na kuuza bidhaa zaidi. Pia hupitia bidhaa zao. Njia zinazotumiwa ni kupitia data na kutafuta mwenendo, ruwaza, na vyama vya kufanya maamuzi. Kwa ujumla, uchimbaji wa data unafanywa kupitia njia za automatiska dhidi ya seti nyingi za data, kama vile ghala la data.

Mifano ya madini ya data ni pamoja na:

• Uchambuzi wa mauzo kutoka mlolongo mkubwa wa vyakula huweza kuamua kwamba maziwa yanunuliwa mara nyingi zaidi siku baada ya mvua katika miji yenye idadi ya watu chini ya 50,000.
• Benki inaweza kupata kwamba waombaji wa mkopo ambao akaunti za benki zinaonyesha mifumo maalum ya amana na uondoaji sio hatari nzuri ya mikopo.
• timu baseball inaweza kupata wale wachezaji vyuo baseball na takwimu maalum katika kupiga, aliingilia, na fielding kwa ajili ya wachezaji mafanikio zaidi ya ligi kuu.

Katika hali nyingine, mradi wa uchimbaji wa data umeanza na matokeo ya nadharia katika akili. Kwa mfano, mnyororo wa mboga unaweza kuwa na wazo kwamba mifumo ya kununua inabadilika baada ya mvua na unataka kupata ufahamu zaidi wa nini kinachotokea. Katika hali nyingine, hakuna maandamano, na programu ya uchimbaji wa data inaendeshwa dhidi ya seti kubwa za data ili kupata ruwaza na vyama.