Skip to main content
Global

13.4: Equation ya kurudi nyuma

  • Page ID
    179882
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Uchunguzi wa kurudi nyuma ni mbinu ya takwimu ambayo inaweza kupima hypothesis kwamba variable inategemea moja au zaidi vigezo vingine. Zaidi ya hayo, uchambuzi wa kurudi nyuma unaweza kutoa makadirio ya ukubwa wa athari za mabadiliko katika kutofautiana moja kwa mwingine. Kipengele hiki cha mwisho, bila shaka, ni muhimu katika kutabiri maadili ya baadaye.

    Uchunguzi wa regression ni msingi juu ya uhusiano wa kazi kati ya vigezo na zaidi, akubali kuwa uhusiano ni linear. Dhana hii ya mstari inahitajika kwa sababu, kwa sehemu kubwa, mali za takwimu za nadharia za makadirio yasiyo ya mstari hazifanyiki vizuri na wataalamu wa hisabati na wataalamu wa uchumi. Hii inatupa matatizo fulani katika uchambuzi wa kiuchumi kwa sababu wengi wa mifano yetu ya kinadharia ni nonlinear. Curve ya gharama ndogo, kwa mfano, ni decidedly nonlinear kama ni jumla ya gharama kazi, kama sisi ni kuamini katika athari za utaalamu wa kazi na Sheria ya Kupunguza bidhaa pembezoni. Kuna mbinu za kushinda baadhi ya matatizo haya, mabadiliko ya kielelezo na ya logarithmic ya data kwa mfano, lakini mwanzoni tunapaswa kutambua kwamba kiwango cha kawaida cha mraba mdogo (OLS) uchambuzi wa kurudi nyuma utatumia kazi ya mstari ili kukadiria kile kinachoweza kuwa nonlinear uhusiano.

    Mfano wa regression wa kawaida wa mstari unaweza kutajwa na equation:

    \[y_{i}=\beta_{0}+\beta_{1} X_{1 i}+\beta_{2} X_{2 i}+\cdots+\beta_{k} X_{k i}+\varepsilon_{i}\nonumber\]

    wapi\(\beta_0\) intercept,\(\beta_i\)'s ni mteremko kati\(Y\) na sahihi\(X_i\), na\(\epsilon\) (hutamkwa epsilon), ni makosa mrefu kwamba captures makosa katika kipimo cha\(Y\) na athari juu\(Y\) ya ya ya vigezo yoyote kukosa kutoka equation ambayo kuchangia kueleza tofauti katika\(Y\). Ulinganisho huu ni equation ya idadi ya watu ya kinadharia na kwa hiyo hutumia herufi Equation tutakayokadiria itakuwa na alama sawa za Kirumi. Hii ni sambamba na jinsi sisi naendelea wimbo wa vigezo idadi ya watu na vigezo sampuli kabla. ishara kwa ajili ya idadi ya watu maana ilikuwa\(\mu\) na kwa ajili ya sampuli maana\(\overline{X}\) na kwa idadi ya watu kiwango kupotoka mara\(\sigma\) na kwa ajili ya sampuli kiwango kupotoka mara\(s\). Equation ambayo itakadiriwa na sampuli ya data kwa vigezo viwili vya kujitegemea itakuwa hivyo:

    \[y_{i}=b_{0}+b_{1} x_{1 i}+b_{2} x_{2 i}+e_{i}\nonumber\]

    Kama ilivyo kwa kazi yetu ya awali na mgawanyo wa uwezekano, mfano huu unafanya kazi tu ikiwa mawazo fulani yanashikilia. Hizi ni kwamba\(Y\) ni kawaida kusambazwa, makosa pia ni kawaida kusambazwa kwa maana ya sifuri na mara kwa mara kiwango kupotoka, na kwamba suala makosa ni huru ya ukubwa wa\(X\) na huru ya kila mmoja.

    Mawazo ya Mfano wa Kurejesha Mraba MDOGO

    Kila moja ya mawazo haya inahitaji maelezo kidogo zaidi. Ikiwa moja ya mawazo haya hayawezi kuwa kweli, basi itakuwa na athari juu ya ubora wa makadirio. Baadhi ya kushindwa kwa mawazo haya yanaweza kudumu wakati wengine kusababisha makadirio kwamba kabisa tu kutoa hakuna ufahamu katika maswali mfano ni kujaribu kujibu au mbaya, kutoa makadirio upendeleo.

    1. vigezo huru,\(x_i\), wote ni kipimo bila makosa, na ni namba fasta kwamba ni huru ya muda makosa. Dhana hii ni kusema katika athari kwamba\(Y\) ni deterministic, matokeo ya sehemu fasta “\(X\)” na random makosa sehemu “\(\epsilon\).”
    2. Muda wa hitilafu ni kutofautiana kwa random na maana ya sifuri na ugomvi wa mara kwa mara. Maana ya hii ni kwamba tofauti za vigezo vya kujitegemea ni huru ya thamani ya kutofautiana. Fikiria uhusiano kati ya mapato binafsi na wingi wa nzuri kununuliwa kama mfano wa kesi ambapo ugomvi unategemea thamani ya variable huru, mapato. Ni plausible kwamba kama mapato kuongezeka tofauti karibu kiasi kununuliwa pia kuongeza tu kwa sababu ya kubadilika zinazotolewa na viwango vya juu ya mapato. Dhana ni kwa ugomvi wa mara kwa mara kwa heshima na ukubwa wa kutofautiana huru inayoitwa homoscedasticity. Ikiwa dhana inashindwa, basi inaitwa heteroscedasticity. Kielelezo 13.6 inaonyesha kesi ya homoscedasticity ambapo mgawanyo wote watatu na ugomvi sawa karibu thamani alitabiri ya\(Y\) bila kujali ukubwa wa\(X\).
    3. Wakati vigezo huru ni maadili yote fasta wao ni kutoka usambazaji uwezekano kwamba ni kawaida kusambazwa. Hii inaweza kuonekana katika Kielelezo 13.6 na sura ya mgawanyo kuwekwa kwenye mstari alitabiri katika thamani inatarajiwa ya thamani husika ya\(Y\).
    4. Vigezo vya kujitegemea\(Y\) vinajitegemea, lakini pia hudhaniwa kuwa huru ya\(X\) vigezo vingine. Mfano umeundwa ili kukadiria madhara ya vigezo vya kujitegemea kwenye variable fulani tegemezi kwa mujibu wa nadharia iliyopendekezwa. Kesi ambapo baadhi au zaidi ya vigezo vya kujitegemea vinahusiana sio kawaida. Kunaweza kuwa hakuna sababu na athari uhusiano kati ya vigezo huru, lakini hata hivyo wao hoja pamoja. Kuchukua kesi ya rahisi ugavi Curve ambapo wingi hutolewa kinadharia kuhusiana na bei ya bidhaa na bei ya pembejeo. Kunaweza kuwa na pembejeo nyingi ambazo zinaweza kuhamia pamoja na shinikizo la mfumuko wa bei. Kwa hiyo bei za pembejeo zitavunja dhana hii ya uchambuzi wa kurudi nyuma. Hali hii inaitwa multicollinearity, ambayo itachukuliwa kwa undani baadaye.
    5. Masharti ya hitilafu hayahusiani na kila mmoja. Hali hii inatokana na athari kwenye neno moja la kosa kutoka kwa neno lingine la kosa. Wakati si tu tatizo mfululizo wakati, ni hapa kwamba sisi mara nyingi kuona kesi hii. \(X\)Variable katika kipindi cha wakati mmoja ina athari juu ya\(Y\) kutofautiana, lakini athari hii basi ina athari katika kipindi cha wakati ujao. Athari hii inatoa uhusiano kati ya maneno ya kosa. Kesi hii inaitwa autocrelation, “self-correlated.” Masharti ya hitilafu sasa hayajitegemea, lakini badala ya kuwa na athari zao wenyewe juu ya maneno ya kosa yafuatayo.

    Kielelezo 13.6 haionyeshi mawazo yote ya mfano wa kurudi nyuma, lakini husaidia kutazama hizi muhimu.

    Kielelezo 13.6

    Kielelezo 13.7

    Hii ni fomu ya jumla ambayo mara nyingi huitwa mfano wa regression nyingi. Uchambuzi unaoitwa “rahisi” wa kurudi nyuma una moja tu ya kujitegemea (mkono wa kulia) variable badala ya vigezo vingi vya kujitegemea. Regression rahisi ni kesi maalum ya regression nyingi. Kuna baadhi ya thamani mwanzoni na kurudi nyuma rahisi: ni rahisi grafu katika vipimo viwili, vigumu grafu katika vipimo vitatu, na haiwezekani grafu katika vipimo zaidi ya tatu. Kwa hiyo, grafu zetu zitakuwa kwa kesi rahisi ya kurudi nyuma. Kielelezo 13.7 inatoa tatizo regression katika mfumo wa kutawanya njama grafu ya kuweka data ambapo ni nadharia kwamba\(Y\) ni tegemezi juu ya moja kujitegemea variable\(X\).

    Uhusiano wa msingi kutoka Kanuni za Uchumi ni kazi ya matumizi. Uhusiano huu wa kinadharia unasema kwamba kama mapato ya mtu yanaongezeka, matumizi yao yanaongezeka, lakini kwa kiasi kidogo kuliko kuongezeka kwa mapato. Kama\(Y\) ni matumizi na\(X\) ni mapato katika equation chini Kielelezo 13.7, tatizo regression ni, kwanza, kuanzisha kwamba uhusiano huu ipo, na pili, kuamua athari za mabadiliko katika mapato juu ya matumizi ya mtu. Kipimo\(\beta_1\) kiliitwa Mipango ya Kando ya Kutumia katika Kanuni za Uchumi.

    Kila “dot” katika Kielelezo 13.7 inawakilisha matumizi na mapato ya watu tofauti kwa wakati fulani. Hii iliitwa data ya sehemu ya msalaba mapema; uchunguzi juu ya vigezo kwa wakati mmoja kwa wakati katika watu tofauti au vitengo vingine vya kipimo. Uchunguzi huu mara nyingi hufanyika na data ya mfululizo wa wakati, ambayo itakuwa matumizi na mapato ya mtu mmoja au nchi kwa pointi tofauti kwa wakati. Kwa matatizo ya uchumi ni kawaida kutumia mara mfululizo data zilizokusanywa kwa nchi nzima. Kwa dhana hii hasa kinadharia data hizi zinapatikana kwa urahisi katika ripoti ya kila mwaka ya Baraza la Rais wa Washauri wa Uchumi.

    Kielelezo 13.8. Uchambuzi wa regression wakati mwingine huitwa “angalau mraba” uchambuzi kwa sababu njia ya kuamua ni mstari bora “inafaa” data ni kupunguza jumla ya mabaki ya mraba ya mstari kuweka kupitia data.

    Kielelezo 13.8
    Idadi ya Watu Equation:\(\mathrm{C}=\beta_{0}+\beta_{1} \text{lncome}+\varepsilon\)
    Idadi ya usawa:\(C=b_{0}+b_{1} \text{lncome}+e\)

    Takwimu hii inaonyesha uhusiano wa kudhani kati ya matumizi na mapato kutokana na nadharia ya uchumi. Hapa data zimepangwa kama njama ya kutawanya na mstari wa moja kwa moja unaokadiriwa umechorwa. Kutoka kwenye grafu hii tunaweza kuona neno la hitilafu,\(e_1\). Kila hatua ya data pia ina neno la hitilafu. Tena, neno la kosa linawekwa katika equation ili kukamata madhara juu ya matumizi ambayo hayakusababishwa na mabadiliko ya mapato. Vile madhara mengine inaweza kuwa akiba ya mtu au mali, au vipindi vya ukosefu wa ajira. Tutaona jinsi kwa kupunguza jumla ya makosa haya tunaweza kupata makadirio ya mteremko na kupinga mstari huu.

    Fikiria grafu hapa chini. Uthibitisho umerejea kwa kuwa kwa mfano wa jumla zaidi badala ya kesi maalum ya kazi ya matumizi ya Uchumi katika mfano wetu.

    Kielelezo 13.9

    The\(\hat{\mathrm{y}}\) ni kusoma "\(\bf y\)kofia” na ni makadirio ya thamani ya\(\bf y\). (Katika Kielelezo 13.8\(\hat{C}\) inawakilisha thamani ya makadirio ya matumizi kwa sababu ni juu ya mstari inakadiriwa.) Ni thamani ya\(y\) kupatikana kwa kutumia mstari wa kurudi nyuma. \(\hat{\mathrm{y}}\)kwa ujumla si sawa na\(y\) kutoka data.

    Neno\(y_{0}-\hat{y}_{0}=e_{0}\) linaitwa “kosa” au mabaki. Sio kosa kwa maana ya kosa. Neno la hitilafu liliwekwa katika equation ya kukadiria kukamata vigezo vilivyopo na makosa katika kipimo ambacho kinaweza kuwa kilichotokea katika vigezo vinavyotegemea. Thamani kamili ya hatua za mabaki umbali wa wima kati ya thamani halisi ya\(y\) na thamani ya makadirio ya\(y\). Kwa maneno mengine, inachukua umbali wa wima kati ya hatua halisi ya data na uhakika uliotabiriwa kwenye mstari kama inavyoonekana kwenye grafu wakati\(X_0\).

    Ikiwa hatua ya data iliyozingatiwa iko juu ya mstari, mabaki ni chanya, na mstari hupunguza thamani halisi ya data\(y\).

    Ikiwa hatua ya data iliyozingatiwa iko chini ya mstari, mabaki ni hasi, na mstari unaonyesha kuwa thamani halisi ya data kwa\(y\).

    Katika grafu,\(y_{0}-\hat{y}_{0}=e_{0}\) ni mabaki kwa uhakika umeonyeshwa. Hapa hatua iko juu ya mstari na mabaki ni chanya. Kwa kila data inaonyesha mabaki, au makosa, huhesabiwa\(y_{i}-\hat{y}_{i}=e_{i}\) kwa ukubwa wa sampuli\(n\) ulipo\(i = 1, 2, 3, ..., n\) wapi. Kila\(|e|\) ni umbali wa wima.

    Jumla ya makosa squared ni neno wazi inayoitwa Sum ya Makosa Squared (SSE).

    Kutumia calculus, unaweza kuamua mstari wa moja kwa moja ambayo ina maadili parameter ya\(b_0\) na\(b_1\) kwamba itapunguza SSE. Unapofanya SSE kiwango cha chini, umeamua pointi zilizo kwenye mstari wa fit bora. Inageuka kuwa mstari wa fit bora ina equation:

    \[\hat{y}=b_{0}+b_{1} x\nonumber\]

    wapi\(b_{0}=\overline{y}-b_{1} \overline{x}\) na\(b_{1}=\frac{\Sigma(x-\overline{x})(y-\overline{y})}{\Sigma(x-\overline{x})^{2}}=\frac{\operatorname{cov}(x, y)}{s_{x}^{2}}\)

    Njia ya sampuli ya\(x\) maadili na\(y\) maadili ni\(\overline{x}\) na\(\overline{y}\), kwa mtiririko huo. Mstari bora zaidi unapita kupitia hatua (\(\overline{y}\),\(\overline{x}\)) inayoitwa pointi za njia.

    Mteremko\(b\) unaweza pia kuandikwa kama:

    \[b_{1}=r_{\mathrm{y}, \mathrm{x}}\left(\frac{s_{y}}{s_{x}}\right)\nonumber\]

    ambapo\(s_y\) = kupotoka kwa kiwango cha\(y\) maadili na\(s_x\) = kupotoka kwa kiwango cha\(x\) maadili na\(r\) ni mgawo wa uwiano kati\(x\) na\(y\).

    Equations hizi huitwa Equations ya kawaida na hutoka kwenye kutafuta nyingine muhimu sana ya hisabati inayoitwa Theorem ya Gauss-Markov bila ambayo hatuwezi kufanya uchambuzi wa kurudi nyuma. Theorem ya Gauss-Markov inatuambia kwamba makadirio tunayopata kutokana na kutumia njia ya kurudi nyuma ya mraba mdogo (OLS) itasababisha makadirio ambayo yana mali muhimu sana. Katika Theorem ya Gauss-Markov ilithibitishwa kuwa mstari mdogo wa mraba ni BLUE, yaani, B est, L inear, U nbiased, E stimator. Bora ni mali ya takwimu ambayo makadirio ni moja na ugomvi wa chini. Linear inahusu mali ya aina ya mstari inakadiriwa. Mkadiriaji wa unbiased ni mmoja ambaye kazi yake ya kukadiria ina maana inayotarajiwa sawa na maana ya idadi ya watu. (Utakumbuka kwamba inatarajiwa thamani ya\(\mu_{\overline{x}}\) ilikuwa sawa na idadi ya watu maana\(\mu\) kwa mujibu wa Theorem Central Limit. Hii ni dhana sawa hapa).

    Wote Gauss na Markov walikuwa makubwa katika uwanja wa hisabati, na Gauss katika fizikia pia, katika karne ya 18 na mapema karne ya 19. Wao hawakuingiliana kwa muda mrefu na kamwe katika jiografia, lakini kazi ya Markov juu ya theorem hii ilikuwa msingi sana juu ya kazi ya awali ya Carl Gauss. Thamani kubwa iliyotumiwa ya theorem hii ilibidi kusubiri hadi katikati ya karne hii iliyopita.

    Kutumia njia ya OLS sasa tunaweza kupata makadirio ya ugomvi wa hitilafu ambayo ni ugomvi wa makosa ya mraba, e 2. Hii wakati mwingine huitwa kosa la kawaida la makadirio. (Grammatically hii pengine bora alisema kama makadirio ya ugomvi makosa ya) formula kwa makadirio ya makosa ugomvi ni:

    \[s_{e}^{2}=\frac{\Sigma\left(y_{i}-\hat{y}_{i}\right)^{2}}{n-k}=\frac{\Sigma e_{i}^{2}}{n-k}\nonumber\]

    wapi\(\hat{y}\) thamani iliyotabiriwa\(y\) na\(y\) ni thamani iliyozingatiwa, na hivyo neno\(\left(y_{i}-\hat{y}_{i}\right)^{2}\) ni makosa ya mraba ambayo yanapaswa kupunguzwa ili kupata makadirio ya vigezo vya mstari wa kurudi nyuma. Hii ni kweli tu ugomvi wa suala makosa na ifuatavyo ugomvi wetu wa kawaida formula. Kumbuka moja muhimu ni kwamba hapa tunagawanya na\((n−k)\), ambayo ni digrii za uhuru. Daraja la uhuru wa equation regression itakuwa idadi ya uchunguzi\(n\), kupunguzwa kwa idadi ya vigezo makadirio, ambayo ni pamoja na intercept kama parameter.

    Tofauti ya makosa ni ya msingi katika kupima hypotheses kwa regression. Inatuambia jinsi “tight” utawanyiko ni kuhusu mstari. Kama tutakavyoona muda mfupi, zaidi ya utawanyiko kuhusu mstari, maana kubwa ugomvi wa makosa, chini ya uwezekano kwamba nadharia huru variable itakuwa kupatikana kuwa na athari kubwa juu ya variable tegemezi. Kwa kifupi, nadharia inayojaribiwa itashindwa zaidi ikiwa ugomvi wa neno la kosa ni juu. Baada ya kutafakari hii haipaswi kuwa mshangao. Kama tulivyojaribu nadharia kuhusu maana tuliona kwamba tofauti kubwa zilipunguza takwimu za mtihani zilizohesabiwa na hivyo zilishindwa kufikia mkia wa usambazaji. Katika matukio hayo, nadharia za null hazikuweza kukataliwa. Kama hatuwezi kukataa hypothesis null katika tatizo regression, ni lazima kuhitimisha kwamba nadharia huru variable haina athari kwa variable tegemezi.

    Njia ya kutazama dhana hii ni kuteka viwanja viwili vya kuwatawanya\(x\) na\(y\) data kwenye mstari uliotanguliwa. Ya kwanza itakuwa na ugomvi mdogo wa makosa, maana yake ni kwamba pointi zote za data zitahamia karibu na mstari. Sasa fanya hivyo isipokuwa pointi za data zitakuwa na makadirio makubwa ya ugomvi wa hitilafu, maana yake ni kwamba pointi za data zinatawanyika sana kwenye mstari. Kwa wazi ujasiri juu ya uhusiano kati\(x\) na\(y\) unafanywa na tofauti hii kati ya makadirio ya ugomvi wa hitilafu.

    Kupima Parameters ya Mstari

    Lengo zima la uchambuzi regression ilikuwa mtihani hypothesis kwamba variable tegemezi\(Y\), ilikuwa kwa kweli tegemezi juu ya maadili ya vigezo huru kama ilivyoelezwa na baadhi ya nadharia ya msingi, kama vile matumizi ya kazi mfano. Kuangalia equation inakadiriwa chini ya Kielelezo 13.8, tunaona kwamba hii ni sawa na kuamua maadili ya\(b_0\) na\(b_1\). Kumbuka kwamba tena tunatumia mkataba wa barua za Kigiriki kwa vigezo vya idadi ya watu na barua za Kirumi kwa makadirio yao.

    Pato la uchambuzi wa kurudi nyuma zinazotolewa na programu ya kompyuta zitazalisha makadirio ya\(b_0\) na\(b_1\), na nyingine\(b\) yoyote kwa vigezo vingine vya kujitegemea ambavyo vilijumuishwa katika equation iliyokadiriwa. Suala ni jinsi gani makadirio haya ni nzuri? Ili kupima hypothesis kuhusu makadirio yoyote, tumegundua kwamba tunahitaji kujua usambazaji wa sampuli ya msingi. Ni lazima kuja kama hakuna mshangao katika hatua yake katika kozi kwamba jibu itakuwa usambazaji wa kawaida. Hii inaweza kuonekana kwa kukumbuka dhana kwamba neno makosa katika idadi ya watu,\(\epsilon\), ni kawaida kusambazwa. Kama muda makosa ni kawaida kusambazwa na ugomvi wa makadirio ya vigezo equation\(b_1\),\(b_0\) na, ni kuamua na ugomvi wa muda makosa, inafuata kwamba tofauti ya makadirio parameter pia kawaida kusambazwa. Na kwa kweli hii ni kesi tu.

    Tunaweza kuona hili kwa kuundwa kwa takwimu za mtihani kwa mtihani wa hypothesis kwa parameter ya mteremko,\(\beta_1\) katika usawa wetu wa kazi ya matumizi. Ili kupima kama au la\(Y\) kweli hutegemea\(X\), au katika mfano wetu, kwamba matumizi inategemea mapato, tunahitaji tu mtihani hypothesis kwamba\(\beta_1\) ni sawa na sifuri. Nadharia hii itakuwa alisema rasmi kama:

    \[H_{0} : \beta_{1}=0\nonumber\]

    \[H_{a} : \beta_{1} \neq 0\nonumber\]

    Kama hatuwezi kukataa hypothesis null, ni lazima tuhitimishe kwamba nadharia yetu haina uhalali. Kama hatuwezi kukataa hypothesis null kwamba\(\beta_1 = 0\) basi\(b_1\), mgawo wa Mapato, ni sifuri na sifuri mara kitu chochote ni sifuri. Kwa hiyo athari za Mapato juu ya Matumizi ni sifuri. Hakuna uhusiano kama nadharia yetu ilikuwa imependekeza.

    Kumbuka kwamba tumeanzisha dhana, hypothesis null, kama “hakuna uhusiano”. Hii inaweka mzigo wa ushahidi juu ya hypothesis mbadala. Kwa maneno mengine, ikiwa tunatakiwa kuthibitisha madai yetu ya kupata uhusiano, lazima tufanye hivyo kwa kiwango cha umuhimu mkubwa kuliko asilimia 90, 95, au 99. Hali kama ilivyo ni ujinga, hakuna uhusiano uliopo, na kuwa na uwezo wa kufanya madai kwamba tumeongeza kwa mwili wetu wa ujuzi ni lazima tufanye hivyo kwa uwezekano mkubwa wa kuwa sahihi. John Maynard Keynes alipata haki na hivyo alizaliwa uchumi wa Keynesia kuanzia na dhana hii ya msingi mwaka 1936.

    Takwimu za mtihani kwa mtihani huu huja moja kwa moja kutoka kwa rafiki yetu wa zamani formula ya kusanifisha:

    \[t_{c}=\frac{b_{1}-\beta_{1}}{S_{b_{1}}}\nonumber\]

    ambapo\(b_1\) ni thamani ya makadirio ya mteremko wa mstari wa kurudi nyuma,\(\beta_1\) ni thamani ya nadharia ya beta, katika kesi hii sifuri, na\(S_{b_1}\) ni kupotoka kwa kiwango cha makadirio ya\(b_1\). Katika kesi hii tunauliza ni kiasi gani cha upungufu wa kiwango ni mteremko unaohesabiwa mbali na mteremko unaofikiriwa. Hii ni swali sawa tulilouliza kabla kwa heshima ya hypothesis kuhusu maana: ni kiasi gani cha kupotoka kwa kiwango ni wastani wa maana, sampuli inamaanisha, kutoka kwa maana ya nadharia?

    Takwimu za mtihani zimeandikwa kama usambazaji wa t wa mwanafunzi, lakini ikiwa ukubwa wa sampuli ni mkubwa wa kutosha ili digrii za uhuru ziwe kubwa kuliko 30 tunaweza tena kutumia usambazaji wa kawaida. Kuona kwa nini tunaweza kutumia t mwanafunzi au usambazaji wa kawaida tuna tu kuangalia\(S_{b_1}\), formula kwa kupotoka kiwango cha makadirio ya\(b_1\):

    \[S_{b_{1}}=\frac{S_{e}^{2}}{\sqrt{\left(x_{i}-\overline{x}\right)^{2}}}\nonumber\]

    \[\text{or}\nonumber\]

    \[S_{b_{1}}=\frac{S_{e}^{2}}{(n-1) S_{x}^{2}}\nonumber\]

    Ambapo\(S_e\) ni makadirio ya ugomvi wa hitilafu na\(S^2_x\) ni tofauti ya\(x\) maadili ya mgawo wa kutofautiana kwa kujitegemea inayojaribiwa.

    Tunaona kwamba\(S_e\), makadirio ya ugomvi wa hitilafu, ni sehemu ya hesabu. Kwa sababu makadirio ya ugomvi wa hitilafu ni msingi wa dhana ya kawaida ya maneno ya kosa, tunaweza kuhitimisha kuwa usambazaji wa\(b\) sampuli ya, coefficients ya mstari wetu wa kurudi nyuma, pia ni kawaida kusambazwa.

    Kumbuka moja ya mwisho inahusisha digrii za uhuru wa takwimu za mtihani,\(ν=n-k\). Hapo awali tulitoa 1 kutoka ukubwa wa sampuli ili kuamua digrii za uhuru katika tatizo la mwanafunzi. Hapa tunapaswa kuondoa shahada moja ya uhuru kwa kila parameter inakadiriwa katika equation. Kwa mfano wa kazi ya matumizi tunapoteza digrii 2 za uhuru, moja kwa\(b_0\), kupinga, na moja kwa\(b_1\), mteremko wa kazi ya matumizi. Daraja la uhuru itakuwa\(n - k - 1\), ambapo k ni idadi ya vigezo vya kujitegemea na moja ya ziada inapotea kwa sababu ya kupinga. Kama tulikuwa kukadiria equation na vigezo tatu huru, tutakuwa kupoteza 4 digrii ya uhuru: tatu kwa vigezo huru,\(k\), na moja zaidi kwa ajili ya intercept.

    Utawala wa uamuzi wa kukubalika au kukataa hypothesis ya null ifuatavyo fomu sawa na katika mtihani wetu wote uliopita wa hypothesis. Yaani, ikiwa thamani ya mahesabu ya\(t\) (au\(Z\)) huanguka katika mkia wa usambazaji, ambapo mikia hufafanuliwa na\(\alpha\), kiwango cha umuhimu kinachohitajika katika mtihani, hatuwezi kukubali hypothesis ya null. Ikiwa kwa upande mwingine, thamani ya mahesabu ya takwimu za mtihani ni ndani ya kanda muhimu, hatuwezi kukataa hypothesis ya null.

    Ikiwa tunahitimisha kwamba hatuwezi kukubali hypothesis ya null, tunaweza\((1−\alpha)\) kusema kwa kiwango cha kujiamini kwamba mteremko wa mstari unatolewa na\(b_1\). Hii ni hitimisho muhimu sana. Uchunguzi wa kurudi nyuma sio tu inaruhusu sisi kupima ikiwa uhusiano wa sababu na athari upo, tunaweza pia kuamua ukubwa wa uhusiano huo, ikiwa moja inapatikana kuwepo. Ni kipengele hiki cha uchambuzi wa kurudi nyuma ambayo inafanya kuwa muhimu sana. Ikiwa mifano inaweza kuendelezwa ambayo ina uhalali wa takwimu, basi tuna uwezo wa kuiga madhara ya mabadiliko katika vigezo ambavyo vinaweza kuwa chini ya udhibiti wetu na kiwango fulani cha uwezekano, bila shaka. Kwa mfano, ikiwa matangazo yanaonyeshwa kuathiri mauzo, tunaweza kuamua madhara ya kubadilisha bajeti ya matangazo na kuamua kama mauzo yaliyoongezeka yanafaa gharama zilizoongezwa.

    Multicollinearity

    Majadiliano yetu mapema yalionyesha kuwa kama mifano yote ya takwimu, mfano wa kurudi nyuma wa OLS una mawazo muhimu yanayounganishwa. Kila dhana, ikiwa imevunjwa, ina athari juu ya uwezo wa mfano wa kutoa makadirio muhimu na yenye maana. Theorem ya Gauss-Markov imetuhakikishia kwamba makadirio ya OLS hayana tofauti na ya chini, lakini hii ni kweli tu chini ya mawazo ya mfano. Hapa tutaangalia madhara kwenye makadirio ya OLS ikiwa vigezo vya kujitegemea vinahusiana. Mawazo mengine na mbinu za kupunguza matatizo wanayoyatoa ikiwa yanapatikana kukiukwa huchunguzwa katika kozi za Econometrics. Tunachukua multicollinearity kwa sababu mara nyingi imefikia katika mifano ya Kiuchumi na mara nyingi husababisha matokeo ya kuvunja moyo.

    Mfano wa OLS unafikiri kwamba vigezo vyote vya kujitegemea vinajitegemea. Dhana hii ni rahisi kupima kwa sampuli fulani ya data na coefficients rahisi uwiano. Uwiano, kama vile takwimu, ni suala la shahada: kidogo si nzuri, na mengi ni ya kutisha.

    Lengo la mbinu ya kurudi nyuma ni kuondokana na athari za kujitegemea za kila seti ya vigezo vya kujitegemea kwenye variable fulani inayotegemea. Ikiwa vigezo viwili vya kujitegemea vinahusiana, yaani, vinahusiana, basi hatuwezi kutenganisha madhara\(Y\) ya moja kutoka kwa nyingine. Katika hali mbaya ambapo\(x_1\) ni linear mchanganyiko wa\(x_2\), uwiano sawa na moja, wote vigezo hoja katika njia kufanana na\(Y\). Katika kesi hii haiwezekani kuamua kutofautiana ambayo ndiyo sababu halisi ya athari\(Y\). (Kama vigezo mbili walikuwa kweli kikamilifu uhusiano, basi hesabu hakuna matokeo regression inaweza kweli kuwa mahesabu.)

    Equations kawaida kwa coefficients kuonyesha madhara ya multicollinearity juu ya coefficients.

    \[b_{1}=\frac{s_{y}\left(r_{x_{1} y}-r_{x_{1} x_{2}} r_{x_{2} y}\right)}{s_{x_{1}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{2}=\frac{s_{y}\left(r_{x_{2 y}}-r_{x_{1} x_{2}} r_{x_{1} y}\right)}{s_{x_{2}}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[b_{0}=\overline{y}-b_{1} \overline{x}_{1}-b_{2} \overline{x}_{2}\nonumber\]

    Uwiano kati ya\(x_1\) na\(x_2\),\(r_{x_{1} x_{2}}^{2}\), inaonekana katika denominator ya formula ya kukadiria kwa\(b_1\) na\(b_2\). Ikiwa dhana ya uhuru inashikilia, basi neno hili ni sifuri. Hii inaonyesha kwamba hakuna athari ya uwiano juu ya mgawo. Kwa upande mwingine, kama uwiano kati ya vigezo viwili vya kujitegemea huongeza denominator inapungua, na hivyo makadirio ya ongezeko la mgawo. Uwiano una athari sawa kwenye coefficients zote mbili za vigezo hivi viwili. Kwa asili, kila variable ni “kuchukua” sehemu ya athari juu ya Y ambayo inapaswa kuhusishwa na variable collinear. Hii inasababisha makadirio ya upendeleo.

    Multicollinearity ina athari mbaya zaidi juu ya makadirio ya OLS. Uwiano kati ya vigezo viwili vya kujitegemea pia huonyesha katika fomu kwa makadirio ya ugomvi wa coefficients.

    \[s_{b_{1}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{1}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    \[s_{b_{2}}^{2}=\frac{s_{e}^{2}}{(n-1) s_{x_{2}}^{2}\left(1-r_{x_{1} x_{2}}^{2}\right)}\nonumber\]

    Hapa tena tunaona uwiano kati\(x_1\) na\(x_2\) katika denominator ya makadirio ya ugomvi kwa coefficients kwa vigezo vyote viwili. Ikiwa uwiano ni sifuri kama unavyodhaniwa katika mfano wa kurudi nyuma, basi formula huanguka kwa uwiano wa kawaida wa ugomvi wa makosa kwa ugomvi wa kutofautiana kwa kujitegemea husika. Ikiwa hata hivyo vigezo viwili vya kujitegemea vinahusiana, basi ugomvi wa makadirio ya mgawo huongezeka. Hii inasababisha ndogo\(t\) -thamani kwa mtihani wa hypothesis ya mgawo. Kwa kifupi, multicollinearity matokeo katika kushindwa kukataa hypothesis null kwamba\(X\) variable haina athari kwa\(Y\) wakati kwa kweli\(X\) haina kuwa na athari kitakwimu muhimu juu ya\(Y\). Alisema njia nyingine, makosa makubwa ya kiwango cha mgawo wa makadirio yaliyoundwa na multicollinearity zinaonyesha udhaifu wa takwimu hata wakati uhusiano unaosababishwa ni wenye nguvu.

    Jinsi nzuri ni equation?

    Katika sehemu ya mwisho sisi wasiwasi wenyewe na kupima hypothesis kwamba variable tegemezi alifanya kweli hutegemea nadharia huru variable au vigezo. Huenda kwamba tunapata variable huru ambayo ina baadhi ya athari juu ya variable tegemezi, lakini inaweza kuwa moja tu, na inaweza hata kuwa moja muhimu zaidi. Kumbuka kwamba neno la hitilafu liliwekwa katika mfano ili kukamata madhara ya vigezo vyovyote vya kujitegemea. Inafuata kwamba neno la kosa linaweza kutumika kutoa kipimo cha “wema wa fit” wa equation kuchukuliwa kwa ujumla katika kuelezea tofauti ya variable tegemezi,\(Y\).

    Mgawo wa uwiano wa uwiano, pia huitwa mgawo wa uamuzi nyingi au mgawo wa uamuzi, hutolewa na formula:

    \[R^{2}=\frac{\mathrm{SSR}}{\mathrm{SST}}\nonumber\]

    ambapo SSR ni regression jumla ya mraba, kupotoka squared ya thamani alitabiri ya\(y\) kutoka thamani ya maana ya\(y(\hat{y}-\overline{y})\), na SST ni jumla jumla Kielelezo 13.10 inaonyesha jinsi kupotoka jumla ya variable tegemezi, y, ni partitioned katika vipande hivi viwili.

    Kielelezo 13.10

    Kielelezo 13.10 inaonyesha mstari wa kurudi nyuma na uchunguzi mmoja,\(x_1\). Uchunguzi wa regression anajaribu kuelezea tofauti ya data kuhusu thamani ya maana ya kutofautiana tegemezi,\(y\). Swali ni, kwa nini uchunguzi wa y hutofautiana kutoka kiwango cha wastani cha\(y\)? Thamani ya y katika uchunguzi\(x_1\) inatofautiana na maana ya\(y\) kwa tofauti\(\left(y_{i}-\overline{y}\right)\). Jumla ya tofauti hizi za mraba ni SST, jumla ya jumla ya mraba. Thamani halisi ya\(y\) saa\(x_1\) inatofautiana na thamani ya makadirio\(\hat{y}\),, kwa tofauti kati ya thamani ya makadirio na thamani halisi,\(\left(y_{i}-\hat{y}\right)\). Tunakumbuka kwamba hii ni neno la kosa, e, na jumla ya makosa haya ni SSE, jumla ya makosa ya mraba. Kupotoka kwa thamani iliyotabiriwa ya\(y\)\(\hat y\),, kutoka kwa thamani ya maana ya\(y\) ni\((\hat{y}-\overline{y})\) na ni SSR, jumla ya mraba regression. Inaitwa “regression” kwa sababu ni kupotoka kuelezwa na regression. (Wakati mwingine SSR inaitwa SSM kwa jumla ya mraba maana kwa sababu inachukua kupotoka kutoka thamani ya maana ya kutofautiana tegemezi, y, kama inavyoonekana kwenye grafu.).

    Kwa sababu SST = SSR + SSE tunaona kwamba mgawo wa uwiano wa nyingi ni asilimia ya ugomvi, au kupotoka\(y\) kutoka kwa thamani yake ya maana, ambayo inaelezewa na equation inapochukuliwa kwa ujumla. \(R^2\)zitatofautiana kati ya sifuri na 1, na sifuri kuonyesha kwamba hakuna hata tofauti katika\(y\) ilielezwa na equation na thamani ya 1 kuonyesha kwamba 100% ya tofauti katika\(y\) ilielezwa na equation. Kwa muda mfululizo masomo kutarajia juu\(R^2\) na kwa ajili ya sehemu ya msalaba data kutarajia chini\(R^2\).

    Wakati high\(R^2\) ni kuhitajika, kumbuka kwamba ni vipimo vya nadharia kuhusu kuwepo kwa uhusiano kati ya seti ya vigezo vya kujitegemea na variable fulani tegemezi ambayo ilikuwa sababu motisha katika kutumia mfano regression. Ni kuthibitisha uhusiano wa sababu na athari uliotengenezwa na nadharia fulani ambayo ndiyo sababu ya kweli kwamba tulichagua uchambuzi wa kurudi nyuma. Kuongezeka kwa idadi ya vigezo vya kujitegemea itakuwa na athari za kuongezeka\(R^2\). Kuhesabu kwa athari hii kipimo sahihi ya mgawo wa uamuzi ni\(\overline{R}^{2}\), kubadilishwa kwa digrii za uhuru, kuweka chini ya kuongeza mindless ya vigezo huru.

    Hakuna mtihani wa takwimu kwa\(R^2\) na hivyo kidogo inaweza kuwa alisema juu ya mfano kutumia\(R^2\) na tabia yetu kujiamini ngazi. Mifano mbili ambazo zina ukubwa sawa wa SSE, yaani jumla ya makosa ya mraba, inaweza kuwa tofauti sana\(R^2\) ikiwa mifano ya ushindani ina SST tofauti, jumla ya upungufu wa mraba. wema wa fit ya mifano miwili ni sawa; wote wana jumla sawa ya mraba unexplained, makosa squared, lakini kwa sababu ya jumla kubwa jumla ya mraba katika moja ya mifano\(R^2\) tofauti. Tena, thamani halisi ya kurudi nyuma kama chombo ni kuchunguza nadharia zilizotengenezwa kutoka kwa mfano ambao unatabiri mahusiano fulani kati ya vigezo. Hizi ni vipimo vya hypotheses juu ya coefficients ya mfano na si mchezo wa kuongeza\(R^2\).

    Njia nyingine ya kupima ubora wa jumla wa mfano wa jumla ni kupima coefficients kama kikundi badala ya kujitegemea. Kwa sababu hii ni regression nyingi (zaidi ya moja X), sisi kutumia F-mtihani kuamua kama coefficients yetu kwa pamoja kuathiri Y. hypothesis ni:

    \(H_{o} : \beta_{1}=\beta_{2}=\ldots=\beta_{i}=0\)

    \(H_a\): “angalau moja ya\(\beta_i\) si sawa na 0"

    Kama hypothesis null haiwezi kukataliwa, basi sisi kuhitimisha kwamba hakuna hata mmoja wa vigezo huru kuchangia kueleza tofauti katika\(Y\). Kupitia Kielelezo 13.10 tunaona kwamba SSR, jumla alielezea ya mraba, ni kipimo cha kiasi gani cha tofauti katika\(Y\) ni alielezea na vigezo vyote katika mfano. SSE, jumla ya makosa squared, hatua tu kiasi gani ni unexplained. Inafuata kwamba uwiano wa hizi mbili unaweza kutupa mtihani wa takwimu wa mfano kwa ujumla. Kumbuka kwamba\(F\) usambazaji ni uwiano wa mgawanyo wa mraba wa Chi na kwamba tofauti zinasambazwa kulingana na Chi Squared, na jumla ya makosa ya mraba na jumla ya mraba ni tofauti zote mbili, tuna takwimu za mtihani kwa nadharia hii kama:

    \[F_{c}=\frac{\left(\frac{S S R}{k}\right)}{\left(\frac{S S E}{n-k-1}\right)}\nonumber\]

    \(n\)wapi idadi ya uchunguzi na\(k\) ni idadi ya vigezo vya kujitegemea. Inaweza kuonyeshwa kuwa hii ni sawa na:

    \[F_{c}=\frac{n-k-1}{k} \cdot \frac{R^{2}}{1-R^{2}}\nonumber\]

    Kielelezo 13.10 ambapo\(R^2\) ni mgawo wa uamuzi ambayo pia ni kipimo cha “wema” wa mfano.

    Kama ilivyo kwa vipimo vyetu vyote vya hypothesis, tunafikia hitimisho kwa kulinganisha\(F\) takwimu zilizohesabiwa na thamani muhimu iliyotolewa ngazi yetu ya kujiamini. Ikiwa takwimu za mtihani wa mahesabu,\(F\) takwimu katika kesi hii, iko katika mkia wa usambazaji, basi hatuwezi kukubali hypothesis ya null. Kwa kutoweza kukubali nadharia za null tunahitimisha kuwa vipimo hivi vya mfano huu vina uhalali, kwa sababu angalau moja ya coefficients inakadiriwa ni tofauti sana na sifuri.

    Njia mbadala ya kufikia hitimisho hili ni kutumia utawala wa kulinganisha thamani ya p. \(p\)Thamani ni eneo katika mkia, kutokana na\(F\) takwimu zilizohesabiwa. Kwa kweli, kompyuta inapata\(F\) thamani katika meza kwa ajili yetu. Pato la kurudi nyuma kwa kompyuta kwa\(F\) takwimu zilizohesabiwa hupatikana kwa kawaida katika sehemu ya meza ya ANOVA iliyoitwa “umuhimu F”. Jinsi ya kusoma pato la regression ya Excel imewasilishwa hapa chini. Hii ni uwezekano wa NOT kukubali nadharia mbaya ya uongo. Kama uwezekano huu ni chini ya makosa yetu kabla ya kuamua alpha, basi hitimisho ni kwamba hatuwezi kukubali hypothesis null.

    Dummy Vigezo

    Hadi sasa uchambuzi wa mbinu ya kurudi nyuma ya OLS ulidhani kuwa vigezo vya kujitegemea katika mifano vilivyojaribiwa vilikuwa vigezo vya random vinavyoendelea. Kuna, hata hivyo, hakuna vikwazo katika mfano wa kurudi nyuma dhidi ya vigezo vya kujitegemea ambavyo ni binary. Hii inafungua mfano wa kurudi nyuma kwa ajili ya kupima nadharia kuhusu vigezo vya makundi kama vile jinsia, rangi, kanda ya nchi, kabla ya data fulani, baada ya tarehe fulani na wengine wasiohesabika. Hizi vigezo categorical kuchukua maadili mawili tu, 1 na 0, mafanikio au kushindwa, kutoka usambazaji binomial uwezekano. Fomu ya equation inakuwa:

    \[\hat{y}=b_{0}+b_{2} x_{2}+b_{1} x_{1}\nonumber\]

    Kielelezo 13.11

    wapi\(x_2=0\). \(X_2\)ni variable dummy na\(X_1\) ni baadhi ya kuendelea random variable. Mara kwa mara,\(b_0\), ni y-intercept, thamani ambapo mstari unavuka\(y\) -axis. Wakati thamani ya\(X_2 = 0\), inakadiriwa line misalaba katika\(b_0\). Wakati thamani ya\(X_2 = 1\) basi inakadiriwa line misalaba katika\(b_0 + b_2\). Kwa kweli, variable ya dummy husababisha mstari wa makadirio ya kuhama ama juu au chini kwa ukubwa wa athari za tabia iliyochukuliwa na variable ya dummy. Kumbuka kuwa hii ni mabadiliko rahisi ya sambamba na haiathiri athari za kutofautiana kwa kujitegemea;\(X_1\) .Variable hii ni kutofautiana kwa random inayoendelea na inabiri maadili tofauti ya\(y\) maadili tofauti ya\(X_1\) kushikilia mara kwa mara hali ya kutofautiana kwa dummy.

    Mfano wa matumizi ya variable dummy ni kazi inayokadiria athari za jinsia kwenye mishahara. Kuna mwili kamili wa maandiko juu ya mada hii na vigezo vya dummy hutumiwa sana. Kwa mfano huu mishahara ya walimu wa shule ya msingi na sekondari kwa hali fulani inachunguzwa. Kutumia jamii ya kazi ya kawaida, walimu wa shule, na kwa hali moja hupunguza tofauti nyingi ambazo huathiri mishahara kama vile hatari tofauti za kimwili, gharama za maisha katika hali fulani, na hali nyingine za kazi. Equation makadirio katika fomu yake rahisi hubainisha mshahara kama kazi ya mwalimu mbalimbali tabia kwamba nadharia ya kiuchumi ingekuwa kupendekeza inaweza kuathiri mshahara. Hizi zitajumuisha kiwango cha elimu kama kipimo cha uzalishaji, umri na/au uzoefu wa kukamata mafunzo ya kazi, tena kama kipimo cha tija. Kwa sababu data ni kwa walimu wa shule walioajiriwa katika wilaya za shule za umma badala ya wafanyakazi katika kampuni yenye faida, wastani wa mapato ya wilaya ya shule kwa wastani wa mahudhurio ya wanafunzi kila siku hujumuishwa kama kipimo cha uwezo wa kulipa. Matokeo ya uchambuzi wa kurudi nyuma kwa kutumia data juu ya walimu wa shule 24,916 yanaonyeshwa hapa chini.

    Variable Coefficients ya kurudi nyuma (b) Makosa ya kawaida ya makadirio
    ya kazi ya mapato ya mwalimu (sb)
    Pinga 4269.9
    Jinsia (kiume = 1) 632.38 13.39
    Jumla ya Miaka ya Uzoefu 52.32 1.10
    Miaka ya Uzoefu katika Wilaya ya Sasa 29.97 1.52
    Elimu 629.33 13.16
    Jumla ya Mapato kwa kila ADA 90.24 3.76
    \(\overline{R}^{2}\) .725
    \(n\) 24,916
    Jedwali 13.1 Makadirio ya Mapato kwa Walimu wa Shule za Msingi

    Coefficients kwa vigezo vyote vya kujitegemea ni tofauti sana na sifuri kama ilivyoonyeshwa na makosa ya kawaida. Kugawanya makosa ya kiwango cha kila mgawo husababisha thamani ya t zaidi ya 1.96 ambayo ni kiwango kinachohitajika kwa umuhimu wa 95%. Variable binary, variable yetu dummy ya riba katika uchambuzi huu, ni jinsia ambapo kiume ni kupewa thamani ya 1 na kike kupewa thamani ya 0. Mgawo huo ni tofauti sana na sifuri na takwimu za t-statistic ya kupotoka kwa kiwango 47. Hivyo hatuwezi kukubali hypothesis null kwamba mgawo ni sawa na sifuri. Kwa hiyo tunahitimisha kuwa kuna walimu wa kiume wa kulipwa kwa malipo ya $632 baada ya kufanya uzoefu wa mara kwa mara, elimu na utajiri wa wilaya ya shule ambayo mwalimu anaajiriwa. Ni muhimu kutambua kwamba data hizi ni kutoka wakati fulani uliopita na $632 inawakilisha asilimia sita ya mshahara premium wakati huo. Grafu ya mfano huu wa vigezo vya dummy imeonyeshwa hapa chini.

    Kielelezo 13.12

    Katika vipimo viwili, mshahara ni variable tegemezi juu ya mhimili wima na jumla ya miaka ya uzoefu ilichaguliwa kwa variable kuendelea kujitegemea juu ya mhimili usawa. Yoyote ya vigezo vingine huru wangeweza kuchaguliwa kuonyesha athari za variable dummy. Uhusiano kati ya jumla ya miaka ya uzoefu una mteremko wa $52.32 kwa mwaka wa uzoefu na mstari wa makadirio una kizuizi cha $4,269 ikiwa kutofautiana kwa jinsia ni sawa na sifuri, kwa kike. Ikiwa kutofautiana kwa jinsia ni sawa na 1, kwa kiume, mgawo wa kutofautiana kwa jinsia huongezwa kwa kukatiza na hivyo uhusiano kati ya miaka ya jumla ya uzoefu na mshahara hubadilishwa zaidi sambamba kama ilivyoonyeshwa kwenye grafu. Pia alama kwenye grafu ni pointi mbalimbali za kutaja. Mwalimu wa shule ya kike mwenye uzoefu wa miaka 10 anapata mshahara wa $4,792 kwa misingi ya uzoefu wake tu, lakini hii bado ni $109 chini ya mwalimu wa kiume mwenye uzoefu wa miaka sifuri.

    Mwingiliano mgumu zaidi kati ya variable dummy na variable tegemezi pia inaweza kuhesabiwa. Inawezekana kwamba variable ya dummy ina zaidi ya athari rahisi ya kuhama kwenye kutofautiana kwa tegemezi, lakini pia huingiliana na moja au zaidi ya vigezo vingine vya kujitegemea vinavyoendelea. Wakati si majaribio katika mfano hapo juu, inaweza kuwa nadharia kwamba athari za jinsia juu ya mshahara haikuwa wakati mmoja kuhama, lakini walioathirika thamani ya miaka ya ziada ya uzoefu juu ya mshahara pia. Hiyo ni mishahara ya mwalimu wa shule ya kike ilipunguzwa mwanzoni, na zaidi haikukua kwa kiwango sawa kutokana na athari za uzoefu kama kwa walimu wa shule za kiume. Hii ingeonekana kama mteremko tofauti kwa uhusiano kati ya miaka ya jumla ya uzoefu kwa wanaume kuliko kwa wanawake. Ikiwa ndivyo ilivyo basi walimu wa shule za wanawake wasingeanza tu nyuma ya wenzao wa kiume (kama ilivyopimwa na mabadiliko katika mstari wa kurudi nyuma), lakini wangeweza kuanguka zaidi na zaidi kama muda na uzoefu umeongezeka.

    Grafu hapa chini inaonyesha jinsi hypothesis hii inaweza kupimwa na matumizi ya vigezo vya dummy na kutofautiana kwa mwingiliano.

    Kielelezo 13.13

    equation kukadiria inaonyesha jinsi mteremko wa\(X_1\), kuendelea random kutofautiana uzoefu, ina sehemu mbili,\(b_1\) na\(b_3\). Hii hutokea kwa sababu ya kutofautiana mpya\(X_2\)\(X_1\), inayoitwa kutofautiana kwa mwingiliano, iliundwa ili kuruhusu athari kwenye mteremko wa\(X_1\) kutoka kwa mabadiliko katika\(X_2\), variable ya binary dummy. Kumbuka kwamba wakati kutofautiana kwa dummy,\(X_2 = 0\) kutofautiana kwa mwingiliano ina thamani ya 0, lakini wakati kutofautiana\(X_2 = 1\) kwa mwingiliano ina thamani ya\(X_1\). Mgawo\(b_3\) ni makadirio ya tofauti katika mgawo wa\(X_1\)\(X_2= 1\) ikilinganishwa na wakati\(X_2 = 0\). Katika mfano wa mishahara ya mwalimu, ikiwa kuna premium iliyolipwa kwa walimu wa kiume inayoathiri kiwango cha ongezeko la mishahara kutokana na uzoefu, basi kiwango ambacho mishahara ya walimu wa kiume huongezeka itakuwa\(b_1 + b_3\) na kiwango ambacho mishahara ya walimu wa kike huongezeka itakuwa rahisi\(b_1\). Hypothesis hii inaweza kupimwa na hypothesis:

    \[H_{0} : \beta_{3}=0 | \beta_{1}=0, \beta_{2}=0\nonumber\]

    \[H_{a} : \beta_{3} \neq 0 | \beta_{1} \neq 0, \beta_{2} \neq 0\nonumber\]

    Hii ni\(t\) -mtihani kwa kutumia takwimu za mtihani kwa parameter\(\beta_3\). Kama hatuwezi kukubali hypothesis null kwamba\(\beta_3=0\) sisi kuhitimisha kuna tofauti kati ya kiwango cha ongezeko kwa ajili ya kundi ambao thamani ya variable binary ni kuweka 1, wanaume katika mfano huu. Equation hii ya kukadiria inaweza kuunganishwa na moja yetu ya awali Kielelezo 13.13 hutolewa kwa kesi hii na mabadiliko katika kazi ya mapato na tofauti katika mteremko wa kazi kuhusiana na miaka ya jumla ya uzoefu.

    Mfano 13.5

    Sampuli ya random ya wanafunzi wa takwimu 11 ilizalisha data zifuatazo, ambapo x ni alama ya tatu ya mtihani kati ya 80, na y ni alama ya mwisho ya mtihani kati ya 200. Je, unaweza kutabiri mwisho mtihani alama ya mwanafunzi nasibu kuchaguliwa kama unajua tatu mtihani alama?

    Jedwali kuonyesha alama kwenye mtihani wa mwisho kulingana na alama kutoka mtihani wa tatu.
    \(x\)(alama ya tatu ya mtihani) \(y\)(alama ya mwisho ya mtihani)
    65 175
    67 133
    71 185
    71 163
    66 126
    75 198
    67 153
    70 163
    71 159
    69 151
    69 159
    Jedwali 13.2
    Hii ni kuwatawanya njama ya data zinazotolewa. Alama ya mtihani wa tatu imepangwa kwenye mhimili wa x-axis, na alama ya mwisho ya mtihani imepangwa kwenye mhimili wa y. Pointi huunda muundo wenye nguvu, chanya, wa mstari.

    Kielelezo 13.14 Kuwatawanya njama kuonyesha alama kwenye mtihani wa mwisho kulingana na alama kutoka mtihani wa tatu.