Skip to main content
Global

7.3: Népességi modell

  • Page ID
    205341
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Regressziós modellünk n kétváltozós megfigyelésből álló mintán alapul, amelyek nagyobb mérési populációból származnak.

    \[\hat y = b_0 +b_1x\]

    Mintaadataink átlagait és szórásait használjuk a meredekség kiszámításához (b 1) és y-metszés (b 0) egy közönséges legkisebb négyzetek regressziós vonalának létrehozásához. De le akarjuk írni az y és x közötti kapcsolatot a populációban, nem csak a mintaadatainkon belül. Egy populációs modellt akarunk felépíteni. Most a mintából kiszámított legkisebb négyzetek vonalára gondolunk, mint a populáció valódi regressziós vonalának becslésére.

    Meghatározás: A népességmodell

    \(\mu_y = \beta_0 + \beta_1x\), hol \(\mu_y\) van a populáció átlagos válasza, \(\beta_0\) az y-metszés, és a populációs \(beta_1\) modell meredeksége.

    Népességünkben, sokféle válasz lehet x értékre. Egyszerű lineáris regresszióban a modell feltételezi, hogy x minden egyes értékére az y válaszváltozó megfigyelt értékei normálisan eloszlanak egy x-től függő átlaggal. Használjuk μy ezen eszközök ábrázolására. Azt is feltételezzük, hogy ezek az eszközök mind egyenes vonalon fekszenek, ha x (átlagvonal) ellen ábrázoljuk.

    Mi a imageedit_3_7796089347.png

    Ábra \(\PageIndex{1}\). . A lineáris regresszió statisztikai modellje; az átlagos válasz a prediktor változó egyenes vonalú függvénye.

    A mintaadatok ezután illeszkednek a statisztikai modellhez:

    Adatok = illeszkedés + maradék

    \[y_i = (\beta_0 + \beta_1x_i)+\epsilon_i\]

    ahol a hibák (εi) függetlenek és normálisan eloszlanak N (0, σ). A lineáris regresszió egyenlő varianciáját is feltételezi y (σ minden értékére azonos x). Az ε (görög epsilon) segítségével állíthatjuk a statisztikai modell maradék részét. A válasz y az átlag és a véletlen eltérés összege εaz átlagtól. Az ε eltérések az adatok „zaját” jelentik. Más szavakkal, a zaj az y változása más okok miatt, amelyek megakadályozzák, hogy a megfigyelt (x, y) tökéletesen egyenes vonalat képezzen.

    A regresszióhoz használt mintaadatok y és x megfigyelt értékei. A válasz y egy adott x egy valószínűségi változó, és a regressziós modell leírja ennek az y valószínűségi változónak az átlagát és szórását. Az elfogás β0, meredekség β1, és a szórás σ y a regressziós modell ismeretlen paraméterei, és a mintaadatokból kell megbecsülni.

    • A legkisebb négyzetek regressziós vonalából származó yértéke valójában y (μy) átlagértékének előrejelzése egy adott x értékre.
    • A mintaadatokból kapott legkisebb négyzetek regressziós vonala (\(\hat y = b_0+b_1x\)) a valódi populációs regressziós vonal () legjobb becslése.
      \(\mu_y = \beta_0 + \beta_1x\)

    yaz átlagos válasz elfogulatlan becslése μy
    b 0 elfogulatlan becslés az elfogulásra β0 b 1 elfogulatlan becslés a β1
    meredekségre

    Paraméter becslés

    Miután megvannak a becslések β0 és β1 (mintaadatainkból b 0 és b 1), a lineáris kapcsolat meghatározza a becsléseket μy minden értékére x populációnkban, nem csak a megfigyelt értékekre x. Most a legkisebb négyzetek vonalát szeretnénk használni arra a populációra vonatkozó következtetések alapjául, amelyből a mintánkat vettük.

    A modell feltételezései azt mondják, hogy b 0 és b 1 normálisan eloszlik az átlagokkal β0 és β1 az adatokból becsülhető szórásokkal. A populáció regressziós vonalára vonatkozó következtetési eljárások hasonlóak lesznek az előző fejezetben leírtakhoz. Mint mindig, fontos megvizsgálni az adatokat a kiugró értékek és a befolyásos megfigyelések szempontjából.

    Ehhez meg kell becsülnünk σ, a regressziós standard hiba. Ez a modellhibák szórása. Megméri az y változását a populáció regressziós vonalával kapcsolatban. Ennek az értéknek a kiszámításához a maradványokat fogjuk használni. Ne feledje, hogy az y (p) előre jelzett értéke egy adott x esetében a regressziós egyenes pontja. Ez az átlagos válasz elfogulatlan becslése (μy) erre x. A maradék:

    maradék = megfigyelt — előre jelzett

    \[\epsilon_i = y_i – \hat {y} = y_i -(b_0+b_1x)\]

    A maradék e én megfelel a modell eltérésének, \(\epsilon_i\) ahol \(\sum \epsilon_i = 0\) átlaga 0. A regressziós standard hiba s elfogulatlan becslése σ.

    \[s=\sqrt {\dfrac {\sum residual^2}{n-2}} = \sqrt {\dfrac {\sum (y_i-\hat {y_i})^2}{n-2}}\]

    A mennyiség s a regressziós standard hiba becslése (σ), és \(s^2\) gyakran átlagos négyzethibának (MSE) nevezik. Az s kis értéke azt sugallja, hogy az y megfigyelt értékei közel esnek a valódi regressziós vonalhoz, és a \(\hat y = b_0 +b_1x\) vonalnak pontos becsléseket és előrejelzéseket kell adnia.

    Konfidencia intervallumok és szignifikancia tesztek a modellparaméterekhez

    Egy korábbi fejezetben konfidencia intervallumokat állítottunk össze, és szignifikancia teszteket végeztünk a populációs paraméterre μ (a populáció átlaga). Olyan minta statisztikákra támaszkodtunk, mint például a pontbecslések átlaga és szórása, a hibahatárok és a tesztstatisztikák. Következtetés a populáció paramétereire β0 (meredekség) és β1 (y-metszés) nagyon hasonló.

    A meredekségre és a metszésre vonatkozó következtetések a b 0 és b 1 becslések alapján a normál eloszláson alapulnak. Ezeknek a becsléseknek a szórásai a σ többszörösei, a populáció regressziós standard hibája. Ne feledje, becsüljük σ -val s (a regressziós vonalra vonatkozó adatok változékonysága). Mivel s-t használunk, a hallgatói t-eloszlásra támaszkodunk (n - 2) szabadságfokkal.

    \[\sigma_{\hat{\beta_0}} = \sigma \sqrt { \frac {1}{n} + \dfrac {\bar x ^2}{\sum (x_i - \bar x)^2}}\]

    A standard hiba a becsléshez \(\beta_0\)

    \[\sigma_{\hat{\beta_1}} = \sigma \sqrt { \frac {1}{n} + \dfrac {\bar x ^2}{\sum (x_i - \bar x)^2}}\]

    A standard hiba a becsléshez \(\beta_1\)

    A regressziós meredekségre és az elfogásra konfidencia intervallumokat építhetünk fel ugyanúgy, mint a populáció átlagának becslésekor.

    A konfidencia intervallum \(\beta_0 : b_0 \pm t_{\alpha/2} SE_{b_0}\)

    A konfidencia intervallum \(\beta_1 : b_1 \pm t_{\alpha/2} SE_{b_1}\)

    ahol \(SE_{b_0}\) és \(SE_{b_1}\) vannak az y-metszés és a meredekség standard hibái.

    Tesztelhetjük a hipotézist is\(H_0: \beta_1 = 0\). Amikor helyettesítjük \(\beta_1 = 0\) a modellt, az x-kifejezés kiesik, és maradunk. \(\mu_y = \beta_0\) Ez azt mondja nekünk, hogy y átlaga NEM változik x-től. Más szavakkal, x és y között nincs egyenes kapcsolat, és y regressziója x-en nincs értéke az y előrejelzéséhez.

    Hipotézis teszt \(\beta_1\)

    \(H_0: \beta_1 =0\)

    \(H_1: \beta_1 \ne 0\)

    A teszt statisztikája \(t = b_1 / SE_{b_1}\)

    Használhatjuk az F-statisztikát (MSR/MSE) is a regressziós ANOVA táblázatban*

    * Emlékezzünk vissza, hogy t2 = F

    Tehát vegyük össze mindezt egy példában.

    Példa \(\PageIndex{1}\):

    A biotikus integritás indexe (IBI) a patakok vízminőségének mérőszáma. A régió természeti erőforrásainak menedzsereként figyelemmel kell kísérnie, nyomon kell követnie és előre kell jeleznie a vízminőség változásait. Egy egyszerű lineáris regressziós modellt szeretne létrehozni, amely lehetővé teszi az IBI változásainak előrejelzését az erdős területen. Az alábbi táblázat egy part menti erdőrégió mintaadatait közvetíti, és megadja az IBI és az erdős terület adatait négyzetkilométerben. Legyen az erdőterület az előrejelző változó (x), az IBI pedig a válaszváltozó (y).

    \ [\ begin {array} {ccccccccc}
    \ text {IBI} &\ text {Erdőterület} &\ text {IBI} &\ text {Erdőterület} &\ text {IBI} &\ text {Erdőterület} &\ text {IBI} &\ text {Erdőterület} &\ text {IBI}\\
    47 & 38 & 41 & 22 & 61 & 43 & 71 & 84 & 84\\
    72 & 9 & 33 & 25 & 62 & 47 & 33 & 79 & 83\\
    21 & 10 & 23 & 31 & 18 & 49 & 59 & 80 & 82\\ 19 & 10 & 32 &
    ; 32 & 44 & 49 & 81 & 86 & 82\\
    72 & 52 & 80 & 33 & 30 & 52 & 71 & 89 & 86\
    56 & 14 & 31 & 33 & 65 & 52 & 75 & 90 & 79\
    49 & 66 & 78 & 78 & 78 & 59 & 64 & 95 & 67\
    89 & 17 & 39 & 71 & 63 & 41 & 95 & 56\
    43 & 18 & 41 & 60 & 68 & 82 & 100 & 85\\
    66 & 21 & 45 & 43 & ; 58 & 75 & 60 & 100 & 91
    \ vége {array}\nszámozás\]

    Táblázat\(\PageIndex{1}\). A biotikus integritás és az erdőterület megfigyelt adatai.

    Megoldás

    Kezdjük egy számítástechnikai leíró statisztikával és az IBI szétszórásával az erdőterülettel szemben.

    x= 47,42; sx 27,37; y= 58,80; sy = 21,38; r = 0,735

    Mi a 11080.png

    Ábra \(\PageIndex{2}\). . Az IBI és az erdőterület szórása.

    Úgy tűnik, hogy pozitív lineáris kapcsolat van a két változó között. A lineáris korrelációs együttható r = 0,735. Ez erős, pozitív, lineáris kapcsolatot jelez. Más szavakkal, az erdőterület jó előrejelzője az IBI-nek. Most hozzunk létre egy egyszerű lineáris regressziós modellt az erdőterület felhasználásával az IBI (válasz) előrejelzésére.

    Először kiszámítjuk b 0 és b 1 a parancsikonegyenletek segítségével.

    \[b_1 = r (\frac {s_y}{s_x}) = 0.735(\frac {21.38}{27.37})=0.574 \nonumber \]

    \[b_0 =\bar y -b_1 \bar x =58.80-0.574 \times 47.42=31.581 \nonumber \]

    A regressziós egyenlet

    \[\hat y =31.58 + 0.574x \nonumber \]

    Most használjuk a Minitab-ot a regressziós modell kiszámításához. A kimenet alább jelenik meg.

    Regressziós elemzés: IBI versus erdőterület

    A regressziós egyenlet IBI = 31,6 + 0,574 erdőterület

    Előrejelző

    Coef

    SE Coef

    T

    P

    Állandó

    31.583

    4.177

    7.56

    0.000

    Erdei terület

    0.57396

    0.07648

    7.50

    0.000

    S = 14,6505

    R-Sq = 54,0%

    R-Sq (mn) = 53,0%

     

    Varianciaanalízis

    Forrás

    DF

    SS

    MS

    F

    P

    Regresszió

    1

    12089

    12089

    56.32

    0.000

    Maradék hiba

    48

    10303

    215

     

     

    Összesen

    49

    22392

         

    A β0 és β1 becslései 31,6, illetve 0,574. Az y-elfogást úgy értelmezhetjük, hogy ha nulla erdős terület van, az IBI 31,6 lesz. Minden további négyzetkilométer erdős terület után az IBI 0,574 egységgel növekszik.

    A meghatározási együttható, R2, 54,0%. Ez azt jelenti, hogy az IBI variációjának 54% -át ez a modell magyarázza. Az IBI változásának körülbelül 46% -a más tényezőknek vagy véletlenszerű eltéréseknek köszönhető. Szeretnénk, ha az R2 a lehető legmagasabb lenne (maximális érték 100%).

    A maradék és a normál valószínűségi diagramok nem jeleznek problémát.

    Mi a 11070.png

    Ábra \(\PageIndex{3}\). . Maradék és normál valószínűségi diagram.

    A σ becslése, a regressziós standard hiba, s = 14,6505. Ez a populáció regressziós vonalán megfigyelt értékek változásának mértéke. Szeretnénk, ha ez az érték a lehető legkisebb lenne. Az MSE 215-nek felel meg. Emlékezik, a\(\sqrt {MSE}=s\). Az együtthatók standard hibái 4,177 az y-metszésnél és 0,07648 a meredekségnél.

    Tudjuk, hogy az értékek b 0 = 31,6 és b 1 = 0,574 a valódi, de ismeretlen populációs paraméterek minta becslése β0 és β1. 95% -os konfidencia intervallumokat építhetünk fel ezeknek a paramétereknek a jobb becsléséhez. A kritikus érték (tα/2) a tanuló t-eloszlásából származik (n - 2) szabadságfokokkal. A minta mérete 50, így 48 szabadságfokunk lenne. A legközelebbi tábla értéke 2,009.

    95% -os konfidencia intervallumok β0 és β1

    \[b_0 \pm t_{\alpha/2} SE_{b_0} = 31.6 \pm 2.009(4.177) = (23.21, 39.99) \nonumber \]

    \[b_1 \pm t_{\alpha/2} SE_{b_1} = 0.574 \pm 2.009(0.07648) = (0.4204, 0.7277) \nonumber \]

    A következő lépés annak tesztelése, hogy a meredekség szignifikánsan különbözik-e a nullától 5% -os szignifikanciaszint alkalmazásával.

    H0: β1 =0

    H1: β1 ≠ 0

    \[t = \frac {b_1} {SE_{b_1}} = \frac {0.574}{0.07648} = 7.50523 \nonumber \]

    48 szabadságfokunk van, és a hallgatói t-eloszlás legközelebbi kritikus értéke 2,009. A tesztstatisztika nagyobb, mint a kritikus érték, ezért elutasítjuk a nullhipotézist. A lejtés jelentősen eltér a nullától. Statisztikailag szignifikáns összefüggést találtunk az erdőterület és az IBI között.

    A Minitab kimenet a teszt statisztikáját és p-értékét is jelenti ehhez a teszthez.

    A regressziós egyenlet IBI = 31,6 + 0,574 erdőterület

    Előrejelző

    Coef

    SE Coef

    T

    P

    Állandó

    31.583

    4.177

    7.56

    0.000

    Erdei terület

    0.57396

    0.07648

    7.50

    0.000

    S = 14.6505

    R-Sq = 54,0%

    R-Sq (mn) = 53,0%

     

    Varianciaanalízis

    Forrás

    DF

    SS

    MS

    F

    P

    Regresszió

    1

    12089

    12089

    56.32

    0.000

    Maradék hiba

    48

    10303

    215

       

    Összesen

    49

    22392

         

    A t teszt statisztika 7,50, a kapcsolódó p-érték 0.000. A p-érték kisebb, mint a szignifikancia szintje (5%), ezért elutasítjuk a nullhipotézist. A lejtés jelentősen eltér a nullától. Ugyanez az eredmény található az F-teszt 56,32 statisztikájából (7,5052 = 56,32). A p-érték ugyanaz (0.000), mint a következtetés.

    Bizalmi intervallum \(\mu_y\)

    Most, hogy létrehoztunk egy regressziós modellt, amely a prediktor változó és a válaszváltozó közötti szignifikáns kapcsolatra épül, készen állunk a modell használatára

    • y átlagértékének becslése egy adott x értékre
    • egy adott y érték előrejelzése egy adott x értékre

    Vizsgáljuk meg az első lehetőséget. A populációból vett n pár mintaadatait használtuk a regressziós együtthatók kiszámításához b 0 és b 1 modellünkhöz, és megadja az y átlagértékét egy adott értékhez x populációs modellünkön keresztül \(\mu_y = \beta_0 + \beta_1x\)

    . Minden x konkrét értékére van egy átlagos y (μ y), amely az egyenes egyenletre esik (átlagvonal). Ne feledje, hogy sok különböző megfigyelt érték lehet y egy adott x esetében, és feltételezzük, hogy ezeknek az értékeknek normális eloszlása van, átlaga egyenlő \(\beta_0 + \beta_1x\) és szórása σ2. Mivel a b 0 és b 1 számított értékei mintánként változnak, minden új minta kissé eltérő regressziós egyenletet eredményezhet. Minden új modell felhasználható y érték becslésére x értékre. Milyen messze lesz \(\hat y =b_0+b_1x\) becslésünk az x érték valódi populációjának átlagától? Ez, mint mindig, a becslésünk változékonyságától függ, amelyet a standard hiba mér.

    Kimutatható, hogy y becsült értéke, amikor x = x 0 (valamilyen meghatározott x érték), a populáció átlagának elfogulatlan becslője, és hogy a pnormálisan eloszlik egy standard hibával

    \[\]SE_ {\ hat\ mu} = s\ sqrt {\ frac {1} {n} +\ frac {(x_0-\ bar x) ^2} {\ sum (x_i -\ bar x) ^2}}\]

    Konfidencia intervallumot építhetünk fel ennek a paraméternek a jobb becsléséhez (μy) a fejezetben korábban bemutatott eljárás szerint.

    \[\]\ hat {\ mu_y}\ pm t_ {\ alfa/2} SE_ {\ hat\ mu}\]

    ahol a kritikus érték tα/2 a tanuló t-táblázatból származik (n - 2) szabadságfokokkal.

    Statisztikai szoftver, mint például a Minitab, kiszámítja a konfidencia intervallumokat az Ön számára. Az előző példa adatait felhasználva a Minitab segítségével kiszámítjuk a 95% -os konfidencia intervallumot az átlagos válaszra 32 km -es átlagos erdős területre.

    Az új megfigyelések előrejelzett értékei

    Új Obs Fit

    SE Fit

    95%

    CI

    1

    49.9496

    2.38400

    (45.1562,54.7429)

    Ha sok olyan területről vett mintát, amelyek átlagosan 32 km-t tettek ki. erdős terület, az átlagos IBI becslése 45 1562 és 54, 7429 között lenne.

    Ezt a folyamatot sokszor megismételheti több különböző x értéknél, és ábrázolhatja az átlagos válasz konfidencia intervallumait.

    x

    95% CI

    20

    (37,13, 48.88)

    40

    (50.22, 58.86)

    60

    (61,43, 70.61)

    80

    (70.98, 84.02)

    100

    (79.88, 98.07)

    Mi a 11060.png

    Ábra \(\PageIndex{4}\). . 95% -os konfidencia intervallumok az átlagos válaszhoz.

    Figyelje meg, hogy a 95% -os megbízhatósági intervallum szélessége hogyan változik az x különböző értékeinél. Mivel a konfidencia intervallum szélessége szűkebb x központi értékeinél, ebből következik, hogy μy pontosabban becsülhető meg x értékekre ezen a területen. Ahogy az adatok szélsőséges határai felé halad, az intervallumok szélessége növekszik, jelezve, hogy nem lenne bölcs dolog extrapolálni a modell létrehozásához használt adatok határain túl.

    Előrejelzési intervallumok

    Mi van, ha meg akarja jósolni y adott értékét, mikor\(x = x_0\)? Vagy talán meg akarja jósolni a következő mérést egy adott x értékre? Ez a probléma különbözik a konfidencia intervallum felépítésétől. \(\mu_y\) Ahelyett, hogy konfidencia intervallumot építenénk fel a populációs paraméter becsléséhez, meg kell építenünk egy előrejelzési intervallumot. Az y adott értékének előrejelzésének választása további hibát okoz az előrejelzésben, mivel y eltér az átlagvonaltól. Vizsgálja meg az alábbi ábrát. Láthatja, hogy az előrejelzési hibának két összetevője van:

    1. Hiba az illesztett vonal használatában az átlagvonal becsléséhez
    2. A hiba, amelyet az y eltérése okoz az átlagvonaltól, mérve \(\sigma^2\)

    Mi a 136.tif

    Ábra \(\PageIndex{5}\). A két komponens szemléltetése az előrejelzés hibájában.

    Az y közötti különbség \(\hat y\) varianciája és e két variancia összege, és képezi az előrejelzéshez \((y-\hat y)\) használt standard hiba alapját. Az előrejelzési intervallum kapott formája a következő:

    \[\]\ hat y\ pm t_ {\ alpha/2} s\ sqrt {1+\ frac {1} {n} +\ frac {(x_0 -\ bar x) ^2} {\ sum (x_i -\ bar x) ^2}}\]

    ahol x 0 a prediktor változó adott értéke, n a megfigyelések száma, és \(t_{\alpha/2}\) a kritikus érték (n - 2) szabadságfokkal.

    Szoftver, mint például a Minitab, kiszámíthatja az előrejelzési intervallumokat. Az előző példa adatainak felhasználásával a Minitab segítségével kiszámítjuk a 95% -os előrejelzési intervallumot egy adott 32 km-es erdős terület IBI-jére.

    Az új megfigyelések előrejelzett értékei

    Új Obs

    Illeszkedik

    SE Fit

    95% PI

    1

    49.9496

    2.38400

    (20.1053, 79.7939)

    Ezt a folyamatot sokszor megismételheti több különböző x értéknél, és ábrázolhatja az átlagos válasz előrejelzési intervallumait.

    x

    95% PI

    20

    (13.01, 73,11)

    40

    (24.77, 84.31)

    60

    (36,21, 95.83)

    80

    (47.33, 107.67)

    100

    (58.15, 119.81)

    Figyeljük meg, hogy az előrejelzési intervallum sávok szélesebbek, mint a megfelelő konfidencia intervallum sávok, ami azt tükrözi, hogy egy valószínűségi változó értékét jósoljuk meg, nem pedig egy populációs paramétert. Azt várnánk, hogy az egyéni értékre vonatkozó előrejelzések változóbbak legyenek, mint az átlagérték becslései.

    Mi a clipboard_ef5b4f48cc485e5d1c40a29e1d1ce32e0.png

    Ábra\(\PageIndex{6}\). A konfidencia és az előrejelzési intervallumok összehasonlítása.

    Átalakítások az adatkapcsolatok linearizálásához

    Sok esetben az x és y közötti kapcsolat nem lineáris. Az alapul szolgáló modell egyszerűsítése érdekében átalakíthatjuk vagy konvertálhatjuk x vagy y vagy mindkettőt, hogy lineárisabb kapcsolatot eredményezzünk. Sok általános átalakulás létezik, például logaritmikus és reciprok. Az x magasabb rendű feltételeinek beillesztése szintén segíthet az x és y közötti kapcsolat linearizálásában. Az alábbiakban bemutatjuk a szórási ábrák néhány általános alakját és az átalakítások lehetséges lehetőségeit. Az átalakítás megválasztása azonban gyakran inkább próba és hiba kérdése, mint meghatározott szabályok.

    Mi a clipboard_ed46577894f5b66ad2a472173485d93e6.png

     

    \ [\ begin {array} {lll}
    \ mathbf {x} &\ text {vagy} &\ mathbf {y}\\ mathrm {x} ^2 & &
    \ mathrm {y} ^2\\ mathrm {x} ^3 & &\ mathrm {y} ^3
    \ vég {array}\nonumber\]

    Mi a clipboard_e54e3a619fdc915409d11b742b713fd1b.png

     

    \ [\ begin {array} {lll}
    \ mathbf {x} &\ text {vagy} &\ mathbf {y}\\ log\ mathrm {x} & &
    \ log\ mathrm {y}\\ -1/\ mathrm {x} & &
    -1/\ mathrm {y}\ vég {array}\nonumber\]

    Mi a clipboard_e3bc1742b1fb2f36e85c436954996d8fc.png

     

    \ [\ begin {array} {lll}
    \ mathbf {x} &\ text {vagy} &\ mathbf {y}\\ log\ mathrm {x} & &
    \ mathrm {y} ^2\\
    -1/\ mathrm {x} & &\ mathrm {y} ^3\ vég {array}\nonumber\]

    Mi a clipboard_e52b944a364d4ce7df828d0f423e06984.png

    Az átalakulás megválasztása

    \ [\ begin {array} {lll}
    \ mathbf {x} &\ text {vagy} &\ mathbf {y}\\ mathrm {x} ^2 & &
    \ log\ mathrm {y}\\ mathrm {x} ^3 &\\ &
    & -1/
    \ mathrm {y}\ vég {array}\nonumber\]

    Ábra\(\PageIndex{7}\). Példák az x és y változók lehetséges transzformációira.

    Példa \(\PageIndex{2}\):

    Az erdésznek létre kell hoznia egy egyszerű lineáris regressziós modellt, hogy megjósolja a fa térfogatát a cukorjuharfák mellmagasságának átmérőjével (dbh). Összegyűjti a dbh -t és a térfogatot 236 cukor juharfához, és parcellázza a térfogatot a dbh -hoz képest. Az alábbiakban bemutatjuk a Minitab szórási diagramját, korrelációs együtthatóját és regressziós kimenetét.

    Mi a clipboard_e81fba7e8a699f457468a665f363d00bb.png

    Ábra A térfogat \(\PageIndex{8}\) szórásdiagramja a dbh-val szemben.

    Pearson lineáris korrelációs együtthatója 0,894, ami erős, pozitív, lineáris kapcsolatot jelez. A scatterplot azonban különálló nemlineáris kapcsolatot mutat.

    Regressziós elemzés: térfogat versus dbh

    A regressziós egyenlet térfogat = — 51,1 + 7,15 dbh

    Előrejelző

    Coef

    SE Coef

    T

    P

    Állandó

    -51.097

    3.271

    -15,62

    0.000

    dbh

    7.1500

    0.2342

    30.53

    0.000

    S = 19.5820

    R-Sq = 79,9%

    R-Sq (adj) = 79,8%

    Varianciaanalízis

    Forrás

    DF

    SS

    MS

    F

    P

    Regresszió

    1

    357397

    357397

    932.04

    0.000

    Maradék hiba

    234

    89728

    383

       

    Összesen

    235

    447125

         

    Az R2 79,9%, ami meglehetősen erős modellt jelez, és a meredekség jelentősen eltér a nullától. Mindazonáltal mind a maradék diagram, mind a maradék normál valószínűségi diagram komoly problémákat jelez ezzel a modellel. Egy transzformáció segíthet egy lineárisabb kapcsolat kialakításában a kötet és a dbh között.

    Mi a clipboard_e527c3bd91601bd60149924fc837ea5c6.png

    Ábra\(\PageIndex{9}\). Maradék és normál valószínűségi diagramok.

    A térfogatot a térfogat természetes naplójává alakítottuk át, és dbh ellenében ábrázoltuk (lásd az alábbi szórásdiagramot). Sajnos ez kevéssé javította ennek a kapcsolatnak a linearitását. Az erdész ezután elvégezte a dbh természetes log transzformációját. A természetes térfogatnapló szórásdiagramja a dbh természetes logjával szemben lineárisabb kapcsolatot jelzett e két változó között. A lineáris korrelációs együttható 0,954.

    Mi a clipboard_e521ecbee227b89ad36a194f4363a744e.png

    Ábra\(\PageIndex{10}\). A térfogat természetes naplójának szórási diagramjai a dbh és a természetes térfogat naplójával szemben a dbh természetes naplójával szemben.

    A Minitab regresszióanalízis kimenetét az alábbiakban adjuk meg.

    Regressziós elemzés: LnVol vs LndBH

    A regressziós egyenlet LnVol = — 2,86 + 2,44 LndBh

    Előrejelző

    Coef

    SE Coef

    T

    P

    Állandó

    -2.8571

    0.1253

    -22,80

    0.000

    LndBH

    2.44383

    0.05007

    48.80

    0.000

    S = 0.327327

    R-Sq = 91,1%

    R-Sq (adj) = 91,0%

     

    Varianciaanalízis

    Forrás

    DF

    SS

    MS

    F

    P

    Regresszió

    1

    255.19

    255.19

    2381.78

    0.000

    Maradék hiba

    234

    25.07

    0,11

       

    Összesen

    235

    280,26

         

    Mi a clipboard_e856e853d172a7dca6bccf5004415348e.png

    Ábra\(\PageIndex{11}\). Maradék és normál valószínűségi diagramok.

    A térfogat és a dbh transzformált értékeit használó modell lineárisabb és pozitívabb korrelációs együtthatóval rendelkezik. A meredekség jelentősen eltér a nullától, és az R2 79,9% -ról 91,1% -ra nőtt. A maradék diagram véletlenszerűbb mintát mutat, a normál valószínűségi diagram pedig némi javulást mutat.

    Számos lehetséges transzformációs kombináció lehetséges az adatok linearizálására. Minden helyzet egyedi, és előfordulhat, hogy a felhasználónak több alternatívát kell kipróbálnia, mielőtt kiválasztja a legjobb transzformációt x vagy y vagy mindkettő számára.