7.2: Egyszerű lineáris regresszió
- Page ID
- 205347
Miután azonosítottunk két korrelált változót, szeretnénk modellezni ezt a kapcsolatot. Az egyik változót előrejelzőként vagy magyarázó változóként szeretnénk használni a másik változó, a válasz vagy a függő változó magyarázatához. Ehhez jó kapcsolatra van szükségünk a két változó között. A modell ezután felhasználható a válaszváltozónk változásainak előrejelzésére. A prediktor változó és a válaszváltozó közötti szoros kapcsolat jó modellhez vezet.
Ábra\(\PageIndex{1}\). Scatterplot regressziós modellel.
Meghatározás: egyszerű lineáris regresszió
Egy egyszerű lineáris regressziós modell egy matematikai egyenlet, amely lehetővé teszi számunkra, hogy megjósoljuk a választ egy adott prediktor értékre.
Modellünk olyan formát ölt, \(\hat y = b_0+b_1x\) ahol b 0 az y-metszés, b 1 a meredekség, x a prediktor változó, és ya válaszváltozó átlagértékének becslése a prediktor változó bármely értékére.
Az y-metszés az (y) válasz előre jelzett értéke, ha x = 0. A lejtés leírja az y változását minden egyes egységváltozásnál x-ben. Nézzük meg ezt a példát, hogy tisztázzuk a lejtő és az elfogás értelmezését.
Példa \(\PageIndex{1}\):
A hidrológus létrehoz egy modellt, amely megjósolja a patak térfogatáramát egy hídon kereszteződésnél, a napi csapadék előrejelző változójával hüvelykben.
- Válasz
-
\[\hat y = 1.6 +29 x \nonumber\]
Az 1.6-os y-elfogás így értelmezhető: Egy csapadékmentes napon 1,6 gal. víz/perc folyik a patakban azon a hídon. A lejtő azt mondja nekünk, hogy ha aznap egy hüvelyk eső esik, akkor a patak áramlása további 29 gal növekszik. /perc Ha aznap 2 hüvelyk eső esne, az áramlás további 58 gal növekedne. /perc
Példa \(\PageIndex{2}\):
Mekkora lenne az átlagos patakáramlás, ha aznap 0,45 hüvelyk eső esne?
- Válasz
-
\[\hat y= 1.6 + 29x = 1.6 + 29(0.45) = 14.65 gal./min \nonumber\]
A legkisebb négyzetek regressziós vonala (gyorsegyenletek)
Az egyenletet a
\[\hat y = b_0+b_1x\]
hol \(b_1 = r\left ( \dfrac {s_y}{s_x} \right )\) van a regressziós egyenes meredeksége és \(b_0=\hat y -b_1\bar x\) y-metszete.
A meredekség alternatív számítási egyenlete:
\[b_1 = \dfrac {\sum xy - \dfrac {(\sum x)(\sum y)}{n}} {\sum x^2 - \dfrac {(\sum x)^2}{n}} = \dfrac {S_{xy}}{S_{xx}}\]
Ez az egyszerű modell a mintaadatainkhoz legjobban illeszkedő vonal. A regressziós vonal nem megy át minden ponton, hanem kiegyensúlyozza az összes adatpont és az egyenes modell közötti különbséget. A megfigyelt adatérték és az előre jelzett érték (az egyenes vonal értéke) közötti különbség a hiba vagy maradék. A két változó közötti kapcsolatot legjobban leíró vonal meghatározására szolgáló kritérium a maradékokon alapul.
\[Residual = Observed – Predicted\]
Például, ha meg akarja jósolni egy fekete medve mellkasát, tekintettel a súlyára, használhatja a következő modellt.
Mellkasi méret = 13,2 +0,43 súly
A 120 font súlyú medve várható mellkasmérete 64,8 hüvelyk.
Mellkas kerülete = 13,2 + 0,43 (120) = 64,8 hüvelyk.
De a mért medve mellkasának kerülete (megfigyelt érték) egy 120 font súlyú medve esetében valójában 62,1 hüvelyk volt.
A maradék 62,1 - 64,8 = -2,7 hüvelyk lenne.
A negatív maradék azt jelzi, hogy a modell túljósol. A pozitív maradvány azt jelzi, hogy a modell aluljósol. Ebben az esetben a modell túlbecsülte egy medve mellkasának kerületét, amely valójában 120 font súlyú volt.
Ábra\(\PageIndex{2}\). Scatterplot regressziós modellel, amely a maradványértéket szemlélteti.
Ez a véletlenszerű hiba (maradék) figyelembe veszi az összes kiszámíthatatlan és ismeretlen tényezőt, amelyek nem szerepelnek a modellben. A közönséges legkisebb négyzetek regressziós vonala minimalizálja a megfigyelt és az előre jelzett értékek közötti négyzetes hibák összegét, hogy a legjobban illeszkedő vonalat hozza létre. A megfigyelt és az előre jelzett értékek közötti különbségeket négyzetre osztjuk, hogy kezeljük a pozitív és negatív különbségeket.
Meghatározási együttható
Miután illesztettük regressziós vonalunkat (számítsuk ki b 0 és b 1), általában azt szeretnénk tudni, hogy a modell mennyire illeszkedik az adatainkhoz. Ennek meghatározásához vissza kell gondolnunk a varianciaanalízis gondolatára. Az ANOVA-ban a variációt négyzetösszegek felhasználásával osztottuk fel, hogy azonosítani tudjunk egy kezelési hatást, szemben az adatainkban előforduló véletlenszerű variációval. Ugyanez az elképzelés a regresszió esetében is. A teljes változékonyságot két részre szeretnénk osztani: a regresszió miatti variációra és a véletlenszerű hiba miatti variációra. És ismét kiszámítjuk a négyzetek összegét, hogy segítsünk nekünk ebben.
Tegyük fel, hogy a minta méréseinek teljes változékonyságát a minta átlagával \(\sum (y_i - \bar y)^2\) kapcsolatban az átlaggal (SST) kapcsolatos teljes variabilitás négyzetösszegének nevezzük. Az előre jelzett érték \(\hat y\) és a minta átlaga közötti négyzetes különbséget a regresszió miatti négyzetek összegének (SSR) jelöljük. \(\sum (\hat {y_i} - \bar y)^2\) Az SSR a regressziós vonallal magyarázott változékonyságot képviseli. Végül azt a variabilitást, amelyet nem lehet megmagyarázni a regressziós vonallal, a hiba miatti négyzetek összegeinek (SSE) nevezzük, és jelöljük. \(\sum (y_i - \hat y)^2\) Az SSE valójában a négyzet alakú maradék.
SST |
= SSR |
+ SSE |
\(\sum (y_i - \bar y)^2\) |
= \(\sum (\hat {y_i} - \bar y)^2\) |
+ \(\sum (\hat {y_i} - \bar y)^2\) |
Ábra\(\PageIndex{3}\). Illusztráció az y átlaga és egy adott y előre jelzett és megfigyelt értéke közötti kapcsolatról.
A négyzetek összegét és a négyzetek átlagos összegét (csakúgy, mint az ANOVA) jellemzően a regressziós varianciaanalízis táblázatában mutatjuk be. A regressziós négyzetek átlagos összegeinek (MSR) és a hibára vonatkozó négyzetek átlagos összegének (MSE) aránya F-teszt statisztikát alkot, amelyet a regressziós modell tesztelésére használnak.
Ezen négyzetösszegek közötti kapcsolatot a következőképpen határozzuk meg
\[Total \ Variation = Explained \ Variation + Unexplained \ Variation\]
Minél nagyobb a magyarázott variáció, annál jobb a modell előrejelzése. Minél nagyobb a megmagyarázhatatlan variáció, annál rosszabb a modell előrejelzése. A modell magyarázó erejének mennyiségi mértéke a meghatározási együttható: \(R^2\)
\[R^2 = \dfrac {Explained \ Variation}{Total \ Variation}\]
A meghatározási együttható az (y) válaszváltozó százalékos variációját méri, amelyet a modell magyaráz.
- Az értékek 0 és 1 között mozognak.
- A nullához \(R^2\) közeli modell nagyon kevés magyarázó erővel rendelkező modellt jelez.
- Egy \(R^2\) közel egy olyan modellt jelöl, amely több magyarázó erővel rendelkezik.
A meghatározási együttható és a lineáris korrelációs együttható matematikailag összefügg.
\[R^2 = r^2\]
Két nagyon különböző jelentésük van: r a két változó közötti lineáris kapcsolat erősségének és irányának mértéke; R 2 leírja az „y” százalékos variációját, amelyet a modell magyaráz.
Maradék és normál valószínűségi diagramok
Annak ellenére, hogy szórási diagram, korrelációs együttható és R2 segítségével meghatározta, hogy x hasznos az y értékének előrejelzésében, a regressziós elemzés eredményei csak akkor érvényesek, ha az adatok megfelelnek a szükséges regressziós feltételezéseknek.
- Az (y) válaszváltozó egy valószínűségi változó, míg az (x) prediktor változót nem véletlenszerűnek vagy rögzítettnek feltételezzük, és hiba nélkül mérjük.
- Az y és x közötti kapcsolatnak lineárisnak kell lennie, a modell adja meg\(\hat y = b_0 + b_1x\).
- A véletlen kifejezés hibája az ε értékek függetlenek, átlaguk 0 és közös szórásuk van\(\sigma^2\), független x, és normálisan eloszlanak.
A maradék diagramok segítségével ellenőrizhetjük az állandó varianciát, valamint megbizonyosodhatunk arról, hogy a lineáris modell valóban megfelelő-e. A maradék diagram a maradék (= megfigyelt - előrejelzett értékek) szórásdiagramja az előre jelzett vagy illesztett (a maradék diagramban használt) értékkel szemben. A középső vízszintes tengely nullára van állítva. A maradványok egyik tulajdonsága, hogy nulla összegűek, és átlaguk nulla. A maradék diagramnak mentesnek kell lennie minden mintától, és a maradékoknak a nulla körüli pontok véletlenszerű szórásaként kell megjelenniük.
A minták megjelenése nélküli maradék diagram azt jelzi, hogy a modell feltételezései teljesülnek ezekre az adatokra.
Ábra\(\PageIndex{4}\). Maradék parcella.
A „ventilátor alakú” maradék diagram heterogén varianciát (nem állandó varianciát) jelez. A maradványok hajlamosak kiszellőzni vagy ventilálni, amikor a hibavariancia növekszik vagy csökken.
Ábra\(\PageIndex{5}\). Maradék diagram, amely nem állandó varianciát jelez.
A maradék diagram, amely hajlamos „lecsapni”, azt jelzi, hogy a lineáris modell nem megfelelő. A modellnek magasabb rendű x kifejezésekre lehet szüksége, vagy nemlineáris modellre lehet szükség az y és x közötti kapcsolat jobb leírásához. Az x vagy y transzformációkat is figyelembe lehet venni.
Ábra\(\PageIndex{6}\). Maradék diagram, amely jelzi a magasabb rendű modell szükségességét.
A normál valószínűségi diagram lehetővé teszi számunkra, hogy ellenőrizzük, hogy a hibák normál eloszlásúak-e. A maradékokat a maradék várható értékéhez viszonyítva ábrázolja, mintha normál eloszlásból származna. Emlékezzünk vissza, hogy amikor a maradványok normálisan eloszlanak, egyenes vonalú mintát követnek, felfelé lejtőn.
Ez a cselekmény nem szokatlan, és nem utal semmilyen nem-normalitásra a maradékokkal.
Ábra\(\PageIndex{7}\). Normál valószínűségi diagram.
Ez a következő ábra világosan szemlélteti a maradványok nem normális eloszlását.
Ábra\(\PageIndex{8}\). Normál valószínűségi diagram, amely a nem normális eloszlást szemlélteti.
A normalitás legsúlyosabb megsértése általában az eloszlás farkában jelenik meg, mert itt különbözik a normál eloszlás leginkább a hasonló átlagú és terjedésű más típusú eloszlásoktól. A normál valószínűségi diagram egyik vagy mindkét végén lévő görbület a nem normalitást jelzi.