Skip to main content
Global

7.2: Egyszerű lineáris regresszió

  • Page ID
    205347
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Miután azonosítottunk két korrelált változót, szeretnénk modellezni ezt a kapcsolatot. Az egyik változót előrejelzőként vagy magyarázó változóként szeretnénk használni a másik változó, a válasz vagy a függő változó magyarázatához. Ehhez jó kapcsolatra van szükségünk a két változó között. A modell ezután felhasználható a válaszváltozónk változásainak előrejelzésére. A prediktor változó és a válaszváltozó közötti szoros kapcsolat jó modellhez vezet.

    Mi a 11187.png

    Ábra\(\PageIndex{1}\). Scatterplot regressziós modellel.

    Meghatározás: egyszerű lineáris regresszió

    Egy egyszerű lineáris regressziós modell egy matematikai egyenlet, amely lehetővé teszi számunkra, hogy megjósoljuk a választ egy adott prediktor értékre.

    Modellünk olyan formát ölt, \(\hat y = b_0+b_1x\) ahol b 0 az y-metszés, b 1 a meredekség, x a prediktor változó, és ya válaszváltozó átlagértékének becslése a prediktor változó bármely értékére.

    Az y-metszés az (y) válasz előre jelzett értéke, ha x = 0. A lejtés leírja az y változását minden egyes egységváltozásnál x-ben. Nézzük meg ezt a példát, hogy tisztázzuk a lejtő és az elfogás értelmezését.

    Példa \(\PageIndex{1}\):

    A hidrológus létrehoz egy modellt, amely megjósolja a patak térfogatáramát egy hídon kereszteződésnél, a napi csapadék előrejelző változójával hüvelykben.

    Válasz

    \[\hat y = 1.6 +29 x \nonumber\]

    Az 1.6-os y-elfogás így értelmezhető: Egy csapadékmentes napon 1,6 gal. víz/perc folyik a patakban azon a hídon. A lejtő azt mondja nekünk, hogy ha aznap egy hüvelyk eső esik, akkor a patak áramlása további 29 gal növekszik. /perc Ha aznap 2 hüvelyk eső esne, az áramlás további 58 gal növekedne. /perc

    Példa \(\PageIndex{2}\):

    Mekkora lenne az átlagos patakáramlás, ha aznap 0,45 hüvelyk eső esne?

    Válasz

    \[\hat y= 1.6 + 29x = 1.6 + 29(0.45) = 14.65 gal./min \nonumber\]

    A legkisebb négyzetek regressziós vonala (gyorsegyenletek)

    Az egyenletet a

    \[\hat y = b_0+b_1x\]

    hol \(b_1 = r\left ( \dfrac {s_y}{s_x} \right )\) van a regressziós egyenes meredeksége és \(b_0=\hat y -b_1\bar x\) y-metszete.

    A meredekség alternatív számítási egyenlete:

    \[b_1 = \dfrac {\sum xy - \dfrac {(\sum x)(\sum y)}{n}} {\sum x^2 - \dfrac {(\sum x)^2}{n}} = \dfrac {S_{xy}}{S_{xx}}\]

    Ez az egyszerű modell a mintaadatainkhoz legjobban illeszkedő vonal. A regressziós vonal nem megy át minden ponton, hanem kiegyensúlyozza az összes adatpont és az egyenes modell közötti különbséget. A megfigyelt adatérték és az előre jelzett érték (az egyenes vonal értéke) közötti különbség a hiba vagy maradék. A két változó közötti kapcsolatot legjobban leíró vonal meghatározására szolgáló kritérium a maradékokon alapul.

    \[Residual = Observed – Predicted\]

    Például, ha meg akarja jósolni egy fekete medve mellkasát, tekintettel a súlyára, használhatja a következő modellt.

    Mellkasi méret = 13,2 +0,43 súly

    A 120 font súlyú medve várható mellkasmérete 64,8 hüvelyk.

    Mellkas kerülete = 13,2 + 0,43 (120) = 64,8 hüvelyk.

    De a mért medve mellkasának kerülete (megfigyelt érték) egy 120 font súlyú medve esetében valójában 62,1 hüvelyk volt.

    A maradék 62,1 - 64,8 = -2,7 hüvelyk lenne.

    A negatív maradék azt jelzi, hogy a modell túljósol. A pozitív maradvány azt jelzi, hogy a modell aluljósol. Ebben az esetben a modell túlbecsülte egy medve mellkasának kerületét, amely valójában 120 font súlyú volt.

    Mi a Image37921.PNG

    Ábra\(\PageIndex{2}\). Scatterplot regressziós modellel, amely a maradványértéket szemlélteti.

    Ez a véletlenszerű hiba (maradék) figyelembe veszi az összes kiszámíthatatlan és ismeretlen tényezőt, amelyek nem szerepelnek a modellben. A közönséges legkisebb négyzetek regressziós vonala minimalizálja a megfigyelt és az előre jelzett értékek közötti négyzetes hibák összegét, hogy a legjobban illeszkedő vonalat hozza létre. A megfigyelt és az előre jelzett értékek közötti különbségeket négyzetre osztjuk, hogy kezeljük a pozitív és negatív különbségeket.

    Meghatározási együttható

    Miután illesztettük regressziós vonalunkat (számítsuk ki b 0 és b 1), általában azt szeretnénk tudni, hogy a modell mennyire illeszkedik az adatainkhoz. Ennek meghatározásához vissza kell gondolnunk a varianciaanalízis gondolatára. Az ANOVA-ban a variációt négyzetösszegek felhasználásával osztottuk fel, hogy azonosítani tudjunk egy kezelési hatást, szemben az adatainkban előforduló véletlenszerű variációval. Ugyanez az elképzelés a regresszió esetében is. A teljes változékonyságot két részre szeretnénk osztani: a regresszió miatti variációra és a véletlenszerű hiba miatti variációra. És ismét kiszámítjuk a négyzetek összegét, hogy segítsünk nekünk ebben.

    Tegyük fel, hogy a minta méréseinek teljes változékonyságát a minta átlagával \(\sum (y_i - \bar y)^2\) kapcsolatban az átlaggal (SST) kapcsolatos teljes variabilitás négyzetösszegének nevezzük. Az előre jelzett érték \(\hat y\) és a minta átlaga közötti négyzetes különbséget a regresszió miatti négyzetek összegének (SSR) jelöljük. \(\sum (\hat {y_i} - \bar y)^2\) Az SSR a regressziós vonallal magyarázott változékonyságot képviseli. Végül azt a variabilitást, amelyet nem lehet megmagyarázni a regressziós vonallal, a hiba miatti négyzetek összegeinek (SSE) nevezzük, és jelöljük. \(\sum (y_i - \hat y)^2\) Az SSE valójában a négyzet alakú maradék.

    SST

    = SSR

    + SSE

    \(\sum (y_i - \bar y)^2\)

    = \(\sum (\hat {y_i} - \bar y)^2\)

    + \(\sum (\hat {y_i} - \bar y)^2\)

    Mi a 11168.png

    Ábra\(\PageIndex{3}\). Illusztráció az y átlaga és egy adott y előre jelzett és megfigyelt értéke közötti kapcsolatról.

    A négyzetek összegét és a négyzetek átlagos összegét (csakúgy, mint az ANOVA) jellemzően a regressziós varianciaanalízis táblázatában mutatjuk be. A regressziós négyzetek átlagos összegeinek (MSR) és a hibára vonatkozó négyzetek átlagos összegének (MSE) aránya F-teszt statisztikát alkot, amelyet a regressziós modell tesztelésére használnak.

    Ezen négyzetösszegek közötti kapcsolatot a következőképpen határozzuk meg

    \[Total \ Variation = Explained \ Variation + Unexplained \ Variation\]

    Minél nagyobb a magyarázott variáció, annál jobb a modell előrejelzése. Minél nagyobb a megmagyarázhatatlan variáció, annál rosszabb a modell előrejelzése. A modell magyarázó erejének mennyiségi mértéke a meghatározási együttható: \(R^2\)

    \[R^2 = \dfrac {Explained \ Variation}{Total \ Variation}\]

    A meghatározási együttható az (y) válaszváltozó százalékos variációját méri, amelyet a modell magyaráz.

    • Az értékek 0 és 1 között mozognak.
    • A nullához \(R^2\) közeli modell nagyon kevés magyarázó erővel rendelkező modellt jelez.
    • Egy \(R^2\) közel egy olyan modellt jelöl, amely több magyarázó erővel rendelkezik.

    A meghatározási együttható és a lineáris korrelációs együttható matematikailag összefügg.

    \[R^2 = r^2\]

    Két nagyon különböző jelentésük van: r a két változó közötti lineáris kapcsolat erősségének és irányának mértéke; R 2 leírja az „y” százalékos variációját, amelyet a modell magyaráz.

    Maradék és normál valószínűségi diagramok

    Annak ellenére, hogy szórási diagram, korrelációs együttható és R2 segítségével meghatározta, hogy x hasznos az y értékének előrejelzésében, a regressziós elemzés eredményei csak akkor érvényesek, ha az adatok megfelelnek a szükséges regressziós feltételezéseknek.

    1. Az (y) válaszváltozó egy valószínűségi változó, míg az (x) prediktor változót nem véletlenszerűnek vagy rögzítettnek feltételezzük, és hiba nélkül mérjük.
    2. Az y és x közötti kapcsolatnak lineárisnak kell lennie, a modell adja meg\(\hat y = b_0 + b_1x\).
    3. A véletlen kifejezés hibája az ε értékek függetlenek, átlaguk 0 és közös szórásuk van\(\sigma^2\), független x, és normálisan eloszlanak.

    A maradék diagramok segítségével ellenőrizhetjük az állandó varianciát, valamint megbizonyosodhatunk arról, hogy a lineáris modell valóban megfelelő-e. A maradék diagram a maradék (= megfigyelt - előrejelzett értékek) szórásdiagramja az előre jelzett vagy illesztett (a maradék diagramban használt) értékkel szemben. A középső vízszintes tengely nullára van állítva. A maradványok egyik tulajdonsága, hogy nulla összegűek, és átlaguk nulla. A maradék diagramnak mentesnek kell lennie minden mintától, és a maradékoknak a nulla körüli pontok véletlenszerű szórásaként kell megjelenniük.

    A minták megjelenése nélküli maradék diagram azt jelzi, hogy a modell feltételezései teljesülnek ezekre az adatokra.

    Mi a 11155.png

    Ábra\(\PageIndex{4}\). Maradék parcella.

    A „ventilátor alakú” maradék diagram heterogén varianciát (nem állandó varianciát) jelez. A maradványok hajlamosak kiszellőzni vagy ventilálni, amikor a hibavariancia növekszik vagy csökken.

    Mi a 11142.png

    Ábra\(\PageIndex{5}\). Maradék diagram, amely nem állandó varianciát jelez.

    A maradék diagram, amely hajlamos „lecsapni”, azt jelzi, hogy a lineáris modell nem megfelelő. A modellnek magasabb rendű x kifejezésekre lehet szüksége, vagy nemlineáris modellre lehet szükség az y és x közötti kapcsolat jobb leírásához. Az x vagy y transzformációkat is figyelembe lehet venni.

    Mi a 11131.png

    Ábra\(\PageIndex{6}\). Maradék diagram, amely jelzi a magasabb rendű modell szükségességét.

    A normál valószínűségi diagram lehetővé teszi számunkra, hogy ellenőrizzük, hogy a hibák normál eloszlásúak-e. A maradékokat a maradék várható értékéhez viszonyítva ábrázolja, mintha normál eloszlásból származna. Emlékezzünk vissza, hogy amikor a maradványok normálisan eloszlanak, egyenes vonalú mintát követnek, felfelé lejtőn.

    Ez a cselekmény nem szokatlan, és nem utal semmilyen nem-normalitásra a maradékokkal.

    Mi a 11121.png

    Ábra\(\PageIndex{7}\). Normál valószínűségi diagram.

    Ez a következő ábra világosan szemlélteti a maradványok nem normális eloszlását.

    Mi a 11111.png

    Ábra\(\PageIndex{8}\). Normál valószínűségi diagram, amely a nem normális eloszlást szemlélteti.

    A normalitás legsúlyosabb megsértése általában az eloszlás farkában jelenik meg, mert itt különbözik a normál eloszlás leginkább a hasonló átlagú és terjedésű más típusú eloszlásoktól. A normál valószínűségi diagram egyik vagy mindkét végén lévő görbület a nem normalitást jelzi.