7.1: Összefüggés
- Page ID
- 205345
Sok tanulmányban egynél több változót mérünk minden egyes személyre. Például mérjük a csapadékot és a növények növekedését, vagy a fészkelő élőhelyű fiatalok számát, vagy a talajeróziót és a víz mennyiségét. Adatpárokat gyűjtünk, és ahelyett, hogy minden változót külön vizsgálnánk (egyváltozós adatok), meg akarjuk találni a kétváltozós adatok leírásának módjait, amelyekben a mintánk minden alanyán két változót mérünk. Ilyen adatok alapján kezdjük annak meghatározásával, hogy van-e kapcsolat e két változó között. Ahogy az egyik változó értékei változnak, látunk-e megfelelő változásokat a másik változóban?
A két változó közötti kapcsolatot grafikusan és numerikusan írhatjuk le. Kezdjük azzal, hogy figyelembe vesszük a korreláció fogalmát.
Meghatározás: Korreláció
A korrelációt két változó közötti statisztikai összefüggésként definiáljuk.
Két változó között korreláció áll fenn, ha az egyik valamilyen módon kapcsolódik a másikhoz. A scatterplot a legjobb hely a kezdéshez. A szórásdiagram (vagy szórásdiagram) a párosított (x, y) mintaadatok grafikonja vízszintes x tengellyel és függőleges y tengellyel. Minden egyes (x, y) pár egyetlen pontként van ábrázolva.
Ábra \(\PageIndex{1}\). A mellkas kerületének szórása a hosszúsággal szemben.
Ebben a példában a medve mellkasának kerületét (y) ábrázoljuk a medve hosszával (x) szemben. A scatterplot vizsgálatakor meg kell vizsgálnunk az ábrázolt pontok általános mintáját. Ebben a példában azt látjuk, hogy a mellkas kerületének értéke általában növekszik a hossz értékének növekedésével. Az ábrázolt adatpontokban felfelé mutató lejtést és egyenes vonalú mintát láthatunk.
A scatterplot több különböző típusú kapcsolatot azonosíthat két változó között.
- Egy kapcsolatnak nincs korrelációja, ha a scatterplot pontjai nem mutatnak mintát.
- A kapcsolat nem lineáris, ha a szórási diagram pontjai mintát követnek, de nem egyenes vonalat.
- A kapcsolat akkor lineáris, ha a szórásdiagram pontjai kissé egyenes vonalú mintát követnek. Ezt a kapcsolatot fogjuk megvizsgálni.
A lineáris kapcsolatok lehetnek pozitívak vagy negatívak. A pozitív kapcsolatoknak vannak olyan pontjai, amelyek jobbra felfelé hajolnak. Az x értékek növekedésével az y értékek növekednek. Ahogy x értékek csökkennek, y értékek csökkennek. Például a növények tanulmányozásakor a magasság általában növekszik az átmérő növekedésével.
Ábra \(\PageIndex{2}\). A magasság és az átmérő szórása.
A negatív kapcsolatoknak vannak olyan pontjai, amelyek jobbra lefelé csökkennek. Az x értékek növekedésével az y értékek csökkennek. Ahogy az x értékek csökkennek, az y értékek növekednek. Például a szélsebesség növekedésével a szélhűtés hőmérséklete csökken.
Ábra \(\PageIndex{3}\). A hőmérséklet és a szélsebesség szórása.
A nemlineáris kapcsolatoknak látszólagos mintázata van, csak nem lineárisak. Például, ahogy az életkor növekszik, a magasság egy pontig növekszik, majd a maximális magasság elérése után kiegyenlítődik.
Ábra \(\PageIndex{4}\). A magasság és az életkor szórása.
Ha két változónak nincs kapcsolata, akkor nincs egyenes vagy nemlineáris kapcsolat. Ha az egyik változó megváltozik, az nem befolyásolja a másik változót.
Ábra \(\PageIndex{5}\). A növekedés és a terület szórása.
Lineáris korrelációs együttható
Mivel a vizuális vizsgálatok nagyrészt szubjektívek, pontosabb és objektívebb mérésre van szükségünk a két változó közötti korreláció meghatározásához. A két változó közötti kapcsolat erősségének és irányának számszerűsítéséhez a lineáris korrelációs együtthatót használjuk:
\[r = \dfrac {\sum \dfrac {(x_i-\bar x)}{s_x} \dfrac {(y_i - \bar y)}{s_y}}{n-1}\]
ahol \(\bar x\) és az \(s_x\) x-ek mintaátlaga és a minta szórása, \(\bar y\) és \(s_y\) az y átlaga és szórása. A minta mérete n.
A korrelációs együttható alternatív számítása:
\[r = \dfrac {S_{xy}}{\sqrt {S_{xx}S_{yy}}}\]
ahol
\[S_{xx} = \sum x^2 - \dfrac {(\sum x)^2}{n}\]
\[S_{xy} = \sum xy - \dfrac {(\sum x)(\sum y )}{n}\]
\[S_{yy} = \sum y^2 - \dfrac {(\sum x)^2}{n}\]
A lineáris korrelációs együtthatót Pearson termékmomentum korrelációs együtthatójának is nevezik Karl Pearson tiszteletére, aki eredetileg kifejlesztette. Ez a statisztika numerikusan leírja, hogy milyen erős az egyenes vagy lineáris kapcsolat a két változó és az irány között, pozitív vagy negatív.
Az „r” tulajdonságai:
- Mindig -1 és +1 között van.
- Ez egy egység nélküli mérték, így az „r” ugyanaz az érték lenne, függetlenül attól, hogy a két változót fontban és hüvelykben, vagy grammban és centiméterben mértük.
- Az „r” pozitív értékei pozitív kapcsolatokhoz kapcsolódnak.
- Az „r” negatív értékei negatív kapcsolatokhoz kapcsolódnak.
Példák a pozitív korrelációra
Ábra \(\PageIndex{6}\). Példák a pozitív korrelációra.
Példák a negatív korrelációra
Ábra \(\PageIndex{7}\). Példák a negatív korrelációra.
Megjegyzés:
A korreláció nem okozati összefüggés!!! Csak azért, mert két változó korrelál, még nem jelenti azt, hogy az egyik változó megváltoztatja a másik változót.
Vizsgálja meg ezt a következő két szórási ábrát. Mindkét adathalmaz r = 0,01, de nagyon különböznek egymástól. Az 1. ábra kevés lineáris kapcsolatot mutat x és y változók között. A 2. ábra erős nemlineáris kapcsolatot mutat. Pearson lineáris korrelációs együtthatója csak a lineáris kapcsolat erősségét és irányát méri. A scatterplot figyelmen kívül hagyása súlyos hibát eredményezhet két változó közötti kapcsolat leírásakor.
Ábra \(\PageIndex{8}\). A szórási parcellák összehasonlítása.
Amikor két változó kapcsolatát vizsgálja, mindig szórással kezdje. Ez a grafikon lehetővé teszi minták keresését (mind lineáris, mind nemlineáris). A következő lépés a lineáris kapcsolat erősségének és irányának kvantitatív leírása az „r” használatával. Miután megállapította, hogy létezik lineáris kapcsolat, megteheti a következő lépést a modellépítésben.