BEVEZETÉS A BIOMETRIÁBA
Korreláció és regresszió
Vargha Péter
 
 
 

Vargha Péter: Semmelweis Orvostudományi Egyetem, I. Sz. Belgyógyászati Klinika, Biometriai Csoport
1083 Budapest, Korányi Sándor u. 2/A (Hungary)

Érkezett: 2001. március 14.
Elfogadva: 2001. március 29.

Ca és Csont 2001;4 (1): 40-42.


A korreláció- és regressziószámítás a leggyakrabban alkalmazott statisztikai eljárások közé tartozik. Ezekkel a módszerekkel kapcsolatban az a kérdés merül fel elsőként, hogy milyen kapcsolatban állnak egymással, mikor alkalmazzuk az egyiket, és mikor a másikat.

Az az általános gyakorlat (s ezt a leggyakrabban használt számítógépes statisztikai programok eredményközlési módja és a nagyon hasonló számítási képletek is erősítik), hogy két változó összefüggésének vizsgálata esetén mind a regressziós egyenes paramétereit (meredekség és tengelymetszet), mind pedig a korrelációs együtthatót megadják, emellett közlik az összefüggésre vonatkozó szignifikanciaszintet. A statisztikai kézikönyvek ugyanakkor általában határozott különbséget tesznek a két módszer között, egyrészt az eljárások célja, másrészt a felhasznált változók jellege alapján.

A korrelációszámítás célja két normális eloszlású változó közötti (lineáris, egyenes vonalú) összefüggés szorosságának jellemzése. Normális eloszlású változók között elméletileg csak lineáris kapcsolat lehetséges, ezért, ha a koordináta-rendszerben ábrázolt pontok görbe vonalú öszszefüggésre utalnak, biztos, hogy legalább az egyik változó eloszlása eltér a normálistól. Az együttható értéke -1 és +1 közötti (mértékegység nélküli) szám. Amennyiben ez nulla, a két változó között nincs lineáris összefüggés. Ha r=+1 vagy r=-1, a változók között tökéletes lineáris kapcsolat áll fenn, a két változó értékeit koordináta-rendszerben ábrázolva a pontok mind ugyanazon az egyenesen helyezkednek el. A pozitív korreláció azt jelenti, hogy nagyobb x értékhez várhatóan nagyobb y tartozik (és viszont), míg negatív érték fordított kapcsolatra utal: az egyik változó értékeinek növekedésével a másikhoz tartozók általában csökkennek. A normalitás feltételéhez tartozik az is, hogy az adott  változók szempontjából a vizsgált populáció homogén legyen, emellett a mért értékek alapján ne legyen előzetes szelekció. Az x-y koordináta-rendszerben ábrázolt adatok esetén a feltételek teljesülését az jelzi, hogy a pontok egy ellipszis alakú ábrát alkotnak, amely a közepe felé sűrűsödik (ez persze csak kellően nagy elemszámnál válik jól láthatóvá).
 

1. ábra. Testsúly és testmagasság összefüggése. Y= 160+0,153×x

 

Nézzünk egy példát! Tegyük fel, hogy kíváncsiak vagyunk a testmagasság és testsúly közötti összefüggés szorosságára! Az 1. ábrán 129 férfi testsúlyának és testmagasságának szórásdiagramja szerepel. Először is az a kérdés, hogy normálisnak tekinthető-e a testmagasság és a testsúly eloszlása. A testmagasságé egyértelműen igen, feltéve persze, hogy különvesszük a férfiakat és nőket, mert csak így tekinthetjük a vizsgált populációkat homogénnek. A testsúly eloszlása általában nem teljesen normális, jelen esetben azonban a pontok meglehetősen szabályosan helyezkednek el; tehát elfogadhatjuk, hogy a feltételek teljesülnek, így számolható a korreláció. (Az illesztett ellipszis átlagosan a pontok 95%-át tartalmazza, most történetesen valamivel kevesebbet.)

A fenti példában a korrelációs együttható értéke: r = 0,297. A hozzá tartozó p-érték, vagyis annak a valószínűsége, hogy 129-es esetszám mellett véletlen hatására kapunk legalább ilyen szoros összefüggést, 0,001-del egyenlő. Egyelőre még elég ritkán szokták a 95%-os megbízhatósági intervallumot meghatározni. Ez esetünkben a 0,13-0,49-es intervallum. Tehát a tényleges (elméleti) korreláció, amit a mintánk segítségével kívánunk megbecsülni, nagy valószínűséggel ebben az intervallumban található. Két korrelációérték különbözőségének ellenőrzésére is létezik eljárás. A megbízhatósági határokra és a korrelációk összehasonlítására vonatkozó eljárások leírása több helyütt megtalálható (1).

Fontos tudni, hogy valamelyik változó értékei szerinti szelekció megváltoztatja a  korreláció értékét: minél szűkebb tartományt választunk, annál kisebb lesz. Ha például a 70-90 kg közötti testsúlyú 70 férfi körében vizsgáljuk a testmagasság és testsúly közötti összefüggést, a korreláció értéke r = 0,138; p=0,254.

Előfordulhat, hogy két változó között csoportonként nincs korreláció, összevonva viszont van. Mint korábban említettem, ha nem teljesül a homogenitás, nem helyes korrelációt számolni; ezért ebben az esetben másképp kell eljárnunk: mindkét változó szerint összehasonlítjuk a két csoportot (kétmintás t-próbával), és ha mindkét összehasonlítás szignifikánsnak adódik, azt a következtetést vonjuk le, hogy a csoportok között mindkét változó tekintetében különbség van. Ez nyilvánvalóan nem ugyanaz a következtetés, mint az, hogy a két változó között összefüggés áll fenn, hiszen ez nagyon speciális kapcsolatot jelent, és nagyon könnyen elképzelhető, hogy közvetlen kapcsolat valójában nincsen közöttük.

Még ritkább az az eset, hogy összességében nem mutatkozik kapcsolat, csoportonként azonban igen. Ezt az esetet meglehetősen nehéz szakmailag interpretálni, különösen akkor, ha az összefüggés nem minden csoportban jelentkezik.

Amennyiben az együttes eloszlás lényegesen eltér a normálistól, a korrelációszámítás előtt az adatokat transzformálni kell (például logaritmustranszformációt alkalmazva). Egy transzformáció általában akkor változtatja meg jelentősen a korrelációs együttható értékét, ha a változók között szoros kapcsolat van.

Ha viszonylag egyszerű transzformációval nem tudunk a fenti feltételeknek megfelelő adatsort előállítani, nem paraméteres korrelációszámítást kell végezni. Ennek több formája létezik, a megfelelő programok leggyakrabban a Spearman-korrelációt vagy az úgynevezett Kendall-féle tau-t adják meg, ezek közül bármelyiket választhatjuk (értékük ugyancsak -1 és +1 között mozoghat); mindegyiket az jellemzi, hogy a számoláshoz az eredeti értékek helyett a rangsorban elfoglalt helyüket veszi figyelembe. Ezért például egy nagyon kiugró adat ezek értékét csak kismértékben befolyásolja, ellentétben a szokásos korrelációval.

Amikor a vizsgálat célja annak az egyenesnek a meghatározása, amelynek segítségével adott x értékhez (független változó) az y (függő) változó (bizonyos értelemben) legjobb becslését kaphatjuk meg, lineáris regressziószámítást végzünk. Az egyenes meghatározandó paraméterei: a meredekség (b) és a tengelymetszet (a). A b azt mutatja meg, hogy az x változó egységnyi emelkedésével (például a testsúly 1 kg-os növekedésével) várhatóan hogyan változik az y (ebben a példában a testmagasság cm-ben kifejezett értéke). Ezt az egyenest az jellemzi, hogy a koordináta-rendszerben elhelyezkedő pontok és az egyenes között y irányban mért távolságnégyzetek összege a lehető legkisebb (legkisebb négyzetek módszere).

A regressziószámítás feltétele, hogy az y változó eloszlása minden x értéknél normális legyen, azonos szórással. Ez formálisan csak akkor ellenőrizhető, ha az egyes konkrét x értékekhez több (sőt lehetőleg legalább 10-15) y érték tartozik. A pontok ábrázolása segítséget nyújthat abban, hogy legalább a jelentős eltéréseket formális ellenőrzés nélkül is észrevegyük. Például, azonos esetszámokat véve, ha a pontok körülbelül egyforma szélességű sávot fednek le, a szórások egyenlőségének feltétele várhatóan teljesül. Kisebb esetszám viszont azonos szórás mellett szűkebb tartományt jelent. A szórások eltérése transzformációval (főként akkor, ha a normalitás sem teljesül) vagy súlyozott regresszió számításával korrigálható. Ugyancsak transzformáció alkalmazására van szükség abban az esetben, amikor két változó között van összefüggés, de az nem tekinthető lineárisnak. A leggyakrabban alkalmazott transzformációk a logaritmusos, exponenciális vagy hatványozás, ezeket szükség esetén akár a független, akár a függő, akár mindkét változóra alkalmazhatjuk. Regressziószámítással a következő eredményeket kaphatjuk:

- Az egyenes meredekségének becslése (b). Ennek értéke példánkban 0,153. Elvileg meghatározható ennek szórása, megbízhatósági intervalluma (bár ezeket a statisztikai programok általában nem számítják ki), illetve a 0 értéktől való eltérés szignifikanciája. A két változó közötti (lineáris) összefüggést akkor tekintjük igazoltnak, ha b szignifikáns (szignifikánsan eltér a 0-tól), illetve, ha a 95%-os megbízhatósági intervallum nem tartalmazza a 0-t. Fontos megemlíteni, hogy a b pontosan ugyanakkor és ugyanolyan mértékben szignifikáns, mint az r.

- A tengelymetszet becslése (a). Ez általában csak az egyenes megadásához szükséges, konkrét értéke nem nagyon számít. Példánkban a=160. Elvileg ennek is meghatározható a szórása, megbízhatósági intervalluma, illetve a 0 értéktől való eltérés szignifikanciája. Amennyiben ez szignifikáns, a két változó összefüggését leíró elméleti egyenes nem megy át az origón.

Példánkban tehát az egyenes egyenlete: Y=160+0,15×x, ahol x a testsúly mértéke, Y-nal viszont az adott testsúlyhoz tartozó, számított, más néven becsült testmagasságot jelöltük (ezért szerepel y helyett Y).

- Az egyenes körüli megbízhatósági sáv (1. ábra). Ez azt a tartományt adja meg, amelyben a két változó tényleges kapcsolatát leíró elméleti egyenes (amelynek a regressziószámítással kapott konkrét egyenes ugyanúgy becslése, mint például egy elméleti átlagnak a mintaátlag) pontjai nagy valószínűséggel benne vannak. Ez (az ábrán is sze-replő) sáv jellemzi legjobban azt, hogy milyen pontossággal sikerült a két változó közti összefüggést meghatározni. A sáv az x változó átlagának közelében a legkeskenyebb, vagyis az egyenes becslése ott a legpontosabb, a tartomány két szélén lényegesen szélesebb.

- Az egyenes körüli tolerancia- vagy predikciós sáv. Ez azt a tartományt adja meg, amelyben  egy tetszőleges x értékhez tartozó konkrét y érték nagy valószínűséggel benne van. Ez a sáv, amely ábránkon nem szerepel, általában lényegesen szélesebb, mint a megbízhatósági sáv.

A fenti jellemzők számításához szükséges képletek statisztikai kézikönyvekben megtalálhatók (2).

Legegyszerűbb esetben az x nem valószínűségi változó, vagyis tetszőlegesen megválasztható, a véletlen nem játszik szerepet az érték megadásánál. Ilyennek tekinthető a dózis-hatás vizsgálata, vagy a radioimmunoesszék kalibrációs görbéjének meghatározása. Ilyen esetben fel sem merül, hogy melyik változót tekintsük függetlennek és melyiket függőnek; mindig a másik változót kell függő változónak tekinteni. Ugyanakkor, ha például - mint esetünkben is - a testsúly és testmagasság közti összefüggést vizsgáljuk, mindkét jellemzőt tekinthetjük független és függő változónak is. Nagyon fontos, hogy - bármilyen meglepő is ez első hallásra - a kétféle választással két különböző regressziós egyenest kapunk. Minél kevésbé szoros a két változó közötti összefüggés, annál jobban eltér a kétféle számítás eredménye. Mindig azt a változót kell függőnek (vagyis y-nak) választani, amelyiknek az értékét a másik ismeretében meg akarom becsülni. Természetesen ez általában egybeesik az ok-okozati kapcsolat feltételezett irányával.

Regressziószámítási feladat esetén nem a  korreláció, hanem annak négyzete az, amely megfelelően interpretálható. Ez ugyanis azt adja meg, hogy hányad részével csökken a függő változó varianciája az eredetihez képest, ha az illesztett egyenestől való eltérések alapján számoljuk ki. Ezt úgy is szokás megfogalmazni, hogy az x változó az y variabilitásának (változékonyságának) mekkora részét "magyarázza". Jelölése: R2, értéke 0 és 1 közé esik, tehát negatív szám nem lehet. A nagybetű használatát az indokolja, hogy R2 értéke egynél több független változó esetén is megadható, és ebben az esetben R már nem jelent korrelációt. Az R2 itt már azt jelenti, hogy a független változók együttesen mekkora részét magyarázzák a függő változó variabilitásának.

Példánkban R2=0,2972=0,088. Látható, hogy nem túl szoros korreláció esetén annak négyzete lényegesen kisebb, mint maga a korrelációs együttható. Az R2 alapján  a testsúly a testmagasság variabilitásának kevesebb mint 10%-át magyarázza.

Összefoglalva: Korrelációs feladat esetén csak a korreláció értékét adjuk meg a szignifikanciaszinttel, esetleg a megbízhatósági határokkal együtt. Ábrázolás esetén csak a szórásdiagramot rajzoljuk fel, az illesztett egyenes nélkül. Regressziós feladat esetén a regressziós együtthatók értéke és a meredekség szignifikanciája mellett megadhatjuk az R2 értékét is. Az ábrán a pontok és az illesztett egyenes mellett érdemes feltüntetni az egyenes konfidenciasávját is.