Lineær regresjon

Eksempel på en linje (rød) bygget ved hjelp av lineær regresjon

Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.


Gitte opplysninger og antagelser

Man har gitt en mengde datapunkter på formen ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) {\displaystyle (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})} hvor minst 2 xi er forskjellige og man ønsker å finne en funksjon y = f ( x ) {\displaystyle y=f(x)} som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

f ( x ) = i = 0 n a i x i = a 0 + a 1 x + + a n x n {\displaystyle f(x)=\sum _{i=0}^{n}a_{i}x^{i}=a_{0}+a_{1}x+\dots +a_{n}x^{n}}

og det er koeffisientene ai som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a0 og a1 er 0.


Minste kvadraters metode for rett linje

For n gitte datapunkter ønsker man å finne en linje på formen

y = a 0 + a 1 x {\displaystyle y=a_{0}+a_{1}x}

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

| y j ( a 0 + a 1 x j ) | {\displaystyle |y_{j}-(a_{0}+a_{1}x_{j})|}

for alle j, og deretter bestemnme a0 og a1 slik at man minimaliserer summen av kvadratene av disse, dvs

min a 0 , a 1 q = ( j = 1 n ( y j a 0 a 1 x j ) 2 ) {\displaystyle \min _{a_{0},a_{1}}q=\left(\sum _{j=1}^{n}(y_{j}-a_{0}-a_{1}x_{j})^{2}\right)}

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

q a 0 = 0 o g q a 1 = 0 {\displaystyle {\frac {\partial q}{\partial a_{0}}}=0\quad og\quad {\frac {\partial q}{\partial a_{1}}}=0}

Ved å derivere uttrykket for q med hensyn på a0 og a1 (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

y y ¯ = k 1 ( x x ¯ ) {\displaystyle y-{\bar {y}}=k_{1}(x-{\bar {x}})}

hvor

x ¯ = 1 n i = 1 n x i , y ¯ = 1 n i = 1 n y i , o g k 1 = s x y s x 2 {\displaystyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i},\quad {\bar {y}}={\frac {1}{n}}\sum _{i=1}^{n}y_{i},\quad og\quad k_{1}={\frac {s_{xy}}{s_{x^{2}}}}}

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

s x y = 1 n 1 i = 1 n ( x i x ¯ ) ( y i y ¯ ) = 1 n 1 [ i = 1 n x i y i 1 n ( i = 1 n x i ) ( j = 1 n y j ) ] {\displaystyle s_{xy}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})={\frac {1}{n-1}}\left[\sum _{i=1}^{n}x_{i}y_{i}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)\left(\sum _{j=1}^{n}y_{j}\right)\right]}

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)

s x 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 = 1 n 1 [ i = 1 n x i 2 1 n ( i = 1 n x i ) 2 ] {\displaystyle s_{x}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}={\frac {1}{n-1}}\left[\sum _{i=1}^{n}x_{i}^{2}-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)^{2}\right]}


Utledning av formelen for regresjonslinjen

Ved å utføre de to derivasjonene får man

q a 0 = 2 i = 1 n ( y i a 0 a 1 x i ) o g q a 1 = 2 i = 1 n x i ( y i a 0 a 1 x i ) {\displaystyle {\frac {\partial q}{\partial a_{0}}}=-2\sum _{i=1}^{n}(y_{i}-a_{0}-a_{1}x_{i})\quad og\quad {\frac {\partial q}{\partial a_{1}}}=-2\sum _{i=1}^{n}x_{i}(y_{i}-a_{0}-a_{1}x_{i})}

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

a 0 n + a 1 x i = y i a 0 x i + a 1 x i 2 = x i y i {\displaystyle {\begin{array}{c}a_{0}n+a_{1}\sum x_{i}=\sum y_{i}\\a_{0}\sum x_{i}+a_{1}\sum x_{i}^{2}=\sum x_{i}y_{i}\end{array}}}

Dette systemet av to ukjente har en determinant

| n x i x i x i 2 | = n x i 2 ( x i ) 2 = n ( n 1 ) s x 2 = n ( x i x ¯ ) 2 {\displaystyle \left|{\begin{array}{cc}n&\sum x_{i}\\\sum x_{i}&\sum x_{i}^{2}\end{array}}\right|=n\sum x_{i}^{2}-\left(\sum x_{i}\right)^{2}=n(n-1)s_{x}^{2}=n\sum (x_{i}-{\bar {x}})^{2}}

som er ulik 0 på grunn av antakelsen om minst to forskjellige xi og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man a 0 = y ¯ a 1 x ¯ {\displaystyle a_{0}={\bar {y}}-a_{1}{\bar {x}}} som sammen med y = a 0 + a 1 x {\displaystyle y=a_{0}+a_{1}x} gir den ønskede regresjonskurven

y y ¯ = a 1 ( x x ¯ ) {\displaystyle y-{\bar {y}}=a_{1}(x-{\bar {x}})}

Eliminasjonsmetoden gir uttrykket

a 1 = k 1 = n x i y i x i y j n ( n 1 ) s x 2 {\displaystyle a_{1}=k_{1}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{j}}{n(n-1)s_{x}^{2}}}}

Hvor godt passer linjen til punktene

Når man har funnet den regresjonslinjen som passer best til punktene, bør man beregne hvor godt den passer. Det enkleste målet som er vanlig å benytte er korrelasjonskoeffisienten R2. En R2-verdi nær 1 (nær 100 %) angir at regresjonslinjen passer veldig bra, mens en verdi nær null angir at linjen ikke passer.[2] Pearsons korrelasjonskoeffisient er et annet mye brukt mål.[3]

Referanser

  1. ^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
  2. ^ A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8. 
  3. ^ Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0. 
Oppslagsverk/autoritetsdata
MathWorld · GND