Hopp til innhold

Lineær regresjon

Fra Wikipedia, den frie encyklopedi
Eksempel på en linje (rød) bygget ved hjelp av lineær regresjon

Innenfor matematikken betyr lineær regresjon at man ønsker å finne den lineære funksjonen hvis kurve/graf passer best med innsamlede data, som inneholder en eller annen statistisk feilkilde også kalt residual. Lineær regresjon brukes ofte for å lage prognoser.


Gitte opplysninger og antagelser

[rediger | rediger kilde]

Man har gitt en mengde datapunkter på formen hvor minst 2 xi er forskjellige og man ønsker å finne en funksjon som på best mulig måte passer med de gitte datapunktene. For denne oppgaven formulerer man Gauss' minste kvadraters metode som følger:

Minste kvadraters prinsipp. [...] linjen skal trekkes gjennom de gitte punktene slik at summen av kvadratene av avstandene fra disse punktene til linjen minimeres, hvor avstanden måles i vertikalretningen (y-retningen).[1]

Funksjonen man søker antas å være lineær, hvilket betyr at den uttrykkes matematisk som

og det er koeffisientene ai som man ønsker å bestemme. Hvis man ønsker en rett linje betyr at alle koeffisientene unntatt a0 og a1 er 0.


Minste kvadraters metode for rett linje

[rediger | rediger kilde]

For n gitte datapunkter ønsker man å finne en linje på formen

Som angitt i minste kvadraters prinsipp ovenfor ønsker man å beregne

for alle j, og deretter bestemnme a0 og a1 slik at man minimaliserer summen av kvadratene av disse, dvs

Fra elementær analyse er det kjent at de nødvendige kravene for at dette er et bunnpunkt er

Ved å derivere uttrykket for q med hensyn på a0 og a1 (se detaljer i underavsnittet) kommer man til slutt frem til at regresjonslinjen har formelen

hvor

Teller og nevner i regresjonskoeffisienten til linjen kalles utvalgets kovarians

og variansen til x verdiene (merk at dette ikke er helt riktig da x er å betrakte som en ordinær og ikke tilfeldig variabel)


Utledning av formelen for regresjonslinjen

[rediger | rediger kilde]

Ved å utføre de to derivasjonene får man

Ved å dividere på 2 skrive ut hver sum for seg og stokke om på uttrykkene får man de såkalte normalligningene

Dette systemet av to ukjente har en determinant

som er ulik 0 på grunn av antakelsen om minst to forskjellige xi og garanterer derfor at løsningen eksisterer og er unik. Ved å dividere den første ligningen med n og omskriving ved hjelp av gjennomsnittsformlene får man som sammen med gir den ønskede regresjonskurven

Eliminasjonsmetoden gir uttrykket

Hvor godt passer linjen til punktene

[rediger | rediger kilde]

Når man har funnet den regresjonslinjen som passer best til punktene, bør man beregne hvor godt den passer. Det enkleste målet som er vanlig å benytte er korrelasjonskoeffisienten R2. En R2-verdi nær 1 (nær 100 %) angir at regresjonslinjen passer veldig bra, mens en verdi nær null angir at linjen ikke passer.[2] Pearsons korrelasjonskoeffisient er et annet mye brukt mål.[3]

Referanser

[rediger | rediger kilde]
  1. ^ E. Kreyszig – Advanced engineering mathematics, 8th edition, John Wiley & sons inc. 1999
  2. ^ A. H. Studenmund (1997). Using Econometrics: A Practical Guide. Addison-Wesley. s. 50-52, 414. ISBN 0-673-52486-8. 
  3. ^ Fred Wenstøp (1994). Statistikk og dataanalyse. Tano. s. 424. ISBN 82-518-2938-0.