Statistik - Lineare Regression

Sobald der Grad der Beziehung zwischen Variablen unter Verwendung der Ko-Beziehungsanalyse ermittelt wurde, ist es selbstverständlich, sich mit der Natur der Beziehung zu befassen. Die Regressionsanalyse hilft bei der Bestimmung der Ursache-Wirkungs-Beziehung zwischen Variablen. Es ist möglich, den Wert anderer Variablen (abhängige Variable genannt) vorherzusagen, wenn die Werte unabhängiger Variablen unter Verwendung einer grafischen Methode oder der algebraischen Methode vorhergesagt werden können.

Grafische Methode

Es wird ein Streudiagramm mit einer unabhängigen Variablen auf der X-Achse und einer abhängigen Variablen auf der Y-Achse gezeichnet. Danach wird eine Linie so gezeichnet, dass sie den größten Teil der Verteilung durchläuft, wobei die verbleibenden Punkte fast gleichmäßig auf beiden Seiten der Linie verteilt sind.

Eine Regressionsgerade ist als Best-Fit-Gerade bekannt, die die allgemeine Datenbewegung zusammenfasst. Es zeigt die besten Mittelwerte einer Variablen, die den Mittelwerten der anderen Variablen entsprechen. Die Regressionslinie basiert auf den Kriterien, dass es sich um eine gerade Linie handelt, die die Summe der quadratischen Abweichungen zwischen den vorhergesagten und den beobachteten Werten der abhängigen Variablen minimiert.

Algebraische Methode

Die algebraische Methode entwickelt zwei Regressionsgleichungen von X auf Y und Y auf X.

Regressionsgleichung von Y auf X

$ {Y = a + bX} $

Wo -

  • $ {Y} $ = Abhängige Variable

  • $ {X} $ = Unabhängige Variable

  • $ {a} $ = Konstante, die den Y-Achsenabschnitt anzeigt

  • $ {b} $ = Konstante, die die Neigung der Linie anzeigt

Die Werte von a und b werden durch die folgenden normalen Gleichungen erhalten:

$ {\ sum Y = Na + b \ sum X \\ [7pt] \ sum XY = a \ sum X + b \ sum X ^ 2} $

Wo -

  • $ {N} $ = Anzahl der Beobachtungen

Regressionsgleichung von X auf Y

$ {X = a + bY} $

Wo -

  • $ {X} $ = Abhängige Variable

  • $ {Y} $ = Unabhängige Variable

  • $ {a} $ = Konstante, die den Y-Achsenabschnitt anzeigt

  • $ {b} $ = Konstante, die die Neigung der Linie anzeigt

Die Werte von a und b werden durch die folgenden normalen Gleichungen erhalten:

$ {\ summe X = Na + b \ summe Y \\ [7pt] \ summe XY = a \ summe Y + b \ summe Y ^ 2} $

Wo -

  • $ {N} $ = Anzahl der Beobachtungen

Beispiel

Problemstellung:

Ein Forscher hat herausgefunden, dass es einen Zusammenhang zwischen den Gewichtstendenzen von Vater und Sohn gibt. Er ist nun daran interessiert, aus den gegebenen Daten eine Regressionsgleichung für zwei Variablen zu entwickeln:

Gewicht des Vaters (in kg) 69 63 66 64 67 64 70 66 68 67 65 71
Gewicht des Sohnes (in kg) 70 65 68 65 69 66 68 65 71 67 64 72

Sich entwickeln

  1. Regressionsgleichung von Y auf X.

  2. Regressionsgleichung von auf Y.

Lösung:

$ {X} $ $ {X ^ 2} $ $ {Y} $ $ {Y ^ 2} $ $ {XY} $
69 4761 70 4900 4830
63 3969 65 4225 4095
66 4356 68 4624 4488
64 4096 65 4225 4160
67 4489 69 4761 4623
64 4096 66 4356 4224
70 4900 68 4624 4760
66 4356 65 4225 4290
68 4624 71 5041 4828
67 4489 67 4489 4489
65 4225 64 4096 4160
71 5041 72 5184 5112
$ {\ sum X = 800} $ $ {\ sum X ^ 2 = 53,402} $ $ {\ sum Y = 810} $ $ {\ sum Y ^ 2 = 54.750} $ $ {\ sum XY = 54.059} $

Regressionsgleichung von Y auf X

Y = a + bX

Wobei a und b durch normale Gleichungen erhalten werden

$ {\ summe Y = Na + b \ summe X \\ [7pt] \ summe XY = a \ summe X + b \ summe X ^ 2 \\ [7pt] Wobei \ \ summe Y = 810, \ summe X = 800 , \ sum X ^ 2 = 53,402 \\ [7pt], \ sum XY = 54, 049, N = 12} $

$ {\ Rightarrow} $ 810 = 12a + 800b ... (i)

$ {\ Rightarrow} $ 54049 = 800a + 53402 b ... (ii)

Multipliziert man Gleichung (i) mit 800 und Gleichung (ii) mit 12, so erhält man:

96000 a + 640000 b = 648000 ... (iii)

96000 a + 640824 b = 648588 ... (iv)

Subtrahieren von Gleichung (iv) von (iii)

-824 b = -588

$ {\ Rightarrow} $ b = -.0713

Einsetzen des Wertes von b in Gl. (ich)

810 = 12a + 800 (-0,713)

810 = 12a + 570,4

12a = 239,6

$ {\ Rightarrow} $ a = 19,96

Daher kann die Gleichung Y auf X geschrieben werden als

$ {Y = 19,96 - 0,713X} $

Regressionsgleichung von Y auf X

X = a + bY

Wobei a und b durch normale Gleichungen erhalten werden

$ {\ summe X = Na + b \ summe Y \\ [7pt] \ summe XY = a \ summe Y + b \ summe Y ^ 2 \\ [7pt] Wobei \ \ summe Y = 810, \ summe Y ^ 2 = 54.750 \\ [7pt], \ sum XY = 54.049, N = 12} $

$ {\ Rightarrow} $ 800 = 12a + 810a + 810b ... (V)

$ {\ Rightarrow} $ 54.049 = 810a + 54, 750 ... (vi)

Multipliziert man Gleichung (v) mit 810 und Gleichung (vi) mit 12, so erhält man

9720 a + 656100 b = 648000 ... (vii)

9720 a + 65700 b = 648588 ... (viii)

Subtrahieren von Gleichung viii von Gleichung vii

900b = -588

$ {\ Rightarrow} $ b = 0.653

Einsetzen des Wertes von b in Gleichung (v)

800 = 12a + 810 (0,653)

12a = 271,07

$ {\ Rightarrow} $ a = 22.58

Daher ist die Regressionsgleichung von X und Y

$ {X = 22,58 + 0,653Y} $