Multiple lineare Regression - MLR

Was ist 'Multiple lineare Regression - MLR'

Die multiple lineare Regression (MLR) ist eine statistische Methode, die mehrere erklärende Variablen verwendet, um das Ergebnis einer Antwortvariablen vorherzusagen. Das Ziel der multiplen linearen Regression (MLR) besteht darin, die Beziehung zwischen den Erklärungs- und Antwortvariablen zu modellieren.

Das Modell für MLR bei n Beobachtungen ist:

y i = B 0 + B 1 x i1 > + B 2 x i2 + ... + B p x ip + E wobei i = 1, 2, ..., n < ABBRUCH 'Multiple lineare Regression - MLR' Eine einfache lineare Regression ist eine Funktion, die es einem Analysten oder Statistiker ermöglicht, Vorhersagen über eine Variable basierend auf den Informationen zu treffen, die über eine andere Variable bekannt sind. .. Die lineare Regression kann nur verwendet werden, wenn zwei kontinuierliche Variablen vorhanden sind - eine unabhängige Variable und eine abhängige Variable. Die unabhängige Variable ist der Parameter, der zum Berechnen der abhängigen Variablen oder des Ergebnisses verwendet wird. Zum Beispiel möchte ein Analyst wissen, wie sich die Marktbewegungen auf den Preis von Exxon Mobil (XOM) auswirken. In diesem Fall hat seine lineare Gleichung den Wert von S & P 500 als unabhängige Variable oder Prädiktor und den Preis von XOM als abhängige Variable.

In der Realität gibt es mehrere Faktoren, die das Ergebnis eines Ereignisses vorhersagen. Die Preisentwicklung von Exxon Mobil zum Beispiel hängt nicht nur von der Performance des Gesamtmarktes ab. Andere Prädiktoren wie der Ölpreis, die Zinssätze und die Preisentwicklung von Öl-Futures können den Preis von XOM und die Aktienkurse anderer Ölgesellschaften beeinflussen. Um eine Beziehung zu verstehen, in der mehr als zwei Variablen vorhanden sind, wird eine multiple lineare Regression verwendet.

Multiple lineare Regression (MLR) wird verwendet, um eine mathematische Beziehung zwischen einer Anzahl von Zufallsvariablen zu bestimmen. Mit anderen Worten, MLR untersucht, wie sich mehrere unabhängige Variablen auf eine abhängige Variable beziehen. Sobald jeder der unabhängigen Faktoren bestimmt wurde, um die abhängige Variable vorherzusagen, kann die Information über die mehreren Variablen verwendet werden, um eine genaue Vorhersage über die Wirkungsebene zu erzeugen, die sie auf die Ergebnisvariable haben. Das Modell erstellt eine Beziehung in Form einer geraden Linie (linear), die alle einzelnen Datenpunkte am besten approximiert.

Das Modell für multiple lineare Regression ist: y

i

= B

0

+ B 1 x i1 + B 2 x i2 + ... + B p x ip + E wobei y i = abhängige Variable - Preis von XOM x

i1 = unabhängige Variable - Zinssätze x

i2 = unabhängige Variable - Ölpreis x

i3 = unabhängige Variable - Wert von S & P 500 Index x

i4 = unabhängige Variable - Preis von Öl-Futures E = zufälliger Fehler bei der Vorhersage, dh Varianz, die vom Modell nicht genau vorhergesagt werden kann.Auch als Residuen bekannt.

B 0

= y-Achsenabschnitt zum Zeitpunkt Null.

B

1 = Regressionskoeffizient, der eine Einheitsänderung in der abhängigen Variablen misst, wenn sich x i1

ändert - Änderung des XOM-Preises bei Änderung der Zinssätze B2 = Koeffizientwert, der misst eine Einheitenänderung in der abhängigen Variablen, wenn sich x i2 ändert - Änderung des XOM-Preises, wenn sich der Ölpreis ändert Etc.

Die Schätzungen der kleinsten Quadrate, B 0 , B

1

, B 2 ... B p , werden üblicherweise durch statistische Software berechnet. Es können so viele Variablen in das Regressionsmodell einbezogen werden, in denen jede unabhängige Variable mit einer Zahl - 1, 2, 3, 4 ... p - differenziert wird. Das multiple Regressionsmodell ermöglicht es einem Analysten, ein Ergebnis auf der Grundlage von Informationen vorherzusagen, die auf mehreren erklärenden Variablen bereitgestellt werden. Dennoch ist das Modell nicht immer perfekt genau, da jeder Datenpunkt etwas von dem vom Modell vorhergesagten Ergebnis abweichen kann. Der Restwert E, der die Differenz zwischen dem tatsächlichen Ergebnis und dem vorhergesagten Ergebnis darstellt, ist in dem Modell enthalten, um solche geringfügigen Schwankungen zu berücksichtigen.

Das multiple Regressionsmodell basiert auf den folgenden Annahmen: Es besteht eine lineare Beziehung zwischen den abhängigen Variablen und den unabhängigen Variablen Die unabhängigen Variablen sind nicht zu stark miteinander korreliert y

i

Beobachtungen werden unabhängig und zufällig aus der Population ausgewählt

  • Residuen sollten normal mit einem Mittelwert von 0 und einer Varianz
  • σ
  • Der Koeffizient der Bestimmung, R-squared oder R 2
  • , ist eine statistische Metrik, die verwendet wird, um zu messen, wie viel der Variation im Ergebnis durch die Variation der unabhängigen Variablen. R 2
nimmt immer zu, wenn dem MLR-Modell mehr Prädiktoren hinzugefügt werden, obwohl die Prädiktoren nicht mit der Ergebnisvariablen in Beziehung stehen. Daher kann R 2 999 selbst nicht verwendet werden, um zu identifizieren, welche Prädiktoren in einem Modell enthalten sein sollten und welche ausgeschlossen werden sollten. R

2 kann nur zwischen 0 und 1 liegen, wobei 0 angibt, dass das Ergebnis von keiner der unabhängigen Variablen vorhergesagt werden kann und 1 angibt, dass das Ergebnis ohne Fehler von den unabhängigen Variablen vorhergesagt werden kann.

Angenommen, wir führen unser XOM-Preisregressionsmodell über eine Statistikberechnungssoftware aus, die diese Ausgabe zurückgibt: Ein Analyst würde diese Ausgabe dahingehend interpretieren, dass wenn andere Variablen konstant gehalten werden, der Preis von XOM Anstieg um 7,8%, wenn der Ölpreis in den Märkten um 1% steigt. Das Modell zeigt auch, dass der Preis von XOM nach einem Anstieg der Zinssätze um 1% um 1,5% sinken wird. R 2 gibt an, dass 86,5% der Kursschwankungen von Exxon Mobil durch Änderungen des Zinssatzes, des Ölpreises, der Öl-Futures und des S & P 500 Index erklärt werden können.