Monday, November 14, 2016

Autoregressive moving average unterschied

Vor 1970 verwendeten Ökonometriker und Zeitreihenanalytiker weitgehend unterschiedliche Methoden, um eine Zeitreihe zu modellieren. Ökonometriker modellierten Zeitreihen sind eine standardmäßige lineare Regression mit erläuternden Variablen, die durch ökonomische Theorie / Intuition vorgeschlagen werden, um die Bewegungen in Zeitreihendaten zu erklären. Sie nahmen an, dass die Zeitreihen, die nicht stationär waren (wachsende Überstunden), keinen Einfluss auf ihre empirische Analyse hatten. Zeitreihenanalysten dagegen ignorierten diese traditionelle ökonometrische Analyse. Sie modellierten eine Zeitreihe als Funktion ihrer bisherigen Werte. Sie arbeiteten um das Problem der Nichtstationarität, indem sie die Daten differenzierten, um sie stationär zu machen. Dann geschah Clive Granger und Paul Newbold 1. Ökonometriker waren gezwungen, Aufmerksamkeit auf Methoden von Zeitreihenanalytikern zu lenken, der berühmteste davon war der von George P Box und Gwilym Jenkins entwickelte BoxJenkins-Ansatz, der in ihrer legendären Monographie Time Series Analysis veröffentlicht wurde : Vorhersage und Kontrolle 2. Box und Jenkins behaupteten (erfolgreich), dass nichtstationäre Daten durch Differenzierung der Serie stationär gemacht werden können. Diese Serie, mathY / math ist die Eingabe in Box-Jenkins-Analyse. Das allgemeine Modell für mathY / math wird als, mathYphi1Y phi2Y geschrieben. Phipy epsilonttheta1epsilon theta2epsilon. Thetaqepsilon / math, wobei mathphi / mathematik und maththeta / mathematik unbekannte Parameter sind und mathepsilon / mathematisch unabhängige identisch verteilte Fehlerterme mit Nullmittelwert sind. Hier wird mathY / math nur in Form seiner Vergangenheitswerte und der aktuellen und vergangenen Werte der Fehlerterme ausgedrückt. Dieses Modell wird als Autoregressive Integrated Moving Average oder mathARIMA (p, d, q) / mathematische Modell von mathY. p / math die Anzahl der verzögerten Werte von mathY / math, die die autoregressive (AR) Natur des Modells, mathq / math darstellt Ist die Anzahl der verzögerten Werte des Fehlerterms, der den gleitenden Durchschnitt (MA) des Modells repräsentiert und mathd / math ist die Anzahl, in der mathY / math Differenzen aufweisen muss, um die stationäre Mathematik / Mathematik zu erzeugen. Der Begriff integriert bedeutet, dass, um eine Prognose von Mathematik / Mathematik zu erhalten. Müssen wir die Werte von mathY / math addieren (oder integrieren), weil mathY / math die differen - zierten Werte der ursprünglichen Reihe mathY sind. / Math Wenn keine Differencing beteiligt ist, wird dieses Modell als autoregressive Moving Average mathARMA (p, q) / math mit mathp / math und mathq / math beibehalten ihre ursprüngliche Bedeutung und keine mathd. / Mathematik Der Ausdruck mathARIMA / math oder mathARMA / math ist sehr verwirrend, weil beide mathematische Formate die mathematischen / mathematischen und mathematischen / mathematischen Komponenten haben. Es handelt sich dabei um lineare Kombinationen von aktuellen und vergangenen Werten zufälliger Variablen. Die mathAR / math-Komponente ist die lineare Kombination von beobachtbaren Werten von mathY / math, während die mathMA / math-Komponente die lineare Kombination der nicht beobachtbaren weißen Rauschstörungsterme ist. Dies ist nur eine der Trivialitäten, die Sie sich mit der Zeit gewöhnen würde. Ökonometriker ignorierten zunächst den Ansatz von Box-Jenkins, mussten aber auf sie aufmerksam machen, wenn sie mathARIMA / mathematische Prognosen begannen, die Prognosen konsequent auf der Basis einer ökonometrischen Modellierung zu übertreffen. Das Fehlen einer soliden Wirtschaftstheorie hinter der Mathematik / Mathematik war für die Ökonometriker beunruhigend zu akzeptieren. Sie reagierten, indem sie eine andere Klasse von Modellen entwickelten, die auroregressive und gleitende Durchschnittskomponenten des Box-Jenkins-Ansatzes mit dem erklärenden Variablenansatz der Standardökonometrie einflossen. Das einfachste dieser Modelle ist die Mathematik / Mathematik, die nur eine Mathematik / Mathematik mit zusätzlichen Erklärungsvariablen der ökonomischen Theorie ist. Ein Standard mathARIMAX / math würde als geschrieben werden, mathYbeta. X phi1Y phi2Y. Phipy epsilonttheta1epsilon theta2epsilon. Thetaqepsilon / math wobei mathX / math jede ökonomische Variable sein kann. 3k Ansichten middot Ansicht Upvotes middot Nicht für Fortpflanzung Schauen Sie auf diesen Link: 8 ARIMA Modelle OTexts Dies ist das Kapitel gewidmet ARIMA Modelle aus einem fantastischen kostenlosen Online-Lehrbuch über Zeitreihen Vorhersage von Rob J Hyndman P Ordnung der autoregressive Teil . Das ist die Anzahl der unbekannten Begriffe, die Ihr Signal verdoppeln zu vergangenen Zeiten (so viele vergangene Zeiten als Ihr Wert p) D Grad der ersten Differenzierung beteiligt. Anzahl, die Sie haben, um Ihre Zeitreihe zu unterscheiden, um einen stationären einen Q Auftrag des gleitenden durchschnittlichen Teils zu haben. Dies ist die Anzahl der unbekannten Begriffe, die Ihre Prognosefehler zu vergangenen Zeiten multiplizieren (so viele vergangene Zeiten als Ihr Wert q) Es gibt gute Techniken, um alle diese Parameter zu schätzen (basierend auf den Autokorrelation - ACF - und partiellen Autokorrelationsfunktionen - PACF): Und der Prozess kann komplex und zeitintensiv sein, noch mehr, wenn Sie viele Zeitreihen zu behandeln haben. In R gibt es eine Funktion namens auto. arima im Prognosepaket, die alle diese Parameter automatisch auswertet, auch die Saisonalität Teil (zusätzliche Werte zu berechnen, falls es Saisonalität in Ihrer Zeitreihe). 1.8k Views middot Ansicht Upvotes middot Nicht für ReproductionA RIMA steht für Autoregressive Integrated Moving Average Modelle. Univariate (Einzelvektor) ARIMA ist eine Prognosemethode, die die zukünftigen Werte einer Serie, die vollständig auf ihrer eigenen Trägheit basiert, projiziert. Seine Hauptanwendung liegt im Bereich der kurzfristigen Prognose mit mindestens 40 historischen Datenpunkten. Es funktioniert am besten, wenn Ihre Daten eine stabile oder konsistente Muster im Laufe der Zeit mit einem Minimum an Ausreißern zeigt. Manchmal nennt man Box-Jenkins (nach den ursprünglichen Autoren), ARIMA ist in der Regel überlegen exponentielle Glättung Techniken, wenn die Daten relativ lange und die Korrelation zwischen vergangenen Beobachtungen ist stabil. Wenn die Daten kurz oder stark flüchtig sind, kann eine gewisse Glättungsmethode besser ablaufen. Wenn Sie nicht über mindestens 38 Datenpunkte verfügen, sollten Sie eine andere Methode als ARIMA betrachten. Der erste Schritt bei der Anwendung der ARIMA-Methodik ist die Überprüfung der Stationarität. Stationarität impliziert, dass die Reihe auf einem ziemlich konstanten Niveau über Zeit bleibt. Wenn ein Trend besteht, wie in den meisten wirtschaftlichen oder geschäftlichen Anwendungen, dann sind Ihre Daten nicht stationär. Die Daten sollten auch eine konstante Varianz in ihren Schwankungen im Laufe der Zeit zeigen. Dies ist leicht zu sehen mit einer Serie, die stark saisonal und wächst mit einer schnelleren Rate. In einem solchen Fall werden die Höhen und Tiefen der Saisonalität im Laufe der Zeit dramatischer. Ohne dass diese Stationaritätsbedingungen erfüllt sind, können viele der mit dem Prozess verbundenen Berechnungen nicht berechnet werden. Wenn eine grafische Darstellung der Daten Nichtstationarität anzeigt, dann sollten Sie die Serie unterscheiden. Die Differenzierung ist eine hervorragende Möglichkeit, eine nichtstationäre Serie in eine stationäre zu transformieren. Dies geschieht durch Subtrahieren der Beobachtung in der aktuellen Periode von der vorherigen. Wenn diese Transformation nur einmal zu einer Reihe erfolgt, sagen Sie, dass die Daten zuerst unterschieden wurden. Dieser Prozess im Wesentlichen eliminiert den Trend, wenn Ihre Serie wächst mit einer ziemlich konstanten Rate. Wenn es mit steigender Rate wächst, können Sie das gleiche Verfahren anwenden und die Daten erneut differenzieren. Ihre Daten würden dann zweite differenziert werden. Autokorrelationen sind Zahlenwerte, die angeben, wie sich eine Datenreihe mit der Zeit auf sich bezieht. Genauer gesagt misst es, wie stark Datenwerte bei einer bestimmten Anzahl von Perioden auseinander über die Zeit miteinander korreliert werden. Die Anzahl der Perioden wird in der Regel als Verzögerung bezeichnet. Zum Beispiel misst eine Autokorrelation bei Verzögerung 1, wie die Werte 1 Periode auseinander in der Reihe miteinander korreliert sind. Eine Autokorrelation bei Verzögerung 2 misst, wie die Daten, die zwei Perioden voneinander getrennt sind, über die gesamte Reihe miteinander korrelieren. Autokorrelationen können im Bereich von 1 bis -1 liegen. Ein Wert nahe 1 gibt eine hohe positive Korrelation an, während ein Wert nahe -1 impliziert eine hohe negative Korrelation. Diese Maßnahmen werden meist durch grafische Darstellungen, sogenannte Korrelagramme, ausgewertet. Ein Korrelationsdiagramm zeigt die Autokorrelationswerte für eine gegebene Reihe bei unterschiedlichen Verzögerungen. Dies wird als Autokorrelationsfunktion bezeichnet und ist bei der ARIMA-Methode sehr wichtig. Die ARIMA-Methodik versucht, die Bewegungen in einer stationären Zeitreihe als Funktion der so genannten autoregressiven und gleitenden Durchschnittsparameter zu beschreiben. Diese werden als AR-Parameter (autoregessiv) und MA-Parameter (gleitende Mittelwerte) bezeichnet. Ein AR-Modell mit nur einem Parameter kann als geschrieben werden. X (t) A (1) X (t-1) E (t) wobei X (t) Zeitreihen A (1) der autoregressive Parameter der Ordnung 1 X (t-1) (T) der Fehlerterm des Modells Dies bedeutet einfach, daß jeder gegebene Wert X (t) durch eine Funktion seines vorherigen Wertes X (t-1) plus einen unerklärlichen Zufallsfehler E (t) erklärt werden kann. Wenn der geschätzte Wert von A (1) 0,30 betrug, dann wäre der aktuelle Wert der Reihe mit 30 seines vorherigen Wertes 1 verknüpft. Natürlich könnte die Serie auf mehr als nur einen vergangenen Wert bezogen werden. Zum Beispiel ist X (t) A (1) X (t-1) A (2) X (t-2) E (t) Dies zeigt an, dass der aktuelle Wert der Reihe eine Kombination der beiden unmittelbar vorhergehenden Werte ist, X (t-1) und X (t-2) zuzüglich eines Zufallsfehlers E (t). Unser Modell ist nun ein autoregressives Modell der Ordnung 2. Moving Average Models: Eine zweite Art von Box-Jenkins-Modell wird als gleitendes Durchschnittsmodell bezeichnet. Obwohl diese Modelle dem AR-Modell sehr ähnlich sind, ist das Konzept dahinter ganz anders. Bewegliche Durchschnittsparameter beziehen sich auf das, was in der Periode t stattfindet, nur auf die zufälligen Fehler, die in vergangenen Zeitperioden aufgetreten sind, dh E (t-1), E (t-2) usw. anstatt auf X (t-1), X T-2), (Xt-3) wie in den autoregressiven Ansätzen. Ein gleitendes Durchschnittsmodell mit einem MA-Begriff kann wie folgt geschrieben werden. X (t) - B (1) E (t-1) E (t) Der Begriff B (1) wird als MA der Ordnung 1 bezeichnet. Das negative Vorzeichen vor dem Parameter wird nur für Konventionen verwendet und in der Regel ausgedruckt Automatisch von den meisten Computerprogrammen. Das obige Modell sagt einfach, dass jeder gegebene Wert von X (t) direkt nur mit dem Zufallsfehler in der vorherigen Periode E (t-1) und mit dem aktuellen Fehlerterm E (t) zusammenhängt. Wie im Fall von autoregressiven Modellen können die gleitenden Durchschnittsmodelle auf übergeordnete Strukturen mit unterschiedlichen Kombinationen und gleitenden mittleren Längen erweitert werden. Die ARIMA-Methodik erlaubt es auch, Modelle zu erstellen, die sowohl autoregressive als auch gleitende Durchschnittsparameter zusammenführen. Diese Modelle werden oft als gemischte Modelle bezeichnet. Obwohl dies für eine kompliziertere Prognose-Tool macht, kann die Struktur tatsächlich simulieren die Serie besser und produzieren eine genauere Prognose. Pure Modelle implizieren, dass die Struktur nur aus AR oder MA-Parameter besteht - nicht beides. Die Modelle, die von diesem Ansatz entwickelt werden, werden in der Regel als ARIMA-Modelle bezeichnet, da sie eine Kombination aus autoregressiver (AR), Integration (I) verwenden, die sich auf den umgekehrten Prozess der Differenzierung bezieht, um die Prognose zu erzeugen. Ein ARIMA-Modell wird üblicherweise als ARIMA (p, d, q) angegeben. Dies ist die Reihenfolge der autoregressiven Komponenten (p), der Anzahl der differenzierenden Operatoren (d) und der höchsten Ordnung des gleitenden Mittelwerts. Beispielsweise bedeutet ARIMA (2,1,1), dass Sie ein autoregressives Modell zweiter Ordnung mit einer gleitenden mittleren Komponente erster Ordnung haben, deren Serie einmal differenziert wurde, um die Stationarität zu induzieren. Auswahl der richtigen Spezifikation: Das Hauptproblem in der klassischen Box-Jenkins versucht zu entscheiden, welche ARIMA-Spezifikation zu verwenden - i. e. Wie viele AR - und / oder MA-Parameter eingeschlossen werden sollen. Dies ist, was viel von Box-Jenkings 1976 dem Identifikationsprozeß gewidmet wurde. Es hing von der graphischen und numerischen Auswertung der Stichprobenautokorrelation und der partiellen Autokorrelationsfunktionen ab. Nun, für Ihre grundlegenden Modelle, ist die Aufgabe nicht allzu schwierig. Jeder hat Autokorrelationsfunktionen, die eine bestimmte Weise aussehen. Allerdings, wenn Sie gehen in der Komplexität, die Muster sind nicht so leicht zu erkennen. Um es schwieriger zu machen, stellen Ihre Daten nur eine Probe des zugrundeliegenden Prozesses dar. Das bedeutet, dass Stichprobenfehler (Ausreißer, Messfehler etc.) den theoretischen Identifikationsprozess verzerren können. Deshalb ist die traditionelle ARIMA-Modellierung eher eine Kunst als eine Wissenschaft. Autoregressive Moving Average Fehlerprozesse 13 13 13 13 13 13 Autoregressive Moving Average Fehlerprozesse (ARMA-Fehler) und andere Modelle mit Lags von Fehlertermen können mit FIT-Anweisungen geschätzt und simuliert werden Oder Prognosen mit SOLVE-Anweisungen. ARMA-Modelle für den Fehlerprozess werden oft für Modelle mit autokorrelierten Residuen verwendet. Mit dem AR-Makro können Modelle mit autoregressiven Fehlerprozessen spezifiziert werden. Mit dem MA-Makro können Sie Modelle mit gleitenden mittleren Fehlerprozessen angeben. Autoregressive Fehler Ein Modell mit autoregressiven Fehler erster Ordnung, AR (1), hat die Form, während ein AR (2) Fehlerprozess die Form hat und so weiter für Prozesse höherer Ordnung. Beachten Sie, dass die s unabhängig und identisch verteilt sind und einen Erwartungswert von 0 haben. Ein Beispiel für ein Modell mit einer AR (2) - Komponente ist: Sie würden dieses Modell wie folgt schreiben: oder äquivalent das AR-Makro als Moving Average Models 13A verwenden Modell mit mittleren Durchschnittsfehlern erster Ordnung, MA (1), hat die Form, in der identisch und unabhängig verteilt mit Mittelwert Null ist. Ein MA (2) - Fehlerprozeß hat die Form und so weiter für Prozesse höherer Ordnung. Zum Beispiel können Sie ein einfaches lineares Regressionsmodell mit MA (2) gleitenden Durchschnittsfehlern schreiben, da MA1 und MA2 die gleitenden Durchschnittsparameter sind. Beachten Sie, dass RESID. Y automatisch durch PROC MODEL als Hinweis definiert wird, dass RESID. Y ist. Die ZLAG-Funktion muss für MA-Modelle verwendet werden, um die Rekursion der Verzögerungen abzuschneiden. Dadurch wird sichergestellt, dass die verzögerten Fehler in der Lag-Priming-Phase bei Null beginnen und keine fehlenden Werte propagieren, wenn Lag-Priming-Periodenvariablen fehlen und stellt sicher, dass die zukünftigen Fehler null sind, anstatt während Simulation oder Prognose fehlen. Einzelheiten zu den Lag-Funktionen finden Sie im Abschnitt 34Lag Logic.34 Dieses Modell Makro mit der MA geschrieben ist General Formular für ARMA Modelle Die allgemeine ARMA (p, q) Prozess hat das folgende Formular ein ARMA (p, q) Modell kann sein Wie folgt angegeben, wobei AR i und MA j die autoregressiven und sich bewegenden Durchschnittsparameter für die verschiedenen Verzögerungen darstellen. Sie können beliebige Namen für diese Variablen verwenden, und es gibt viele äquivalente Möglichkeiten, die die Spezifikation geschrieben werden könnte. Vektor-ARMA-Prozesse können auch mit PROC MODEL geschätzt werden. Zum Beispiel kann ein mit zwei Variablen AR (1) Prozess für die Fehler der beiden endogenen Variablen Y1 und Y2 können angegeben werden als Konvergenzprobleme mit ARMA Modelle ARMA-Modelle folgt kann schwierig einzuschätzen sein. Wenn die Parameterschätzwerte nicht innerhalb des geeigneten Bereichs liegen, wachsen exponentiell gleitende Modellrestriktionen. Die berechneten Residuen für spätere Beobachtungen können sehr groß sein oder überlaufen. Dies kann entweder geschehen, weil falsche Startwerte verwendet wurden oder weil sich die Iterationen von vernünftigen Werten entfernt haben. Bei der Auswahl der Anfangswerte für ARMA-Parameter sollte Sorgfalt angewendet werden. Startwerte von .001 für ARMA-Parameter arbeiten in der Regel, wenn das Modell die Daten gut passt und das Problem ist gut konditioniert. Man beachte, dass ein MA-Modell oft durch ein AR-Modell höherer Ordnung angenähert werden kann und umgekehrt. Dies kann in hohen Kollinearität in gemischten ARMA-Modelle führen, was wiederum kann zu schweren Fehlkonditionierung in den Berechnungen und Instabilität der Parameterschätzungen führen. Wenn Sie Konvergenzprobleme haben, während Sie ein Modell mit ARMA-Fehlerprozessen schätzen, versuchen Sie in Schritten abzuschätzen. Verwenden Sie zuerst eine FIT-Anweisung, um nur die strukturellen Parameter mit den auf Null gehaltenen ARMA-Parametern zu schätzen (oder zu vernünftigen vorherigen Schätzungen, falls verfügbar). Als nächstes verwenden Sie eine andere FIT-Anweisung, um die ARMA-Parameter nur unter Verwendung der strukturellen Parameterwerte aus dem ersten Lauf zu schätzen. Da die Werte der Strukturparameter wahrscheinlich nahe an ihren endgültigen Schätzwerten liegen, können nun die ARMA-Parameterschätzwerte konvergieren. Verwenden Sie schließlich eine andere FIT-Anweisung, um simultane Schätzungen aller Parameter zu erzeugen. Da die Anfangswerte der Parameter jetzt wahrscheinlich ganz nahe an ihre endgültige gemeinsame Schätzungen zu sein, sollten die Schätzungen schnell konvergieren, wenn das Modell für die Daten geeignet ist. AR Anfangsbedingungen 13 13 13 13 13 13 13 13 13 13 13 13 Die Anfangsverzögerungen der Fehlerterme von AR (p) - Modellen können auf unterschiedliche Weise modelliert werden. Die autoregressiven Fehlerstartmethoden von SAS / ETS Verfahren unterstützt sind die folgenden: CLS bedingten kleinsten Quadrate (ARIMA und MODEL Verfahren) ULS unbedingten kleinsten Quadrate (AUTOREG, ARIMA und MODEL Verfahren) ML Maximum-Likelihood (AUTOREG, ARIMA und MODEL Verfahren) YW Yule-Walker (AUTOREG Verfahren nur) HL Hildreth-Lu, die (nur MODEL Verfahren), um die ersten p Beobachtungen löscht Siehe Kapitel 8. eine Erläuterung und Diskussion über die Vorzüge der verschiedenen AR (p) den Startmethoden. Die CLS-, ULS-, ML - und HL-Initialisierungen können mit PROC MODEL durchgeführt werden. Bei AR (1) Fehlern können diese Initialisierungen wie in Tabelle 14.2 dargestellt erzeugt werden. Diese Verfahren sind in großen Proben äquivalent. Tabelle 14.2: Initialisierungen Aufgeführt von PROC MODELL: AR (1) FEHLER MA Anfangsbedingungen 13 13 13 13 13 13 Die anfängliche Lags der Fehler hinsichtlich der MA (q) Modelle können auch auf unterschiedliche Weise modelliert werden. Die folgende gleitenden Durchschnitt Start Paradigmen Fehler werden durch die ARIMA und MODEL Verfahren unterstützt: ULS unbedingten kleinsten Quadrate CLS bedingten kleinsten Quadrate ML Maximum-Likelihood Die bedingte Methode der kleinsten Quadrate der mittleren Fehler hinsichtlich bewegen Schätzung nicht optimal ist, weil es das Startproblem ignoriert. Dies verringert die Effizienz der Schätzungen, obwohl sie unverändert bleiben. Die anfänglichen verzögerten Residuen, die sich vor dem Start der Daten erstrecken, werden als 0 angenommen, ihr unbedingter Erwartungswert. Dies stellt einen Unterschied zwischen diesen Residuen und die verallgemeinerten Least-Squares-Residuen für den gleitenden Durchschnitt Kovarianz, die, anders als das autoregressive Modell, Datensatz hält über. Normalerweise konvergiert diese Differenz schnell auf 0, aber für fast nicht invertierbare gleitende Durchschnittsprozesse ist die Konvergenz ziemlich langsam. Um dieses Problem zu minimieren, sollten Sie genügend Daten haben, und die gleitenden Durchschnitt Parameterschätzungen sollte gut in der umkehrbar Bereich. Dieses Problem kann auf Kosten des Schreibens eines komplexeren Programms korrigiert werden. Unbedingte der kleinsten Quadrate Schätzungen für den MA (1) - Prozess kann durch Angabe des Modells wie folgt hergestellt werden: Moving-Average-Fehler kann schwierig sein, zu schätzen. Sie sollten eine AR (p) - Näherung für den gleitenden Durchschnittsprozess in Betracht ziehen. Ein gleitender Durchschnittsprozess kann üblicherweise durch einen autoregressiven Prozess gut approximiert werden, wenn die Daten nicht geglättet oder differenziert wurden. Das AR-Makro Das SAS-Makro AR erzeugt Programmieranweisungen für PROC MODEL für autoregressive Modelle. Das AR-Makro ist Teil der SAS / ETS-Software und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Das autoregressive Verfahren kann auf die strukturellen Gleichungsfehler oder auf die endogenen Reihen selbst angewendet werden. Das AR-Makro kann für univariate Autoregression uneingeschränkte Vektorautoregression eingeschränkte Vektorautoregression verwendet werden. Univariate Autoregression 13 den Fehlerterm einer Gleichung als autoregressive Prozess zu modellieren, verwenden Sie die folgende Anweisung nach der Gleichung: Angenommen, dass Y eine lineare Funktion von X1 und X2 ist, und ein AR (2) Fehler. Sie würden dieses Modell wie folgt schreiben: Die Aufrufe zu AR müssen nach allen Gleichungen kommen, auf die sich der Prozess bezieht. Der aufrufende Makroaufruf AR (y, 2) erzeugt die in der LIST-Ausgabe in Abbildung 14.49 gezeigten Aussagen. Abbildung 14.50: LIST Option Ausgabe für einen AR-Modell mit Lags bei 1, 12 und 13 sind Variationen der bedingten Least-Squares-Verfahren, je nachdem, ob Beobachtungen zu Beginn der Serie verwendet werden, um die AR-Prozess zu 34warm up34. Standardmäßig ist die AR bedingte Methode der kleinsten Quadrate verwendet alle Beobachtungen und geht davon aus Nullen für die ersten Lags von autoregressiven Terme. Wenn Sie die Option M verwenden, können Sie anfordern, dass AR die unconditional least-squares (ULS) oder die Maximum-Likelihood (ML) - Methode verwendet. Zum Beispiel: Die Diskussion dieser Methoden ist in den 34AR Anfangsbedingungen34 früher in diesem Abschnitt. Unter Verwendung der Option MCLS n können Sie anfordern, dass die ersten n Beobachtungen verwendet werden, um Schätzungen der anfänglichen autoregressiven Verzögerungen zu berechnen. In diesem Fall beginnt die Analyse mit der Beobachtung n 1. Beispielsweise können Sie mit dem AR-Makro ein autoregressives Modell an die endogene Variable anstelle des Fehlerterms über die Option TYPEV anwenden. Zum Beispiel, wenn Sie die fünf letzten Lags von Y in die Gleichung im vorherigen Beispiel hinzufügen möchten, können Sie AR verwenden, um die Parameter zu generieren und Lags mit den folgenden Aussagen: Die vorstehenden Aussagen über die Ausgabe erzeugen in Abbildung 14.51. Das Modell Vorgehensweise Auflistung der kompilierte Programm-Code-Anweisung als Analysierte PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y OLDPRED. y PRED. y YL1 ZLAG1 (y) YL2 ZLAG2 (y ) yl3 ZLAG3 (y) yL4 ZLAG4 (y) yl5 ZLAG5 (y) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Abbildung 14.51: LIST Option Ausgabe für einen AR-Modell von Y prognostiziert Dieses Modell Y Als lineare Kombination von X1, X2, einem Intercept und den Werten von Y in den letzten fünf Perioden. Unrestricted Vector Autoregression 13 Um die Fehlerterme eines Gleichungssystems als vektorautoregressiven Prozess zu modellieren, verwenden Sie die folgenden Formulare des AR-Makros nach den Gleichungen: Der Prozessname-Wert ist ein beliebiger Name, den Sie für AR verwenden, um Namen für das zu verwenden Autoregressive Parameter. Mit dem AR-Makro können Sie verschiedene AR-Prozesse für verschiedene Sätze von Gleichungen modellieren, indem Sie für jeden Satz unterschiedliche Prozessnamen verwenden. Der Prozessname stellt sicher, dass die verwendeten Variablennamen eindeutig sind. Verwenden Sie für den Prozess einen kurzen Prozessname-Wert, wenn Parameter-Schätzwerte in einen Ausgabedatensatz geschrieben werden sollen. Das AR-Makro versucht, Parameternamen zu erstellen, die kleiner oder gleich acht Zeichen sind, aber diese wird durch die Länge des Namens begrenzt. Die als Präfix für die AR-Parameternamen verwendet wird. Der Variablenlistenwert ist die Liste der endogenen Variablen für die Gleichungen. Beispielsweise wird angenommen, dass Fehler für die Gleichungen Y1, Y2 und Y3 durch einen autoregressiven Prozess der zweiten Ordnung erzeugt werden. Sie können die folgenden Aussagen verwenden, die für Y1 und ähnlichen Code für Y2 und Y3 Folgendes generieren: Für Vektorprozesse kann nur die Methode der bedingten Kleinste-Quadrate (MCLS oder MCLS n) verwendet werden. Sie können auch das gleiche Formular mit Einschränkungen verwenden, dass die Koeffizientenmatrix bei ausgewählten Verzögerungen 0 ist. Beispielsweise wenden die Anweisungen einen Vektorprozess der dritten Ordnung auf die Gleichungsfehler an, wobei alle Koeffizienten bei Verzögerung 2 auf 0 beschränkt sind und die Koeffizienten bei den Verzögerungen 1 und 3 unbeschränkt sind. Sie können die drei Serien Y1-Y3 als vektorautoregressiven Prozess in den Variablen anstatt in den Fehlern mit der Option TYPEV modellieren. Wenn Sie Y1-Y3 als Funktion von vergangenen Werten von Y1-Y3 und einigen exogenen Variablen oder Konstanten modellieren möchten, können Sie mit AR die Anweisungen für die Lag-Terme erzeugen. Schreiben Sie eine Gleichung für jede Variable für den nichtautoregressiven Teil des Modells und rufen Sie dann AR mit der Option TYPEV auf. Zum Beispiel kann der nichtautoregressive Teil des Modells eine Funktion von exogenen Variablen sein, oder es können Abfangparameter sein. Wenn es keine exogenen Komponenten für das Vektorautoregressionsmodell gibt, die keine Abschnitte enthalten, dann weisen Sie jeder der Variablen Null zu. Es muss eine Zuordnung zu jeder der Variablen vorhanden sein, bevor AR aufgerufen wird. Dieses Beispiel modelliert den Vektor Y (Y1 Y2 Y3) als eine lineare Funktion nur seines Werts in den vorherigen zwei Perioden und einen Weißrauschenfehlervektor. Das Modell hat 18 (3 mal 3 3 mal 3) Parameter. Syntax des AR-Makros Es gibt zwei Fälle der Syntax des AR-Makros. Der erste hat den allgemeinen Formularnamen, der ein Präfix für AR spezifiziert, das beim Erstellen von Namen von Variablen verwendet wird, die für die Definition des AR-Prozesses erforderlich sind. Wenn der Endolist nicht angegeben wird, ist die endogene Liste standardmäßig der Name. Der der Name der Gleichung sein muss, auf die der AR-Fehlerprozess angewendet werden soll. Der Name darf nicht länger als acht Zeichen sein. Nlag ist die Reihenfolge des AR-Prozesses. Endolist spezifiziert die Liste der Gleichungen, auf die der AR-Prozess angewendet werden soll. Wenn mehr als ein Name gegeben wird, wird ein unbeschränkter Vektorprozess mit den strukturellen Residuen aller Gleichungen erzeugt, die als Regressoren in jeder der Gleichungen enthalten sind. Wenn nicht angegeben, verwendet endolist standardmäßig den Namen. Laglist gibt die Liste der Lags an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Lags müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. M-Methode gibt das zu implementierende Schätzverfahren an. Gültige Werte von M sind CLS (bedingte Kleinste-Quadrate-Schätzungen), ULS (unbedingte Kleinste-Quadrate-Schätzungen) und ML (Maximum-Likelihood-Schätzungen). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung angegeben wird. Die ULS - und ML-Methoden werden für AR-AR-Modelle von AR nicht unterstützt. TYPEV gibt an, dass das AR-Verfahren auf die endogenen Variablen anstatt auf die strukturellen Residuen der Gleichungen angewendet werden soll. Eingeschränkte Vektorautoregression 13 13 13 13 Sie können steuern, welche Parameter in den Prozess eingeschlossen werden und welche Parameter nicht auf 0 gesetzt sind. Verwenden Sie zuerst AR mit der Option DEFER, um die Variablenliste zu deklarieren und die Dimension des Prozesses zu definieren. Verwenden Sie dann zusätzliche AR-Aufrufe, um Ausdrücke für ausgewählte Gleichungen mit ausgewählten Variablen an ausgewählten Verzögerungen zu generieren. Die erzeugten Fehlergleichungen Dieses Modell besagt, daß die Fehler für Y1 von den Fehlern sowohl von Y1 als auch von Y2 (aber nicht von Y3) bei beiden Verzögerungen 1 und 2 abhängen und daß die Fehler für Y2 und Y3 von den vorhergehenden Fehlern abhängen Für alle drei Variablen, aber nur bei Verzögerung 1. AR-Makro-Syntax für beschränkte Vektor-AR Eine alternative Verwendung von AR kann Einschränkungen für einen Vektor-AR-Prozess durch Aufruf von AR mehrmals aufrufen, um verschiedene AR-Terme und - Lags für verschiedene Gleichungen festzulegen. Der erste Aufruf hat den allgemeinen Formularnamen, der ein Präfix für AR spezifiziert, das beim Erstellen von Namen von Variablen verwendet wird, die für die Definition des Vektor-AR-Prozesses erforderlich sind. Nlag gibt die Reihenfolge des AR-Prozesses an. Endolist spezifiziert die Liste der Gleichungen, auf die der AR-Prozess angewendet werden soll. DEFER spezifiziert, daß AR nicht den AR-Prozeß erzeugen soll, sondern auf weitere Informationen, die in späteren AR-Aufrufen für denselben Namenwert spezifiziert werden, wartet. Die nachfolgenden Anrufe haben die allgemeine Form Name ist die gleiche wie im ersten Aufruf. Eqlist gibt die Liste der Gleichungen an, auf die die Spezifikationen in diesem AR-Aufruf angewendet werden sollen. Nur Namen, die im endolistischen Wert des ersten Aufrufs für den Namenswert angegeben sind, können in der Liste der Gleichungen in eqlist erscheinen. Varlist gibt die Liste der Gleichungen an, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. Nur Namen im Endolisten des ersten Aufrufs für den Namenswert können in varlist erscheinen. Wenn nicht angegeben, wird varlist standardmäßig Endolist. Laglist gibt die Liste der Lags an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich dem Wert von nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, verwendet laglist standardmäßig alle Verzögerungen 1 bis nlag. Der MA-Makro 13 Der SAS-Makro MA generiert Programmieranweisungen für PROC MODEL zum Verschieben von Durchschnittsmodellen. Das MA-Makro ist Teil der SAS / ETS-Software und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Der gleitende mittlere Fehlerprozess kann auf die strukturellen Gleichungsfehler angewendet werden. Die Syntax des MA-Makros entspricht dem AR-Makro, außer es gibt kein TYPE-Argument. 13 Wenn Sie die kombinierten MA - und AR-Makros verwenden, muss das Makro MA dem AR-Makro folgen. Die folgenden SAS / IML-Anweisungen erzeugen einen ARMA-Fehlerprozeß (1, (1 3)) und speichern ihn im Datensatz MADAT2. Die folgenden PROC MODEL-Anweisungen werden verwendet, um die Parameter dieses Modells unter Verwendung der Maximum-Likelihood-Fehlerstruktur zu schätzen: Die Schätzungen der durch diesen Durchlauf erzeugten Parameter sind in Abbildung 14.52 dargestellt. Maximale Wahrscheinlichkeit ARMA (1, (1 3)) Abbildung 14.52: Schätzungen aus einem ARMA (1, (1 3)) Prozess-Syntax des MA-Makros Es gibt zwei Fälle der Syntax für das MA-Makro. Die erste hat den allgemeinen Formular Namen spezifiziert ein Präfix für MA, um beim Erstellen von Namen von Variablen benötigt, um die MA-Prozess zu definieren und ist die Standard-Endolist. Nlag ist die Reihenfolge des MA-Prozesses. Endolist spezifiziert die Gleichungen, auf die das MA-Verfahren angewendet werden soll. Wenn mehr als ein Name angegeben wird, wird die CLS-Schätzung für den Vektorprozess verwendet. Laglist gibt die Verzögerungen an, zu denen die MA-Bedingungen hinzugefügt werden sollen. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. M-Methode gibt das zu implementierende Schätzverfahren an. Gültige Werte von M sind CLS (bedingte Kleinste-Quadrate-Schätzungen), ULS (unbedingte Kleinste-Quadrate-Schätzungen) und ML (Maximum-Likelihood-Schätzungen). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung auf dem Endolisten angegeben ist. MA-Makro-Syntax für eingeschränkte Vektorbewegungen 13 Eine alternative Verwendung von MA ist es, Beschränkungen für einen Vektor-MA-Prozeß durch Aufrufen von MA mehrmals aufzuerlegen, um verschiedene MA-Terme und - Lags für verschiedene Gleichungen anzugeben. Der erste Aufruf hat den allgemeinen Formular Namen spezifiziert ein Präfix für MA, um beim Erstellen von Namen von Variablen für die Definition der Vektor-MA-Prozess zu verwenden. Nlag spezifiziert die Reihenfolge des MA-Prozesses. Endolist spezifiziert die Liste der Gleichungen, auf die das MA-Verfahren angewendet werden soll. DEFER spezifiziert, daß MA nicht den MA-Prozeß erzeugen soll, sondern auf weitere Informationen, die in späteren MA-Aufrufen für denselben Namenwert spezifiziert werden, wartet. Die nachfolgenden Anrufe haben die allgemeine Form Name ist die gleiche wie im ersten Aufruf. Eqlist gibt die Liste der Gleichungen an, auf die die Spezifikationen in diesem MA-Aufruf angewendet werden sollen. Varlist gibt die Liste der Gleichungen an, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. Laglist spezifiziert die Liste der Verzögerungen, bei denen die MA-Bedingungen hinzugefügt werden sollen. Autoregressive Moving Average ARMA (p, q) Modelle für die Zeitreihenanalyse - Teil 1 Von Michael Halls-Moore am 17. August 2015 Im letzten Artikel haben wir uns angesehen Zufällige Spaziergänge und weißes Rauschen als grundlegende Zeitreihenmodelle für bestimmte Finanzinstrumente wie Tagesaktien und Aktienindexpreise. Wir fanden, dass in einigen Fällen ein zufälliges Wanderungsmodell nicht ausreicht, um das vollständige Autokorrelationsverhalten des Instruments zu erfassen, das anspruchsvollere Modelle motiviert. In den nächsten Artikeln werden wir drei Modelltypen diskutieren, nämlich das Autoregressive (AR) - Modell der Ordnung p, das Moving Average (MA) - Modell der Ordnung q und das gemischte Autogressive Moving Average (ARMA) - Modell der Ordnung p , Q. Diese Modelle werden uns helfen zu erfassen oder zu erklären, mehr der seriellen Korrelation in einem Instrument. Letztlich werden sie uns ein Mittel zur Prognose der künftigen Preise bieten. Es ist jedoch bekannt, dass finanzielle Zeitreihen eine Eigenschaft besitzen, die als Volatilitäts-Clusterung bekannt ist. Das heißt, die Flüchtigkeit des Instruments ist nicht zeitlich konstant. Der technische Begriff für dieses Verhalten wird als bedingte Heteroskedastizität bezeichnet. Da die AR-, MA - und ARMA-Modelle nicht bedingt heteroskedastisch sind, dh sie nicht das Volatilitäts-Clustering berücksichtigen, benötigen wir letztlich ein anspruchsvolleres Modell für unsere Prognosen. Zu diesen Modellen gehören das Autogressive Conditional Heteroskedastic (ARCH) Modell und das Generalized Autogressive Conditional Heteroskedastic (GARCH) Modell und die vielen Varianten davon. GARCH ist in Quantfinance besonders bekannt und wird vor allem für finanzielle Zeitreihensimulationen als Mittel zur Risikoabschätzung eingesetzt. Wie bei allen QuantStart-Artikeln möchte ich aber diese Modelle aus einfacheren Versionen aufbauen, damit wir sehen können, wie jede neue Variante unsere Vorhersagefähigkeit ändert. Trotz der Tatsache, dass AR, MA und ARMA relativ einfache Zeitreihenmodelle sind, sind sie die Grundlage für kompliziertere Modelle wie den Autoregressive Integrated Moving Average (ARIMA) und die GARCH-Familie. Daher ist es wichtig, dass wir sie studieren. Einer unserer ersten Trading-Strategien in der Zeitreihe Artikel-Serie wird es sein, ARIMA und GARCH zu kombinieren, um die Preise n Perioden im Voraus vorherzusagen. Allerdings müssen wir warten, bis wir beide diskutiert sowohl ARIMA und GARCH separat, bevor wir sie auf eine echte Strategie anwenden Wie werden wir in diesem Artikel werden wir einige neue Zeitreihen-Konzepte, die gut für die übrigen Methoden, nämlich streng Stationarität und dem Akaike-Informationskriterium (AIC). Im Anschluss an diese neuen Konzepte werden wir dem traditionellen Muster für das Studium neuer Zeitreihenmodelle folgen: Begründung - Die erste Aufgabe ist es, einen Grund dafür zu liefern, warum sich ein bestimmtes Modell als Quants interessierte. Warum stellen wir das Zeitreihenmodell vor Welche Auswirkungen kann es erfassen Was gewinnen wir (oder verlieren), indem wir zusätzliche Komplexität hinzufügen Definition - Wir müssen die vollständige mathematische Definition (und damit verbundene Notation) des Zeitreihenmodells zur Minimierung bereitstellen Jede Unklarheit. Eigenschaften der zweiten Ordnung - Wir diskutieren (und in einigen Fällen) die Eigenschaften zweiter Ordnung des Zeitreihenmodells, das sein Mittel, seine Varianz und seine Autokorrelationsfunktion enthält. Correlogram - Wir verwenden die Eigenschaften zweiter Ordnung, um ein Korrektramm einer Realisierung des Zeitreihenmodells zu zeichnen, um sein Verhalten zu visualisieren. Simulation - Wir simulieren Realisierungen des Zeitreihenmodells und passen dann das Modell an diese Simulationen an, um sicherzustellen, dass wir genaue Implementierungen haben und den Anpassungsprozess verstehen. Echte Finanzdaten - Wir passen das Zeitreihenmodell auf echte Finanzdaten an und betrachten das Korrektramm der Residuen, um zu sehen, wie das Modell die serielle Korrelation in der ursprünglichen Serie berücksichtigt. Vorhersage - Wir erstellen n-Schritt-Voraus-Prognosen des Zeitreihenmodells für besondere Realisierungen, um letztendlich Handelssignale zu erzeugen. Fast alle Artikel, die ich auf Zeitreihenmodellen schreibe, werden in dieses Muster fallen und es wird uns erlauben, die Unterschiede zwischen jedem Modell leicht zu vergleichen, da wir weitere Komplexität hinzufügen. Wurden zu Beginn mit Blick auf strenge Stationarität und die AIC. Strengst stationär Wir haben die Definition der Stationarität in dem Artikel über die serielle Korrelation. Da wir jedoch in den Bereich vieler Finanzserien mit verschiedenen Frequenzen treten, müssen wir sicherstellen, dass unsere (eventuellen) Modelle die zeitlich variierende Volatilität dieser Serien berücksichtigen. Insbesondere müssen wir ihre Heteroskedastizität berücksichtigen. Wir werden auf dieses Problem stoßen, wenn wir versuchen, bestimmte Modelle zu historischen Serien zu passen. Grundsätzlich können nicht alle seriellen Korrelationen in den Resten von eingebauten Modellen berücksichtigt werden, ohne Heteroskedastizität zu berücksichtigen. Das bringt uns zurück zur Stationarität. Eine Serie ist nicht stationär in der Varianz, wenn sie zeitvariable Volatilität hat, per Definition. Dies motiviert eine rigorosere Definition der Stationarität, nämlich eine strenge Stationarität: Strengst stationäre Serie Ein Zeitreihenmodell ist streng stationär, wenn die gemeinsame statistische Verteilung der Elemente x, ldots, x die gleiche ist wie die von xm, ldots, xm, Für alle ti, m. Man kann an diese Definition nur denken, daß die Verteilung der Zeitreihen für jede zeitliche Verschiebung unverändert bleibt. Insbesondere sind das Mittel und die Varianz rechtzeitig für eine streng stationäre Reihe konstant und die Autokovarianz zwischen xt und xs (nur) hängt nur von der absoluten Differenz von t und s, t-s ab. In zukünftigen Beiträgen werden wir streng stationäre Serien besprechen. Akaike Information Criterion Ich erwähnte in früheren Artikeln, dass wir schließlich zu prüfen, wie die Wahl zwischen getrennten besten Modelle. Dies gilt nicht nur für die Zeitreihenanalyse, sondern auch für das maschinelle Lernen und generell für die Statistik im Allgemeinen. Die beiden Hauptmethoden (vorläufig) sind das Akaike Information Criterion (AIC) und das Bayesian Information Criterion (wie wir mit unseren Artikeln über Bayesian Statistics weiter vorankommen). Nun kurz die AIC, wie es in Teil 2 des ARMA Artikel verwendet werden. AIC ist im Wesentlichen ein Hilfsmittel zur Modellauswahl. Das heißt, wenn wir eine Auswahl von statistischen Modellen (einschließlich Zeitreihen) haben, dann schätzt die AIC die Qualität jedes Modells, relativ zu den anderen, die wir zur Verfügung haben. Es basiert auf Informationstheorie. Das ist ein sehr interessantes, tiefes Thema, das wir leider nicht in zu viel Detail gehen können. Es versucht, die Komplexität des Modells, die in diesem Fall bedeutet die Anzahl der Parameter, wie gut es passt die Daten. Lets eine Definition: Akaike Information Criterion Wenn wir die Likelihood-Funktion für ein statistisches Modell, das k Parameter hat, und L maximiert die Wahrscheinlichkeit. Dann ist das Akaike Information Criterion gegeben durch: Das bevorzugte Modell, aus einer Auswahl von Modellen, hat die minium AIC der Gruppe. Sie können sehen, dass die AIC wächst mit der Anzahl der Parameter, k, erhöht, aber reduziert wird, wenn die negative Log-Likelihood erhöht. Im Wesentlichen bestraft sie Modelle, die übermäßig sind. Wir werden AR, MA und ARMA Modelle von unterschiedlichen Aufträgen erstellen und eine Möglichkeit, das beste Modell zu wählen, das zu einem bestimmten Datensatz passt, ist, die AIC zu verwenden. Dies ist, was gut tun, im nächsten Artikel, vor allem für ARMA Modelle. Autoregressive (AR) Modelle der Ordnung p Das erste Modell, das die Grundlage von Teil 1 bildet, ist das autoregressive Modell der Ordnung p, oft verkürzt zu AR (p). Begründung Im vorherigen Artikel betrachteten wir den zufälligen Weg. Wobei jeder Term xt nur von dem vorherigen Term x und einem stochastischen weißen Rauschterm abhängt, wt: Das autoregressive Modell ist einfach eine Erweiterung des zufälligen Weges, der Terme weiter zurück in der Zeit enthält. Die Struktur des Modells ist linear. Das heißt, das Modell hängt linear von den vorherigen Bedingungen ab, wobei für jeden Term Koeffizienten vorliegen. Dies ist, wo die regressive kommt aus der autoregressive. Es ist im Wesentlichen ein Regressionsmodell, bei dem die vorherigen Begriffe die Prädiktoren sind. Autoregressives Modell der Ordnung p Ein Zeitreihenmodell ist ein autoregressives Modell der Ordnung p. AR (p), wenn: begin xt alpha1 x ldots alphap x wt sum p alpha x wt end Wo ist weißes Rauschen und alpha in mathbb, mit alphap neq 0 für einen autoregressiven p-order Prozess. Wenn wir den Backward Shift Operator betrachten. (Siehe vorheriger Artikel), dann können wir das obige als eine Funktion theta folgendermaßen umschreiben: begin thetap () xt (1 - alpha1 - alpha2 2 - ldots - alphap) xt wt Ende Vielleicht das erste, was über das AR (p) Ist, dass ein zufälliger Weg einfach AR (1) mit alpha1 gleich Eins ist. Wie oben erwähnt, ist das autogressive Modell eine Erweiterung des zufälligen Weges, so dass dies sinnvoll ist. Es ist einfach, Vorhersagen mit dem AR (p) - Modell zu jeder Zeit t vorzunehmen, sobald wir die alphai-Koeffizienten bestimmt haben, unsere Schätzung Wird einfach: anfangen Hut t alpha1 x ldots alphap x end So können wir n-Schritt voraus Prognosen durch die Herstellung Hut t, Hut, Hut, etc. bis zu Hut. Tatsächlich werden wir, wenn wir die ARMA-Modelle in Teil 2 betrachten, die R-Vorhersagefunktion verwenden, um Prognosen (zusammen mit Standardfehler-Konfidenzintervallbändern) zu erzeugen, die uns helfen, Handelssignale zu erzeugen. Stationarität für autoregressive Prozesse Eines der wichtigsten Aspekte des AR (p) - Modells ist, dass es nicht immer stationär ist. Tatsächlich hängt die Stationarität eines bestimmten Modells von den Parametern ab. Ive berührte dieses vorher in einem vorhergehenden Artikel. Um zu bestimmen, ob ein AR (p) - Prozeß stationär ist oder nicht, müssen wir die charakteristische Gleichung lösen. Die charakteristische Gleichung ist einfach das autoregressive Modell, geschrieben in Rückwärtsverschiebung Form, auf Null gesetzt: Wir lösen diese Gleichung für. Damit das bestimmte autoregressive Verfahren stationär ist, brauchen wir alle Absolutwerte der Wurzeln dieser Gleichung, um Eins zu übersteigen. Dies ist eine äußerst nützliche Eigenschaft und ermöglicht es uns, schnell zu berechnen, ob ein AR (p) - Prozeß stationär ist oder nicht. Wir betrachten einige Beispiele, um diese Idee konkret zu machen: Random Walk - Der AR (1) Prozess mit alpha1 1 hat die charakteristische Gleichung theta 1 -. Offensichtlich hat diese Wurzel 1 und als solche ist nicht stationär. AR (1) - Wenn wir alpha1 frac wählen, erhalten wir xt frac x wt. Dies ergibt eine charakteristische Gleichung von 1 - frac 0, die eine Wurzel von 4 gt 1 hat und somit dieses AR (1) - Verfahren stationär ist. AR (2) - Wenn wir alpha1 alpha2 frac setzen, erhalten wir xt frac x frac x wt. Seine charakteristische Gleichung wird - frac () () 0, die zwei Wurzeln von 1, -2 ergibt. Da es sich um eine Einheitswurzel handelt, handelt es sich um eine nichtstationäre Serie. Andere AR (2) - Serien können jedoch stationär sein. Eigenschaften der zweiten Ordnung Der Mittelwert eines AR (p) - Prozesses ist Null. Allerdings sind die Autokovarianzen und Autokorrelationen durch rekursive Funktionen, bekannt als die Yule-Walker-Gleichungen gegeben. Die vollständigen Eigenschaften sind unten angegeben: begin mux E (xt) 0 end begin gammak sum p alpha gamma, enspace k 0 end begin rhok sum p alphai rho, enspace k 0 end Beachten Sie, dass es notwendig ist, die alpha-Parameterwerte vor zu kennen Berechnen der Autokorrelationen. Nachdem wir die Eigenschaften zweiter Ordnung angegeben haben, können wir verschiedene Ordnungen von AR (p) simulieren und die entsprechenden Korrektramme darstellen. Simulationen und Correlogramme AR (1) Beginnt mit einem AR (1) - Prozess. Dies ist ähnlich einem zufälligen Weg, außer dass alpha1 nicht gleich Eins haben muss. Unser Modell wird alpha1 0,6 haben. Der R-Code für die Erzeugung dieser Simulation ist wie folgt gegeben: Beachten Sie, dass unsere for-Schleife von 2 bis 100, nicht 1 bis 100, als xt-1 ausgeführt wird, wenn t0 nicht indexierbar ist. Ähnlich für AR (p) Prozesse höherer Ordnung muss t in dieser Schleife von p bis 100 reichen. Wir können die Realisierung dieses Modells und seines zugehörigen Korrelogramms mit Hilfe der Layout-Funktion darstellen: Lasst uns jetzt versuchen, einen AR (p) - Prozeß an die soeben erzeugten simulierten Daten anzupassen, um zu sehen, ob wir die zugrunde liegenden Parameter wiederherstellen können. Sie können daran erinnern, dass wir ein ähnliches Verfahren in dem Artikel über weiße Rauschen und zufällige Wanderungen durchgeführt. Wie sich herausstellt, bietet R einen nützlichen Befehl ar, um autoregressive Modelle zu passen. Wir können diese Methode verwenden, um uns zuerst die beste Ordnung p des Modells zu erzählen (wie durch die AIC oben bestimmt) und liefern uns mit Parameterschätzungen für das alphai, die wir dann verwenden können, um Konfidenzintervalle zu bilden. Für die Vollständigkeit können wir die x-Reihe neu erstellen: Jetzt verwenden wir den ar-Befehl, um ein autoregressives Modell an unseren simulierten AR (1) - Prozess anzupassen, wobei die maximale Wahrscheinlichkeitsschätzung (MLE) als Anpassungsverfahren verwendet wird. Wir werden zunächst die beste erhaltene Ordnung extrahieren: Der ar Befehl hat erfolgreich festgestellt, dass unser zugrunde liegendes Zeitreihenmodell ein AR (1) Prozess ist. Wir erhalten dann die Alpha-Parameter (s) Schätzungen: Die MLE-Prozedur hat eine Schätzung erzeugt, Hut 0,523, die etwas niedriger als der wahre Wert von alpha1 0,6 ist. Schließlich können wir den Standardfehler (mit der asymptotischen Varianz) verwenden, um 95 Konfidenzintervalle um den / die zugrunde liegenden Parameter zu konstruieren. Um dies zu erreichen, erstellen wir einfach einen Vektor c (-1,96, 1,96) und multiplizieren ihn dann mit dem Standardfehler: Der wahre Parameter fällt in das 95 Konfidenzintervall, da wir von der Tatsache erwarten, dass wir die Realisierung aus dem Modell spezifisch generiert haben . Wie wäre es, wenn wir die alpha1 -0.6 ändern, können wir ein AR (p) - Modell unter Verwendung von ar: Wiederherstellen wir die richtige Reihenfolge des Modells, mit einem sehr guten Schätzung Hut -0.597 von alpha1-0.6. Wir sehen auch, dass der wahre Parameter wieder innerhalb des Konfidenzintervalls liegt. AR (2) Wir können unseren autoregressiven Prozessen durch Simulation eines Modells der Ordnung 2 etwas mehr Komplexität hinzufügen. Insbesondere setzen wir alpha10.666, setzen aber auch alpha2 -0.333. Heres den vollständigen Code, um die Realisierung zu simulieren und zu plotten, sowie das Korrelogram für eine solche Serie: Wie zuvor sehen wir, dass sich das Korrelogramm signifikant von dem des weißen Rauschens unterscheidet, wie man es erwarten kann. Es gibt statistisch signifikante Peaks bei k1, k3 und k4. Wieder einmal wollten wir den ar-Befehl verwenden, um ein AR (p) - Modell zu unserer zugrundeliegenden AR (2) - Ausführung zu passen. Die Prozedur ist ähnlich wie bei der AR (1) - Sitzung: Die korrekte Reihenfolge wurde wiederhergestellt und die Parameterschätzungen Hut 0.696 und Hut -0.395 sind nicht zu weit weg von den wahren Parameterwerten von alpha10.666 und alpha2-0.333. Beachten Sie, dass wir eine Konvergenz-Warnmeldung erhalten. Beachten Sie auch, dass R tatsächlich die arima0-Funktion verwendet, um das AR-Modell zu berechnen. AR (p) - Modelle sind ARIMA (p, 0, 0) - Modelle und somit ein AR-Modell ein Spezialfall von ARIMA ohne Moving Average (MA) - Komponente. Nun auch mit dem Befehl arima, um Konfidenzintervalle um mehrere Parameter zu erstellen, weshalb wir vernachlässigt haben, es hier zu tun. Nachdem wir nun einige simulierte Daten erstellt haben, ist es an der Zeit, die AR (p) - Modelle auf finanzielle Asset-Zeitreihen anzuwenden. Financial Data Amazon Inc. Lets beginnen mit dem Erwerb der Aktienkurs für Amazon (AMZN) mit quantmod wie im letzten Artikel: Die erste Aufgabe ist es, immer den Preis für eine kurze visuelle Inspektion. In diesem Fall auch die täglichen Schlusskurse: Youll bemerken, dass quantmod einige Formatierungen für uns, nämlich das Datum, und ein etwas hübscheres Diagramm als die üblichen R-Diagramme hinzufügt: Wir werden jetzt die logarithmische Rückkehr von AMZN und dann die erste nehmen Um die ursprüngliche Preisreihe von einer nichtstationären Serie auf eine (potentiell) stationäre zu konvertieren. Dies ermöglicht es uns, Äpfel mit Äpfeln zwischen Aktien, Indizes oder anderen Vermögenswerten zu vergleichen, für die Verwendung in späteren multivariaten Statistiken, wie bei der Berechnung einer Kovarianzmatrix. Wenn Sie eine ausführliche Erklärung, warum Protokoll Rückkehr bevorzugen möchten, werfen Sie einen Blick auf diesen Artikel über bei Quantivity. Erstellt eine neue Serie, amznrt. Um unsere differenzierten Logarithmen zurückzuhalten: Wieder einmal können wir die Serie darstellen: In diesem Stadium wollen wir das Korrektramm zeichnen. Sie suchten, um zu sehen, ob die differenzierte Reihe wie weißes Rauschen aussieht. Wenn es nicht dann gibt es unerklärliche serielle Korrelation, die durch ein autoregressives Modell erklärt werden könnte. Wir bemerken einen statistisch signifikanten Peak bei k2. Daher gibt es eine vernünftige Möglichkeit der unerklärlichen seriellen Korrelation. Seien Sie sich jedoch bewusst, dass dies aufgrund der Stichprobe. Als solches können wir versuchen, ein AR (p) - Modell an die Serie anzubringen und Konfidenzintervalle für die Parameter zu erzeugen: Die Anpassung des ar-autoregressiven Modells an die erste Reihe differenzierte Serien von Logarithmen erzeugt ein AR (2) - Modell mit Hut -0,0278 Und hat -0.0687. Ive auch die aysmptotische Varianz, so dass wir berechnen können Standard-Fehler für die Parameter und erzeugen Vertrauen Intervalle. Wir wollen sehen, ob null Teil des 95 Konfidenzintervalls ist, als ob es ist, es reduziert unser Vertrauen, dass wir ein echtes zugrunde liegendes AR (2) - Verfahren für die AMZN-Serie haben. Um die Konfidenzintervalle auf der 95-Ebene für jeden Parameter zu berechnen, verwenden wir die folgenden Befehle. Wir nehmen die Quadratwurzel des ersten Elements der asymptotischen Varianzmatrix auf, um einen Standardfehler zu erzeugen, dann erzeugen Sie Konfidenzintervalle, indem wir sie mit -1,96 bzw. 1,96 für die 95-Ebene multiplizieren: Beachten Sie, dass dies bei Verwendung der Arima-Funktion einfacher wird , Aber gut bis Teil 2 warten, bevor es richtig eingeführt. Somit können wir sehen, dass für alpha1 Null innerhalb des Konfidenzintervalls enthalten ist, während für alpha2 Null nicht im Konfidenzintervall enthalten ist. Daher sollten wir sehr vorsichtig sein, wenn wir denken, dass wir tatsächlich ein zugrundeliegendes generatives AR (2) - Modell für AMZN haben. Insbesondere berücksichtigen wir, dass das autoregressive Modell nicht das Volatilitäts-Clustering berücksichtigt, was zu einer Clusterbildung der seriellen Korrelation in finanziellen Zeitreihen führt. Wenn wir die ARCH - und GARCH-Modelle in späteren Artikeln betrachten, werden wir dies berücksichtigen. Wenn wir kommen, um die volle Arima-Funktion in den nächsten Artikel verwenden, werden wir Vorhersagen der täglichen Log-Preis-Serie, um uns zu ermöglichen, Trading-Signale zu schaffen. SampP500 US Equity Index Zusammen mit einzelnen Aktien können wir auch den US Equity Index, den SampP500, berücksichtigen. Lets alle vorherigen Befehle zu dieser Serie und produzieren die Plots wie zuvor: Wir können die Preise: Wie zuvor, erstellen Sie auch die erste Ordnung Differenz der Log-Schlusskurse: Wieder einmal können wir die Serie plotten: Es ist klar Aus dieser Grafik, dass die Volatilität nicht in der Zeit stationär ist. Dies spiegelt sich auch in der Darstellung des Korrelogramms wider. Es gibt viele Peaks, einschließlich k1 und k2, die statistisch signifikant über ein weißes Rauschmodell hinausgehen. Darüber hinaus sehen wir Hinweise auf Langzeitgedächtnisprozesse, da es einige statistisch signifikante Peaks bei k16, k18 und k21 gibt: Letztendlich benötigen wir ein komplexeres Modell als ein autoregressives Modell der Ordnung p. Allerdings können wir in diesem Stadium noch versuchen, ein solches Modell anzupassen. Wir sehen, was wir bekommen, wenn wir dies tun: Mit ar erzeugt ein AR (22) - Modell, dh ein Modell mit 22 Nicht-Null-Parametern Was bedeutet dies sagen uns Es ist bezeichnend, dass es wahrscheinlich viel mehr Komplexität in der seriellen Korrelation als Ein einfaches lineares Modell der vergangenen Preise kann wirklich erklären. Jedoch wussten wir dies bereits, weil wir sehen können, dass es eine signifikante serielle Korrelation in der Volatilität gibt. Betrachten wir zum Beispiel die sehr volatile Periode um 2008. Dies motiviert den nächsten Satz von Modellen, nämlich den Moving Average MA (q) und den autoregressiven Moving Average ARMA (p, q). Nun lernen Sie über diese beiden in Teil 2 dieses Artikels. Wie wir immer wieder erwähnen, werden diese letztlich zu der ARIMA - und GARCH-Modellfamilie führen, die beide eine viel bessere Anpassung an die serielle Korrelationskomplexität des Samp500 bieten. Dadurch können wir unsere Prognosen signifikant verbessern und letztendlich rentabler gestalten. Michael Hallen-Moore Mike ist der Gründer von QuantStart und hat in der quantitativen Finanzindustrie in den letzten fünf Jahren in erster Linie als Quant Entwickler und später als Quant Trader Beratung für Hedge-Fonds beteiligt.


No comments:

Post a Comment