Friday 1 December 2017

Autoregresyjny, ruchomy, średni czas seria model


Istnieje szereg podejść do modelowania szeregów czasowych. Poniżej przedstawiamy kilka najczęstszych podejść. Trend, sezonowość, resztkowe dekompozycje Jedną z metod jest dekompozycja szeregu czasowego w trend, sezonowość i składnik resztkowy. Potrójne wyrównywanie wykładnicze jest przykładem tego podejścia. Inny przykład, nazywany sezonowym lessem, oparty jest na lokalnie ważonych najmniejszych kwadratach i jest dyskutowany przez Cleveland (1993). W tym podręczniku nie omawiamy sezonowych lessów. Metody oparte na częstotliwościach Kolejnym podejściem, powszechnie stosowanym w aplikacjach naukowych i inżynieryjnych, jest analiza serii w dziedzinie częstotliwości. Przykład tego podejścia do modelowania zestawu danych typu sinusoidalnego pokazano w studium przypadku ugięcia belki. Wykres spektralny jest podstawowym narzędziem do analizy częstotliwości szeregów czasowych. Modele autoregresyjne (AR) Wspólnym podejściem do modelowania jednowymiarowych szeregów czasowych jest model autoregresyjny (AR): Xt delta phi1 X phi2 X cdots phip X At, gdzie (Xt) jest szeregiem czasowym, (At) jest białym szumem, a delta left (1 - suma p phii right) mu. z (mu) oznaczającym średnią procesu. Model autoregresyjny jest po prostu regresją liniową bieżącej wartości szeregu względem jednej lub więcej wcześniejszych wartości serii. Wartość (p) nazywana jest rzędem modelu AR. Modele AR można analizować za pomocą jednej z różnych metod, w tym standardowych technik liniowych najmniejszych kwadratów. Mają również prostą interpretację. Modele średniej ruchomej (MA) Innym powszechnym podejściem do modelowania jednowymiarowych modeli szeregów czasowych jest model średniej ruchomej (MA): Xt mu Atta-Ata1 A - theta2 A - cdoty - thetaq A, gdzie (Xt) jest szeregiem czasowym, (mu ) jest średnią z serii, (A) są terminami białego szumu, a (theta1,, ldots,, thetaq) są parametrami modelu. Wartość (q) nazywa się rzędem modelu MA. Oznacza to, że model średniej ruchomej jest koncepcyjnie regresją liniową bieżącej wartości szeregu względem szumu białego lub losowych wstrząsów jednej lub więcej wcześniejszych wartości szeregu. Przyjmuje się, że losowe wstrząsy w każdym punkcie pochodzą z tego samego rozkładu, zwykle z rozkładu normalnego, z lokalizacją w punkcie zero i stałą skalą. Rozróżnienie w tym modelu polega na tym, że te losowe wstrząsy są propagowane do przyszłych wartości szeregu czasowego. Dopasowanie szacunków MA jest bardziej skomplikowane niż w przypadku modeli AR, ponieważ nie można zaobserwować warunków błędu. Oznacza to, że w miejsce liniowych najmniejszych kwadratów należy zastosować iteracyjne procedury dopasowania nieliniowego. Modele MA mają również mniej oczywistą interpretację niż modele AR. Czasami ACF i PACF zasugerują, że model MA byłby lepszym wyborem modelu i czasami zarówno warunki AR, jak i MA powinny być stosowane w tym samym modelu (patrz Rozdział 6.4.4.5). Należy jednak pamiętać, że terminy błędów po dopasowaniu modelu powinny być niezależne i zgodne ze standardowymi założeniami dla procesu jednowymiarowego. Box i Jenkins spopularyzowali podejście, które łączy podejście średniej ruchomej i podejścia autoregresyjnego w książce Time Series Analysis: Forecasting and Control (Box, Jenkins i Reinsel, 1994). Chociaż zarówno metody autoregresji, jak i średniej ruchomej były już znane (i były pierwotnie badane przez Yule), wkład Boxa i Jenkinsa polegał na opracowaniu systematycznej metodologii do identyfikacji i szacowania modeli, które mogłyby zawierać oba podejścia. To sprawia, że ​​modele Box-Jenkins są potężną klasą modeli. Kolejne sekcje omawiają szczegółowo te modele. Wprowadzenie do ARIMA: modele niesezonowe Równanie prognostyczne ARIMA (p, d, q): Modele ARIMA są w teorii najbardziej ogólną klasą modeli do prognozowania szeregów czasowych, które można wykonać być 8220stacja 8221 przez różnicowanie (jeśli to konieczne), być może w połączeniu z nieliniowymi transformacjami, takimi jak rejestracja lub deflacja (jeśli to konieczne). Zmienna losowa, która jest szeregiem czasowym, jest nieruchoma, jeśli jej właściwości statystyczne są stałe w czasie. Seria stacjonarna nie ma trendu, jej wahania wokół średniej mają stałą amplitudę i poruszają się w spójny sposób. tj. jego krótkoterminowe wzorce czasu losowego zawsze wyglądają tak samo w sensie statystycznym. Ten ostatni warunek oznacza, że ​​jego autokorelacje (korelacje z jego własnymi wcześniejszymi odchyleniami od średniej) pozostają stałe w czasie, lub równoważnie, że jego widmo mocy pozostaje stałe w czasie. Zmienna losowa tej postaci może być oglądana (jak zwykle) jako kombinacja sygnału i szumu, a sygnał (jeśli jest widoczny) może być wzorem szybkiej lub wolnej średniej rewersji, lub sinusoidalnej oscylacji, lub szybkiej przemiany w znaku , a także może mieć składnik sezonowy. Model ARIMA może być postrzegany jako 8220filter8221, który próbuje oddzielić sygnał od szumu, a sygnał jest następnie ekstrapolowany w przyszłość w celu uzyskania prognoz. Równanie prognostyczne ARIMA dla stacjonarnych szeregów czasowych jest równaniem liniowym (to jest typu regresyjnym), w którym predyktory składają się z opóźnień zmiennej zależnej i opóźnień błędów prognoz. Oznacza to: Przewidywaną wartość Y stałej stałej lub ważoną sumę jednej lub więcej ostatnich wartości Y i lub ważoną sumę jednej lub więcej ostatnich wartości błędów. Jeśli predykatory składają się tylko z opóźnionych wartości Y., jest to model czysto autoregresyjny (8220a-regressed8221), który jest tylko szczególnym przypadkiem modelu regresji i który może być wyposażony w standardowe oprogramowanie regresyjne. Na przykład, autoregresyjny model pierwszego rzędu (8220AR (1) 8221) dla Y jest prostym modelem regresji, w którym zmienna niezależna jest po prostu Y opóźniona o jeden okres (LAG (Y, 1) w Statgraphics lub YLAG1 w RegressIt). Jeśli niektóre z predyktorów są opóźnieniami błędów, to model ARIMA NIE jest modelem regresji liniowej, ponieważ nie ma sposobu, aby określić 8220last okres8217s błąd8221 jako zmienną niezależną: błędy muszą być obliczane na podstawie okresu do okresu kiedy model jest dopasowany do danych. Z technicznego punktu widzenia problem z wykorzystaniem opóźnionych błędów jako czynników predykcyjnych polega na tym, że przewidywania model8217 nie są liniowymi funkcjami współczynników. mimo że są liniowymi funkcjami przeszłych danych. Współczynniki w modelach ARIMA, które zawierają opóźnione błędy, muszą być oszacowane przez nieliniowe metody optymalizacji (8220hill-climbing8221), a nie przez samo rozwiązanie układu równań. Akronim ARIMA oznacza Auto-Regressive Integrated Moving Average. Lagi ze stacjonarnej serii w równaniu prognostycznym są nazywane "wartościami dodatnimi", opóźnienia błędów prognoz są nazywane "przesunięciem średniej", a szeregi czasowe, które muszą być różnicowane, aby stały się stacjonarne, są uważane za "podzielone" wersje stacjonarnej serii. Modele Random Walk i Random-Trend, modele autoregresyjne i modele wygładzania wykładniczego są szczególnymi przypadkami modeli ARIMA. Niesezonowy model ARIMA jest klasyfikowany jako model DAIMIMA (p, d, q), gdzie: p to liczba terminów autoregresyjnych, d to liczba niesezonowych różnic potrzebnych do stacjonarności, a q to liczba opóźnionych błędów prognozy w równanie predykcji. Równanie prognostyczne jest skonstruowane w następujący sposób. Po pierwsze, niech y oznacza różnicę d Y. Oznacza to: Zwróć uwagę, że druga różnica Y (przypadek d2) nie jest różnicą od 2 okresów temu. Jest to raczej różnica między pierwszą a różnicą. który jest dyskretnym analogiem drugiej pochodnej, tj. lokalnym przyspieszeniem szeregu, a nie jego lokalnym trendem. Pod względem y. ogólne równanie prognostyczne jest następujące: Tutaj parametry średniej ruchomej (9528217 s) są zdefiniowane w taki sposób, że ich znaki są ujemne w równaniu, zgodnie z konwencją wprowadzoną przez Boxa i Jenkinsa. Niektórzy autorzy i oprogramowanie (w tym język programowania R) definiują je, aby zamiast tego mieli znaki plus. Kiedy rzeczywiste liczby są podłączone do równania, nie ma dwuznaczności, ale ważne jest, aby wiedzieć, którą konwencję używa twoje oprogramowanie podczas odczytu danych wyjściowych. Często parametry są tam oznaczone przez AR (1), AR (2), 8230 i MA (1), MA (2), 8230 itd. Aby zidentyfikować odpowiedni model ARIMA dla Y. zaczynasz od określenia kolejności różnicowania (d) konieczność stacjonowania serii i usunięcia ogólnych cech sezonowości, być może w połączeniu z transformacją stabilizującą warianty, taką jak rejestracja lub deflacja. Jeśli zatrzymasz się w tym momencie i będziesz przewidywał, że zróżnicowana seria jest stała, dopasowałeś jedynie model losowego spaceru lub losowego trendu. Jednak stacjonarne serie mogą nadal mieć błędy związane z auto - korelacjami, co sugeruje, że w równaniu prognostycznym potrzebna jest również pewna liczba terminów AR (p 8805 1) i kilka warunków MA (q 8805 1). Proces określania wartości p, d i q, które są najlepsze dla danej serii czasowej, zostanie omówiony w dalszych sekcjach notatek (których linki znajdują się na górze tej strony), ale podgląd niektórych typów nietypowych modeli ARIMA, które są powszechnie spotykane, podano poniżej. ARIMA (1,0,0) Model autoregresyjny pierwszego rzędu: jeśli seria jest stacjonarna i autokorelowana, być może można ją przewidzieć jako wielokrotność jej poprzedniej wartości plus stałą. Równanie prognostyczne w tym przypadku wynosi 8230, co samo w sobie cofnęło się Y o jeden okres. Jest to model 8220ARIMA (1,0,0) constant8221. Jeżeli średnia z Y wynosi zero, wówczas nie zostałoby uwzględnione stałe wyrażenie. Jeśli współczynnik nachylenia 981 1 jest dodatni i mniejszy niż 1 w skali (musi być mniejszy niż 1 w wielkości, jeśli Y jest nieruchomy), model opisuje zachowanie polegające na odwróceniu średniej, w którym należy przypisać wartość kolejnego okresu 817 razy 981 razy jako daleko od średniej, jak ta wartość okresu. Jeżeli 981 1 jest ujemny, przewiduje zachowanie średniej odwrócenia z naprzemiennością znaków, tj. Przewiduje również, że Y będzie poniżej średniego następnego okresu, jeśli jest powyżej średniej tego okresu. W modelu autoregresyjnym drugiego rzędu (ARIMA (2,0,0)), po prawej stronie pojawi się również termin Y t-2 i tak dalej. W zależności od znaków i wielkości współczynników, model ARIMA (2,0,0) może opisywać układ, którego średnia rewersja zachodzi w sposób oscylacyjny sinusoidalnie, podobnie jak ruch masy na sprężynie poddanej losowym wstrząsom . Próba losowa ARIMA (0,1,0): Jeśli seria Y nie jest nieruchoma, najprostszym możliwym modelem jest model losowego spaceru, który można uznać za ograniczający przypadek modelu AR (1), w którym autoregresyjny Współczynnik jest równy 1, tzn. szeregowi z nieskończenie powolną średnią rewersją. Równanie predykcji dla tego modelu można zapisać jako: gdzie stałym terminem jest średnia zmiana okresu do okresu (tj. Dryf długoterminowy) w Y. Ten model może być dopasowany jako model regresji bez przechwytywania, w którym pierwsza różnica Y jest zmienną zależną. Ponieważ zawiera on (tylko) niesezonową różnicę i stały termin, jest klasyfikowany jako model DAIMA (0,1,0) ze stałą. Często Modelem bezładnego spaceru byłby ARIMA (0,1; 0) model bez stałego ARIMA (1,1,0) różny model autoregresyjny pierwszego rzędu: Jeśli błędy modelu chodzenia swobodnego są autokorelowane, być może problem można rozwiązać, dodając jedno opóźnienie zmiennej zależnej do równania predykcji - - to znaczy przez regresję pierwszej różnicy Y, która sama w sobie jest opóźniona o jeden okres. To przyniosłoby następujące równanie predykcji: które można przekształcić na To jest autoregresyjny model pierwszego rzędu z jednym rzędem niesezonowego różnicowania i stałym terminem - tj. model ARIMA (1,1,0). ARIMA (0,1,1) bez stałego prostego wygładzania wykładniczego: Inna strategia korekcji błędów związanych z autokorelacją w modelu losowego spaceru jest zasugerowana przez prosty model wygładzania wykładniczego. Przypomnijmy, że w przypadku niektórych niestacjonarnych szeregów czasowych (na przykład takich, które wykazują głośne wahania wokół wolno zmieniającej się średniej), model chodzenia losowego nie działa tak dobrze, jak średnia ruchoma wartości z przeszłości. Innymi słowy, zamiast brać ostatnią obserwację jako prognozę następnej obserwacji, lepiej jest użyć średniej z ostatnich kilku obserwacji, aby odfiltrować hałas i dokładniej oszacować średnią miejscową. Prosty model wygładzania wykładniczego wykorzystuje wykładniczo ważoną średnią ruchomą przeszłych wartości, aby osiągnąć ten efekt. Równanie predykcji dla prostego modelu wygładzania wykładniczego można zapisać w wielu matematycznie równoważnych formach. jedną z nich jest tak zwana forma 8220, korekta zera 8221, w której poprzednia prognoza jest korygowana w kierunku popełnionego błędu: Ponieważ e t-1 Y t-1 - 374 t-1 z definicji, można to przepisać jako : co jest równaniem ARIMA (0,1,1) - bez stałej prognozy z 952 1 1 - 945. Oznacza to, że możesz dopasować proste wygładzanie wykładnicze, określając je jako model ARIMA (0,1,1) bez stała, a szacowany współczynnik MA (1) odpowiada 1-minus-alfa w formule SES. Przypomnijmy, że w modelu SES średni wiek danych w prognozach z wyprzedzeniem 1 roku wynosi 1 945. Oznacza to, że będą one pozostawać w tyle za trendami lub punktami zwrotnymi o około 1 945 okresów. Wynika z tego, że średni wiek danych w prognozach 1-okresowych modelu ARIMA (0,1,1) - bez stałej wynosi 1 (1 - 952 1). Tak więc, na przykład, jeśli 952 1 0.8, średnia wieku wynosi 5. Ponieważ 952 1 zbliża się do 1, ARIMA (0,1,1) - bez stałego modelu staje się bardzo długookresową średnią ruchomą, a jako 952 1 zbliża się do 0, staje się modelem losowego chodzenia bez dryfu. Jaki jest najlepszy sposób korekcji autokorelacji: dodawanie terminów AR lub dodawanie terminów MA W dwóch poprzednich modelach omówionych powyżej, problem związanych z autokorelacją błędów w modelu losowego spaceru ustalono na dwa różne sposoby: przez dodanie opóźnionej wartości różnej serii do równania lub dodanie opóźnionej wartości błędu prognozy. Które podejście jest najlepsze Zasada praktyczna dla tej sytuacji, która zostanie omówiona bardziej szczegółowo w dalszej części, polega na tym, że pozytywna autokorelacja jest zwykle najlepiej traktowana przez dodanie do modelu warunku AR, a negatywna autokorelacja jest zwykle najlepiej traktowana przez dodanie Termin magisterski. W biznesowych i ekonomicznych szeregach czasowych negatywna autokorelacja często pojawia się jako artefakt różnicowania. (Ogólnie rzecz biorąc, różnicowanie zmniejsza pozytywną autokorelację, a nawet może spowodować przełączenie z autokorelacji dodatniej na ujemną). Tak więc model ARIMA (0,1,1), w którym różnicowanie jest połączone z terminem MA, jest częściej używany niż Model ARIMA (1,1,0). ARIMA (0,1,1) o stałym prostym wygładzaniu wykładniczym ze wzrostem: Dzięki wdrożeniu modelu SES jako modelu ARIMA można uzyskać pewną elastyczność. Po pierwsze, szacowany współczynnik MA (1) może być ujemny. odpowiada to współczynnikowi wygładzania większemu niż 1 w modelu SES, co zwykle nie jest dozwolone w procedurze dopasowania modelu SES. Po drugie, masz możliwość włączenia stałego warunku w modelu ARIMA, jeśli chcesz, aby oszacować średni niezerowy trend. Model ARIMA (0,1,1) ze stałą ma równanie prognozy: prognozy jednokresowe z tego modelu są jakościowo podobne do tych z modelu SES, z tym że trajektoria prognoz długoterminowych jest zwykle linia nachylenia (której nachylenie jest równe mu) zamiast linii poziomej. ARIMA (0,2,1) lub (0,2,2) bez stałego liniowego wygładzania wykładniczego: liniowe modele wygładzania wykładniczego są modelami ARIMA, które wykorzystują dwie niesezonowe różnice w połączeniu z terminami MA. Druga różnica w serii Y nie jest po prostu różnicą między Y a nią opóźnioną o dwa okresy, ale raczej jest pierwszą różnicą pierwszej różnicy - a. e. zmiana w Y w okresie t. Tak więc druga różnica Y w okresie t jest równa (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Druga różnica funkcji dyskretnej jest analogiczna do drugiej pochodnej funkcji ciągłej: mierzy ona przyspieszenie cytadania lub inną krzywiznę w funkcji w danym punkcie czasu. Model ARIMA (0,2,2) bez stałej przewiduje, że druga różnica szeregu równa się funkcji liniowej dwóch ostatnich błędów prognozy: która może być uporządkowana jako: gdzie 952 1 i 952 2 to MA (1) i Współczynniki MA (2). Jest to ogólny liniowy model wygładzania wykładniczego. w zasadzie taki sam jak model Holt8217s, a model Brown8217s to szczególny przypadek. Wykorzystuje wykładniczo ważone średnie ruchome do oszacowania zarówno lokalnego poziomu, jak i lokalnego trendu w serii. Długoterminowe prognozy z tego modelu zbiegają się do linii prostej, której nachylenie zależy od średniej tendencji obserwowanej pod koniec serii. ARIMA (1,1,2) bez stałego liniowego tłumienia wykładniczego. Ten model jest zilustrowany na załączonych slajdach w modelach ARIMA. Ekstrapoluje lokalny trend na końcu serii, ale spłaszcza go na dłuższych horyzontach prognozy, wprowadzając nutę konserwatyzmu, praktykę, która ma empiryczne wsparcie. Zobacz artykuł na ten temat: "Dlaczego działa Damped Trend" autorstwa Gardnera i McKenziego oraz artykuł "Zgodny z legendą" Armstronga i in. dla szczegółów. Ogólnie zaleca się trzymać modele, w których co najmniej jedno z p i q jest nie większe niż 1, tj. Nie próbować dopasować modelu takiego jak ARIMA (2,1,2), ponieważ może to prowadzić do przeuczenia oraz pytania o współczynniku równomolowym, które omówiono bardziej szczegółowo w uwagach dotyczących struktury matematycznej modeli ARIMA. Implementacja arkusza kalkulacyjnego: modele ARIMA, takie jak opisane powyżej, można łatwo wdrożyć w arkuszu kalkulacyjnym. Równanie predykcji jest po prostu równaniem liniowym, które odnosi się do przeszłych wartości pierwotnych szeregów czasowych i przeszłych wartości błędów. W ten sposób można skonfigurować arkusz kalkulacyjny prognozowania ARIMA, przechowując dane w kolumnie A, formułę prognozowania w kolumnie B oraz błędy (dane minus prognozy) w kolumnie C. Formuła prognozowania w typowej komórce w kolumnie B byłaby po prostu wyrażenie liniowe odnoszące się do wartości w poprzednich wierszach kolumn A i C, pomnożone przez odpowiednie współczynniki AR lub MA przechowywane w komórkach w innym miejscu arkusza kalkulacyjnego. Zachowawcze średnie ruchome ARMA (p, q) Modele analizy szeregów czasowych - część 3 Jest to trzecie i ostatnie stanowisko w mini-serii modeli Autoregressive Moving Average (ARMA) do analizy szeregów czasowych. Wprowadziliśmy modele autoregresyjne i modele średniej ruchomej w dwóch poprzednich artykułach. Teraz nadszedł czas, aby je połączyć, aby stworzyć bardziej wyrafinowany model. Ostatecznie doprowadzi nas to do modeli ARIMA i GARCH, które pozwolą nam przewidywać zwroty aktywów i przewidywać zmienność. Modele te będą stanowić podstawę sygnałów transakcyjnych i technik zarządzania ryzykiem. Jeśli przeczytasz część 1 i część 2, zauważysz, że mamy tendencję do podążania za wzorcem do analizy modelu szeregów czasowych. Poniżej krótko powtórzę tutaj: Uzasadnienie - dlaczego jesteśmy zainteresowani tym konkretnym modelem. Definicja - matematyczna definicja w celu zmniejszenia niejednoznaczności. Korelogram - Wykreślanie przykładowego korelogramu w celu wizualizacji zachowania modeli. Symulacja i dopasowanie - Dopasowanie modelu do symulacji, aby upewnić się, że poprawnie zrozumieliśmy model. Real Financial Data - zastosuj model do rzeczywistych historycznych cen aktywów. Prognozy - Prognozuj kolejne wartości, aby zbudować sygnały handlowe lub filtry. Aby zapoznać się z tym artykułem, warto zapoznać się z wcześniejszymi artykułami na temat analizy szeregów czasowych. Można je wszystkie znaleźć tutaj. Bayesian Information Criterion W części 1 tej serii artykułów przyjrzeliśmy się Akaike Information Criterion (AIC) jako sposobowi pomocy w wyborze między oddzielnymi najlepszymi modelami szeregów czasowych. Powiązanym narzędziem jest Bayesian Information Criterion (BIC). Zasadniczo zachowuje się podobnie do AIC, ponieważ karze modele za zbyt wiele parametrów. Może to prowadzić do przeuczenia. Różnica między BIC i AIC polega na tym, że BIC jest bardziej rygorystyczny z penalizacją dodatkowych parametrów. Bayesian Information Criterion Jeśli przyjmiemy funkcję prawdopodobieństwa dla modelu statystycznego, który ma k parametrów, a L maksymalizuje prawdopodobieństwo. następnie Bayesian Information Criterion jest określony przez: Gdzie n jest liczbą punktów danych w szeregach czasowych. Przy wyborze odpowiednich modeli ARMA (p, q) będziemy korzystać z AIC i BIC poniżej. Test Ljung-Box W części 1 tej serii artykułów Rajan wspomniał w komentarzu Disqus, że test Ljung-Box był bardziej odpowiedni niż użycie Kryterium Akaike w Kryteriach Bayesowskich w podejmowaniu decyzji, czy model ARMA był odpowiedni do czasu seria. Test Ljung-Box jest klasycznym testem hipotezy, który ma na celu sprawdzenie, czy zestaw autokorelacji dopasowanego modelu szeregu czasowego różni się znacznie od zera. Test nie testuje każdego pojedynczego opóźnienia dla losowości, ale raczej testuje losowość w grupie opóźnień. Test Ljung-Box Definiujemy hipotezę zerową jako: Dane szeregów czasowych dla każdego opóźnienia wynoszą i. i.d .. tzn. Korelacje między wartościami szeregu populacji są zerowe. Definiujemy hipotezę alternatywną jako: Dane szeregu czasowego nie są i. i.d. i posiadają szeregową korelację. Obliczamy następującą statystykę testu. P: Gdzie n jest długością próbki szeregów czasowych, kapelusz k jest autokorelacją próbki przy opóźnieniu k, a h jest liczbą opóźnień w teście. Reguła decyzyjna dotycząca odrzucenia hipotezy zerowej polega na sprawdzeniu, czy Q gt22, dla rozkładu chi-kwadrat z h stopniami swobody na percentyl 100 (1-alfa). Chociaż szczegóły testu mogą wydawać się nieco skomplikowane, w rzeczywistości możemy użyć R, aby obliczyć test dla nas, upraszczając nieco procedurę. Autogresywna średnia ruchoma (ARMA) Modele rzędu p, q Teraz, gdy omówiliśmy BIC i test Ljung-Box, byliśmy gotowi omówić nasz pierwszy mieszany model, a mianowicie autoregresyjną średnią ruchomą rzędu p, q lub ARMA (p, q). Do tej pory rozważaliśmy procesy autoregresyjne i procesy średniej ruchomej. Poprzedni model traktuje własne zachowanie w przeszłości jako dane wejściowe dla modelu i jako takie próbuje uchwycić efekty uczestnika rynku, takie jak momentum i średnia-odwrócenie w obrocie giełdowym. Ten drugi model służy do scharakteryzowania informacji o szokach dla szeregu, takich jak niespodziewane ogłoszenie wyników lub niespodziewane zdarzenie (takie jak wyciek ropy z oleju BP Deepwater Horizon). W związku z tym model ARMA próbuje uchwycić oba te aspekty podczas modelowania finansowych szeregów czasowych. Należy zauważyć, że model ARMA nie uwzględnia klastrów zmienności, kluczowych zjawisk empirycznych wielu finansowych szeregów czasowych. Nie jest to model warunkowo heteroscedastyczny. W tym celu będziemy musieli poczekać na modele ARCH i GARCH. Definicja Model ARMA (p, q) jest liniową kombinacją dwóch modeli liniowych, a zatem sam jest nadal liniowy: autoregresyjny model średniej ruchomej rzędu p, q model szeregów czasowych, jest autoregresyjnym modelem średniej ruchomej rzędu p, q . ARMA (p, q), jeśli: rozpocząć xt alpha1 x alpha2 x ldots wt beta1 w beta2 w ldots betaq w koniec Gdzie jest biały szum z E (wt) 0 i wariancją sigma2. Jeśli weźmiemy pod uwagę operację przesunięcia wstecznego. (patrz poprzedni artykuł), możemy przepisać powyższe jako funkcję theta i phi: Możemy wprost zobaczyć, że ustawiając p neq 0 i q0 odzyskujemy model AR (p). Podobnie, jeśli ustawimy p 0 i q neq 0, odzyskamy model MA (q). Jedną z kluczowych cech modelu ARMA jest to, że jest oszczędny i nadmiarowy w swoich parametrach. Oznacza to, że model ARMA często wymaga mniejszej liczby parametrów niż sam model AR (p) lub MA (q). Ponadto, jeśli przepisujemy równanie w kategoriach BSO, to theta i phi wielomian mogą czasami mieć wspólny współczynnik, co prowadzi do prostszego modelu. Symulacje i korelogramy Podobnie jak w przypadku modeli autoregresyjnych i ruchomych średniej, będziemy teraz symulować różne serie ARMA, a następnie spróbujemy dopasować modele ARMA do tych realizacji. Przeprowadzamy tę operację, ponieważ chcemy upewnić się, że rozumiemy procedurę dopasowania, w tym sposób obliczania przedziałów ufności dla modeli, a także upewnić się, że procedura rzeczywiście zwraca rozsądne szacunki dla oryginalnych parametrów ARMA. W części 1 i części 2 ręcznie skonstruowaliśmy serie AR i MA, pobierając N próbek z rozkładu normalnego, a następnie tworząc specyficzny model szeregów czasowych wykorzystując opóźnienia tych próbek. Istnieje jednak prostszy sposób symulacji danych AR, MA, ARMA, a nawet ARIMA, po prostu za pomocą metody arima. sim w R. Zacznij od najprostszego możliwego nietrywialnego modelu ARMA, a mianowicie ARMA (1,1) ) Model. To jest autoregresyjny model rzędu pierwszego w połączeniu z modelem średniej ruchomej rzędu pierwszego. Taki model ma tylko dwa współczynniki, alfa i beta, które reprezentują pierwsze opóźnienia samych szeregów czasowych i szumowo-szumowe. Taki model daje: Musimy określić współczynniki przed symulacją. Przyjmijmy alfa 0.5 i beta -0,5: Wynik jest następujący: Pozwala również na wykreślenie korelogramu: Widzimy, że nie ma znaczącej autokorelacji, której można oczekiwać od modelu ARMA (1,1). Na koniec, spróbujmy określić współczynniki i ich błędy standardowe za pomocą funkcji arima: Możemy obliczyć przedziały ufności dla każdego parametru przy użyciu błędów standardowych: przedziały ufności zawierają prawdziwe wartości parametrów dla obu przypadków, jednak należy pamiętać, że 95 przedziałów ufności jest bardzo szeroki (co wynika z dość dużych błędów standardowych). Spróbujmy teraz modelu ARMA (2,2). To znaczy, model AR (2) w połączeniu z modelem MA (2). Musimy określić cztery parametry dla tego modelu: alpha1, alpha2, beta1 i beta2. Weźmy alpha1 0.5, alpha2-0.25 beta10.5 i beta2-0.3: Wyjście naszego modelu ARMA (2,2) wygląda następująco: I odpowiednia autokorelacja: teraz możemy spróbować dopasować model ARMA (2,2) do dane: Możemy również obliczyć przedziały ufności dla każdego parametru: Należy zauważyć, że przedziały ufności dla współczynników dla ruchomej średniej składowej (beta1 i beta2) w rzeczywistości nie zawierają oryginalnej wartości parametru. Wskazuje to na niebezpieczeństwo próby dopasowania modeli do danych, nawet jeśli znamy prawdziwe wartości parametrów. Jednak w celach handlowych potrzebujemy tylko siły predykcyjnej, która przewyższa ryzyko i zapewnia wystarczający zysk powyżej kosztów transakcji, aby przynosić zysk w długi bieg. Teraz, gdy zobaczyliśmy przykłady symulowanych modeli ARMA, potrzebujemy mechanizmu wyboru wartości p i q przy dopasowywaniu modeli do rzeczywistych danych finansowych. Wybór najlepszego modelu ARMA (p, q) Aby ustalić, która kolejność p, q modelu ARMA jest odpowiednia dla serii, musimy użyć AIC (lub BIC) w podzbiorze wartości dla p, q i następnie zastosuj test Ljung-Box, aby określić, czy osiągnięto dobre dopasowanie dla poszczególnych wartości p, q. Aby pokazać tę metodę, najpierw będziemy symulować konkretny proces ARMA (p, q). Następnie przelecimy pętlę nad wszystkimi parami wartości p i q in i obliczymy AIC. Wybieramy model z najniższym AIC, a następnie przeprowadzamy test Ljung-Box na reszcie, aby ustalić, czy osiągnęliśmy dobre dopasowanie. Zacznijmy od symulacji serii ARMA (3,2): Stworzymy teraz obiekt końcowy, aby zachować najlepsze dopasowanie modelu i najniższą wartość AIC. Przeglądamy różne kombinacje p, q i używamy bieżącego obiektu do przechowywania dopasowania modelu ARMA (i, j) dla zmiennych pętli i oraz j. Jeśli aktualny AIC jest mniejszy niż jakikolwiek wcześniej obliczony AIC, ustawiamy końcowy AIC na tę wartość bieżącą i wybieramy tę kolejność. Po zakończeniu pętli mamy porządek modelu ARMA zapisanego w final. order, a ARIMA (p, d, q) pasuje do siebie (z Zintegrowanym komponentem d ustawionym na 0) zapisanym jako final. arma: Pozwala na wyprowadzenie AIC , porządek i współczynniki ARIMA: Widzimy, że pierwotna kolejność symulowanego modelu ARMA została odzyskana, a mianowicie p3 i q2. Możemy wykreślić skandalogram reszty modelu, aby zobaczyć, czy wyglądają one jak realizacja dyskretnego szumu białego (DWN): ten skrętek wygląda jak realizacja DWN. Na koniec, wykonujemy test Ljung-Box na 20 opóźnień, aby to potwierdzić: Zauważ, że wartość p jest większa niż 0,05, co oznacza, że ​​reszty są niezależne na poziomie 95, a zatem model ARMA (3,2) zapewnia dobry model. Oczywiście tak powinno być, ponieważ sami przeprowadziliśmy symulację danych. Jednak to jest właśnie procedura, której użyjemy, gdy dopasujemy modele ARMA (p, q) do indeksu SampP500 w poniższej sekcji. Dane finansowe Teraz, gdy już nakreśliliśmy procedurę wyboru optymalnego modelu szeregu czasowego dla symulowanej serii, dość proste jest zastosowanie jej do danych finansowych. W tym przykładzie ponownie wybierzmy indeks SampP500 US Equity Index. Pobierz dzienne ceny zamknięcia za pomocą quantmod, a następnie utwórz strumień zwrotów dziennika: Wykonaj tę samą procedurę dopasowania, jak w przypadku symulowanej serii ARMA (3,2) powyżej w serii raportów dotyczących logów SampP500 przy użyciu modelu AIC: najlepiej dopasowany model ma zlecenie ARMA (3,3): Pozwala na wykreślenie pozostałości dopasowanego modelu do dziennego strumienia zwrotów dziennika SampP500: Zauważ, że istnieje kilka znaczących wartości szczytowych, szczególnie przy wyższych opóźnieniach. Wskazuje to na słabe dopasowanie. Wykonaj test Ljung-Box, aby sprawdzić, czy mamy dowody statystyczne na to: Jak podejrzewaliśmy, wartość p jest mniejsza niż 0,05 i jako taka nie możemy powiedzieć, że reszty są realizacją dyskretnego białego szumu. Stąd istnieje dodatkowa autokorelacja w resztach, która nie jest wyjaśniona przez dopasowany model ARMA (3,3). Kolejne kroki Jak omawialiśmy cały czas w tej serii artykułów, zaobserwowaliśmy dowody warunkowej heteroscedastyczności (klastrowanie zmienności) w serii SampP500, szczególnie w okresach około 2007-2008. Kiedy użyjemy modelu GARCH w dalszej części artykułu, zobaczymy, jak wyeliminować te autokorelacje. W praktyce modele ARMA zazwyczaj nie są odpowiednie do zwrotów akcji z logów. Musimy wziąć pod uwagę warunkową heteroscedastyczność i zastosować kombinację ARIMA i GARCH. W następnym artykule przyjrzymy się ARIMA i pokażemy, jak komponent Zintegrowany różni się od modelu ARMA, który rozważaliśmy w tym artykule. Właśnie zaczyna się handel ilościowy

No comments:

Post a Comment