分析时间序列相关算法

时间 2019-12-08 标签分析时间序列相关算法

首先，从时间的角度能够把一个序列基本分为3类：python

1.纯随机序列（白噪声序列），这时候能够中止分析，由于就像预测下一次硬币哪一面朝上同样毫无规律。算法

2.平稳非白噪声序列，它们的均值和方差是常数，对于这类序列，有成熟的模型来拟合这个序列在将来的发展情况，如AR，MA，ARMA等（具体模型算法及实如今后面）api

3.非平稳序列，通常作法是把他们转化为平稳的序列，在按照平稳序列的算法进行拟合。若是通过差分后平稳，则应使用ARIMA模型进行拟合。app

注：本文模型采用的数据为某餐厅一个多月内的销量数据，包含两个特征：时间和销量ui

Q1：序列的平稳性用什么来衡量呢？

方法1：

根据时序图和自相关图的特征作出主观的判断，以下图：
时序图：

自相关图：

从上图能够基本看出，自相关系数的绝对值长期都保持了较大的值，因此能够判断上述时间序列存在自相关性。spa

平稳的序列自相关图和偏自相关图不是拖尾就是截尾。.net

截尾就是在某阶以后，系数都为 0 。
拖尾就是有一个衰减的趋势，可是不都为 0 。3d

从自相关图来看，呈现三角对称形式，不存在截尾或拖尾，属于单调序列的典型表现形式，原始数据属于不平稳序列。excel

注：code

若是自相关是拖尾，偏相关截尾，则用 AR 算法
若是自相关截尾，偏相关拖尾，则用 MA 算法
若是自相关和偏相关都是拖尾，则用 ARMA 算法， ARIMA 是 ARMA 算法的扩展版，用法相似。

相关系数的计算方法：

VAR表示方差

方法2：

根据单位根检验

若是存在单位根，则此序列为随机非平稳序列

Q2：平稳序列应该怎么分析呢？

目前最经常使用的拟合平稳序列的模型为ARMA（Autoregressive moving average）模型，全称是自回归移动平均模型，他又能够分为AR模型，MA模型和ARMA模型三大类。

1.自回归AR(p)模型

自回归模型描述的是当前值与历史值之间的关系。

2.移动平均MA(q)模型

移动平均模型描述的是自回归部分的偏差累计。

3.ARMA(p,q)模型

ARMA(p,q)模型中包含了p个自回归项和q个移动平均项，ARMA(p,q)模型能够表示为：

当q=0时，是AR(p)模型
当p=0时，是MA(q)模型

通常分析步骤：

Q3：非平稳序列怎么分析呢？

从上面的模型中能够看出，若是是非平稳序列，咱们须要先把它转为平稳序列以后再进行分析。

通常咱们使用ARIMA(Autoregressive Integrated Moving Average model)进行分析

ARIMA（p，d，q）中，AR是”自回归”，p为自回归项数；MA为”滑动平均”，q为滑动平均项数，d为使之成为平稳序列所作的差分次数（阶数）。

“差分”一词虽未出如今ARIMA的英文名称中，倒是关键步骤。

Q4：举个栗子看下呗！

读取数据

#-*- coding: utf-8 -*-
#arima时序模型

import pandas as pd

#参数初始化
discfile = '../data/arima_data.xls'
forecastnum = 5

#读取数据，指定日期列为指标，Pandas自动将“日期”列识别为Datetime格式
data = pd.read_excel(discfile, index_col = u'日期')

自相关检测

#时序图
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号
data.plot()
plt.show()

#自相关图
from statsmodels.graphics.tsaplots import plot_acf
plot_acf(data).show()

#平稳性检测
from statsmodels.tsa.stattools import adfuller as ADF
print(u'原始序列的ADF检验结果为：', ADF(data[u'销量']))
#返回值依次为adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore

自相关图

能够看出自相关系数的绝对值长期都保持很大，多以基本判断存在自相关性。

ADF检测结果p值显著大于0.05（p=0.9983），最终判断为非平稳序列

一阶差分后继续检测

#差分后的结果
D_data = data.diff().dropna()
D_data.columns = [u'销量差分']
D_data.plot() #时序图
plt.show()
plot_acf(D_data).show() #自相关图
from statsmodels.graphics.tsaplots import plot_pacf
plot_pacf(D_data).show() #偏自相关图
print(u'差分序列的ADF检验结果为：', ADF(D_data[u'销量差分'])) #平稳性检测

#白噪声检验
from statsmodels.stats.diagnostic import acorr_ljungbox
print(u'差分序列的白噪声检验结果为：', acorr_ljungbox(D_data, lags=1)) #返回统计量和p值

上图是差分后的销量结果

自相关图显示出1阶截尾的性质

偏自相关图显示出1阶拖尾的性质

从ADF的结果（p=0.0226）和自相关图以及偏自相关图中能够看出一阶差分后的序列是平稳的非白噪声序列。

给ARIMA模型定阶
从一阶差分后的序列是平稳的非白噪声序列能够看出ARIMA模型中的d=1

定阶方法：
1.人为判断：自相关图显示出从第1阶以后的截尾性质，偏自相关图从第1阶以后显示出拖尾的性质，因此人为判断使用MA(1)模型，即ARMA(0,1,1)
2.相对最优模型识别，当p和q均小于等于3的全部组合的BIC信息量，取其中BIC信息量达到最小的模型阶数。

#定阶
pmax = int(len(D_data)/10) #通常阶数不超过length/10
qmax = int(len(D_data)/10) #通常阶数不超过length/10
bic_matrix = [] #bic矩阵
for p in range(pmax+1):
  tmp = []
  for q in range(qmax+1):
    try: #存在部分报错，因此用try来跳过报错。
      tmp.append(ARIMA(data, (p,1,q)).fit().bic)
    except:
      tmp.append(None)
  bic_matrix.append(tmp)

bic_matrix = pd.DataFrame(bic_matrix) #从中能够找出最小值

p,q = bic_matrix.stack().idxmin() #先用stack展平，而后用idxmin找出最小值位置。
print(u'BIC最小的p值和q值为：%s、%s' %(p,q))

BIC矩阵
取其中BIC信息量达到最小的模型阶数。

肯定p=0，q=1

拟合模型

model = ARIMA(data, (p,1,q)).fit() #创建ARIMA(0, 1, 1)模型
model.summary2() #给出一份模型报告
model.forecast(5) #做为期5天的预测，返回预测结果、标准偏差、置信区间。