自相关性为时间序列数据和建模提供数据分析,广泛应用于计量经济学、信号处理和需求预测。
自相关或序列相关会分析时间序列数据,以寻找时间序列中不同点位置的值的相关性。这一重要的分析方法可衡量某个值与自身的相关性。我们并非计算不同变量(如 X1 和 X2)之间的相关系数,而是计算变量自身在整个数据集的各时间步长上的相关程度。构建线性回归模型时,其中一项主要假设是预测该模型中独立变量的误差均相互独立。很多时候,在处理时间序列数据时,您会发现与时间相关的误差。换言之,出现误差依赖性的原因在于时间因素。随时间相关的误差项被称为自相关误差。此类误差会导致某些更常见的线性回归创建方法(例如,普通最小二乘法)出现问题。解决这些问题的方法是:使用自相关检验所确定的时间滞后对因变量自身进行回归。“滞后”仅为因变量的先前值。如果您有月度数据且想预测即将到来的月份,则可将前两个月的值用作输入。这意味着您会用当前值对前两个滞后进行回归。
与相关性衡量两个变量之间的线性关系相同,自相关性通过线性模型衡量时间序列的滞后值之间的关系。当数据具有趋势时,小滞后的自相关性往往很大且为正,因为时间上接近的观测值在值上也接近。因此,趋势时间序列的自相关性函数(通常称为 ACF)往往具有随着滞后增加而缓慢减小的正值。
当数据存在季节性波动或某些模式时,季节性滞后(季节性周期的倍数)的自相关性则比其他滞后的自相关性更高。当趋势性和季节性数据同时存在时,则会看到这些效应的结合。未显示自相关的时间序列属于真正的随机流程,且被称为白噪声。ACF 是时间序列中两个值之间的相关系数。
自相关检验的几种主要方法如下:
您可以计算残差,并绘制时间 t 时的标准误差(通常写为 et,针对 t)。位于零线一侧的任何残差聚类都可能表明自相关性的存在位置以及其显著性。
运行 Durbin-Watson 检验可以帮助确定时间序列是否包含自相关性。要在 R 中执行此操作,请创建一个线性回归,使因变量回归时间,然后传递该模型来计算 Durbin-Watson 统计数据。要在 Python 中执行此操作,您可以将残差从拟合的线性回归模型传递到检验。
另一种选择是使用 Ljung Box 检验,将时间序列的值直接传递给检验。Ljung-Box 检验的零假设是残差独立分布,备择假设是残差不独立分布且表现出自相关性。这实际上意味着,小于 0.05 的结果表明时间序列中存在自相关性。Python 和 R 库都提供了运行此检验的方法。
最常见的选择是,使用由时间序列中特定滞后期之间的相关性生成的可视化相关图。结果中的模式表明存在自相关性。这是通过显示整个时间序列中不同滞后的相关性程度来绘制的。示例图如下所示:
非随机数据至少存在一个明显滞后。当该数据并非随机数据时,这很好地表明您需要使用时间序列分析或将滞后纳入回归分析,以便对该数据进行正确建模。
时间序列的一些基本特征可以通过自相关性来识别。
平稳时间序列具有随时间恒定的统计属性。这意味着平均值、方差和自相关性等统计数据不会随数据的变化而变化。大多数统计预测方法,包括 ARMA 和 ARIMA,都是基于这样的假设:时间序列可以通过一次或多次变换变得近似平稳。平稳序列相对容易预测,因为您可以简单地预测未来的统计属性将与过去大致相同。平稳性意味着时间序列没有趋势,具有恒定的方差、恒定的自相关性模式,并且没有季节性模式。对于平稳时间序列,ACF 迅速下降到接近零。相比之下,对于非平稳时间序列,ACF 会缓慢下降。
时间序列数据的一项关键特征为:该数据中是否呈现了某种趋势。例如,过去 50 年中杂货店基本主食的价格会呈现出一种趋势,因为通货膨胀会推高这些价格。预测包含趋势的数据可能十分困难,因为趋势会掩盖数据中的其他模式。如果该数据具有一条稳定的趋势线,且它始终会恢复到该趋势线,则它可能具有趋势平稳性;在此情况下,只需拟合趋势线并在将模型拟合到该趋势之前从数据中去除此趋势,即可删除该趋势。如果该数据不具备趋势平稳性,则它可能具有差分平稳性;在此情况下,可通过差分来删除该趋势。最简单的差异化方法是从每个值中减去前一个值,从而测量时间序列数据中存在的变化量。例如,如果 Yt 是时间序列 Y 在周期 t 的对应值,则 Y 在周期 t 的一阶差等于 Yt - Yt-1。当时间序列中存在趋势时,较短的滞后在 ACF 中通常具有强正相关性或强负相关性值,因为时间更为接近的观测值往往具有相似的值。随着滞后的增加,ACF 中的相关性会慢慢减弱。
季节性是指时间序列包含季节性波动或变化。我们或许应该预期冰淇淋的销售量在夏季会增加,而在冬季会减少;滑雪销售量可能会在深秋骤增,而在初夏下降。季节性可能以不同的时间间隔出现,例如几天、几周或几个月。时间序列分析的关键是了解季节性如何影响我们的序列,从而使我们对未来做出更好的预测。当存在季节性模式时,ACF 值将比其他滞后更能显示季节性频率倍数的滞后自相关性。
偏自相关函数(通常称为 PACF)与 ACF 类似,不同之处在于它仅显示两个观测值之间的相关性,而这些观测值之间的较短滞后无法解释这些相关性。ACF 图显示了不同 k 值下,yt 和 yt−k 之间的关系。如果 yt 和 yt−1 彼此相关,那么我们可以假设 yt−1 和 yt−2 也将相关,因为它们都以 1 的滞后连接。然而,yt 和 yt−2 也可能仅仅是因为它们都与 yt−1 相关,而不是因为 yt−2 中包含可用于预测 yt 的新信息。为了解决这个问题,我们使用偏自相关性来删除一些滞后观测值。PACF 通过消除滞后 1 至 k 的影响,仅度量 yt 和 yt−k 之间的关系。第一个偏自相关性始终与第一个自相关性相同,因为它们之间没有要删除的新数据。所有后续滞后将仅显示消除所有中间滞后之后的滞后之间的关系。通过观察正自相关的值或负自相关的值较大的地方,通常可以更精确地估计哪些滞后可能包含季节性的迹象。
实际上,ACF 可帮助评估时间序列的属性。另一方面,PACF 在自回归模型的指定过程中更有用。数据科学家或分析人员将使用偏自相关图来指定具有时间序列数据的回归模型、自回归移动平均 (ARMA) 或自回归综合移动平均 (ARIMA) 模型。
企业要想蓬勃发展,就必须利用数据建立客户忠诚度,实现业务流程自动化,并利用 AI 驱动的解决方案进行创新。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
推出 Cognos Analytics 12.0,人工智能驱动洞察分析可以更好地做出决策。