常用的时间序列分析方法总结和代码示例

时间序列是最流行的数据类型之一。视频,图像,像素,信号,任何有时间成分的东西都可以转化为时间序列。

在本文中将在分析时间序列时使用的常见的处理方法。这些方法可以帮助你获得有关数据本身的见解,为建模做好准备并且可以得出一些初步结论。

我们将分析一个气象时间序列。利用逐时ERA5 Land[1]研究2023年西伯利亚东南部点的2 m气温、总降水量、地表净太阳辐射和地表压力。

首先我们导入相关的库:

 import pandas as pd
 import seaborn as sns
 import numpy as np
 
 import matplotlib.pyplot as plt
 import xarray as xr
 
 import statsmodels.api as sm
 from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
 from scipy import stats

matplotlib是可以设置不同的风格的,这里我们使用 opinionated和 ambivalent来进行风格的设置

 from ambivalent import STYLES
 import opinionated
 plt.style.use(STYLES['ambivalent'])
 plt.style.use("dark_background")

折线图

要观察一个时间序列,最简单的方法就是折线图。为了处理地理空间多维数组,我们将使用xarray库。

 data = xr.open_dataset('Medium_data.nc')
 data

现在我们需要针对所选位置对数据进行切片,并将其转换为pandas DF,并创建一个线形图:

 df = data.sel(latitude=52.53, longitude=101.63, method='pad').to_pandas().drop(['latitude', 'longitude'], axis=1)
 fig, ax = plt.subplots(ncols = 2, nrows = 2, figsize=(16,9))
 df['t2m'].plot(ax=ax[0,0])
 ax[0,0].set_title('Air Temperature')
 df['ssr'].plot(ax=ax[0,1])
 ax[0,1].set_title('Surface Net Solar Radiation')
 df['sp'].plot(ax=ax[1,0])
 ax[1,0].set_title('Surface Pressure')
 df['tp'].plot(ax=ax[1,1])
 ax[1,1].set_title('Total Precipitation')
 plt.tight_layout()
 plt.show()

从线形图中可以清楚地看出,所有四个时间序列都有不同的特征,下面让我们使用数学工具来研究它们。

分解与平稳性

任何时间序列都有三个重要属性需要考虑:

1、趋势是时间序列中平稳的长期变化;

2、季节性指的是一个时间序列的平均值有规律的周期性变化;

3、噪声(残差),它是均值为零的信号的随机成分。

为了分别得到这些成分,可以使用经典分解(加性或乘法)。该操作是通过应用卷积滤波器产生的,因此每个时间序列分量被定义为

或者

这里的y为时间序列的值,S为季节分量,T为趋势分量,n为噪声。

为了进行分解,除了选择分解类之外,还需要设置一个季节周期(例如,p=1表示年度数据,p=4表示季度数据,p=12表示月度数据等)。

前面提到的经典分解是一种非常幼稚和简单的方法。它具有明显的局限性,如线性,无法捕捉动态季节性和难以处理时间序列中的非平稳性,但是就本文作为演示,这种方法是可以的。

为了进行经典的分解,我们将使用statmodels库中的seasonal_decomposition函数,周期等于24,因为我们处理的是每小时的数据:

 vars = {'t2m': 'Air Temperature', 'tp': 'Total Precipitation', 'sp': 'Surface Pressure', 'ssr': 'Surface Net Solar Radiation'}
 for var in df.columns:
   result = sm.tsa.seasonal_decompose(df[var], model='additive', period = 24)
   results_df = pd.DataFrame({'trend': result.trend, 'seasonal': result.seasonal, 'resid': result.resid, 'observed': result.observed})
   fig, ax = plt.subplots(ncols = 2, nrows = 2,figsize=(16,9))
   ax[0,0].plot(df.index, results_df.trend)
   ax[0,0].set_title('Trend')
   ax[0,0].set_ylabel('Value')
 
   ax[0,1].plot(df.index, results_df.seasonal)
   ax[0,1].set_title('Seasonal')
 
   ax[1,0].plot(df.index, results_df.resid)
   ax[1,0].set_title('Residual')
   ax[1,0].set_ylabel('Value')
   ax[1,0].set_xlabel('time')
 
   ax[1,1].plot(df.index, results_df.observed)
   ax[1,1].set_title('Observed')
   ax[1,1].set_xlabel('time')
 
   opinionated.set_title_and_suptitle(vars[var], f"Dickey-Fuller test: {round(sm.tsa.stattools.adfuller(df[var])[1],5)}", position_title=[0.45,1],
                                      position_sub_title=[0.95, 1])
   plt.tight_layout()
   plt.savefig(f'Seasonal_{var}.png')
   plt.show()

你可以看到,对于所有的变量,季节性因素看起来都很混乱。这是因为我们分析的是每小时的数据,这些季节变化是在一天内观察到的,并没有直接的关联。所以我们可以尝试将数据重新采样到每日间隔,并在一天的时间段内进行分解。

 df_d = df.resample('1d').mean()

请注意到图表右上角的Dickey-Fuller(ADF) 。这是一个平稳性测试,使用的是adfuller函数。对于时间序列,平稳性意味着时间序列的属性不随时间变化。我们这里说的属性是指:方差、季节性、趋势和自相关性。

Dickey-Fuller (ADF)检验的流程是:提出时间序列是非平稳的零假设。然后我们选择显著性水平α,通常为5%。α是错误地拒绝零假设的概率,而零假设实际上是正确的。所以在我们的例子中,α=5%有5%的风险得出时间序列是平稳的,而实际上不是。

测试结果会给出一个p值。如果小于0.05,我们可以拒绝零假设。可以看到,根据ADF检验所有4个变量都是平稳的。

一般情况下要应用时间序列预测模型,如ARIMA等,平稳性是必须的。这也是我们选择气象数据的原因,因为它们在大多数情况下是平稳的,所以才会出现在不同的时间序列相关的学习材料中进行分析。

分布

在得出所有时间序列都是平稳的结论之后,让我们来看看它们是如何分布的。我们将使用著名的seaborn库及其函数pairplot,该函数允许使用历史和kde创建信息丰富的图。

 ax = sns.pairplot(df, diag_kind='kde')
 ax.map_upper(sns.histplot, bins=20)
 ax.map_lower(sns.kdeplot, levels=5, color='.1')
 plt.show()

让我们考虑t2m(1行1列)的示例。在分析核密度估计(kde)图时,很明显这个变量的分布是多模态的,这意味着它由2个或更多的“钟形”组成。在本文的后续阶段中,我们将尝试将变量转换为类似于正态分布的形式。

第一列和第一行中的其他图是相同的,但它们的可视化方式不同。这些是散点图,可以确定两个变量是如何相关的。所以一个点的颜色越深,或者离中心圆越近,这个区域内点的密度就越高。

Box-Cox转换

由于我们已经发现气温时间序列是平稳的,但不是正态分布,所以可以尝试使用Box-Cox变换来修复它。这里使用scipy包及其函数boxcox。

 df_d['t2m_box'], _ = stats.boxcox(df_d.t2m)
 fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(15,7))
 sns.histplot(df_d.t2m_box, kde=True, ax=ax[0])
 sns.histplot(df_d.t2m, kde=True, ax=ax[1])

图的左边部分是经过BoxCox变换后的时间序列分布,可以看到,它还远远不能被称为“正态”分布。但是如果我们把它和右边的比较,我们可以说的确更接近于“正态”。

我们还可以做的另一件事是确保执行的转换是有用的,可以创建一个概率图:绘制理论分布的分位数(在我们的情况下是正态)与经验数据的样本(即我们考虑的时间序列)。越靠近白线的点越好。

 fig = plt.figure()
 
 ax1 = fig.add_subplot(211)
 prob = stats.probplot(df_d.t2m, dist=stats.norm, plot=ax1)
 ax1.get_lines()[1].set_color('w')
 ax1.get_lines()[0].set_color('#8dd3c7')
 ax1.set_title('Probplot against normal distribution')
 
 ax2 = fig.add_subplot(212)
 prob = stats.probplot(df_d.t2m_box, dist=stats.norm, plot=ax2)
 ax2.get_lines()[1].set_color('w')
 ax2.get_lines()[0].set_color('#8dd3c7')
 ax2.set_title('Probplot after Box-Cox transformation')
 plt.tight_layout()fig = plt.figure()
 
 ax1 = fig.add_subplot(211)
 prob = stats.probplot(df_d.t2m, dist=stats.norm, plot=ax1)
 ax1.set_title('Probplot against normal distribution')
 
 ax2 = fig.add_subplot(212)
 prob = stats.probplot(df_d.t2m_box, dist=stats.norm, plot=ax2)
 ax2.set_title('Probplot after Box-Cox transformation')
 plt.tight_layout()

这个概率图还有一个更常见的名字QQ图

另外需要说明的是,如果打算使用转换后的时间序列进行ML建模,不要忘记应用反向BoxCox转换,这样才能的到最终的正确结果。

自相关

时间序列分析的最后一步是自相关。自相关函数(ACF)估计时间序列和滞后版本之间的相关性。或者换句话说,时间序列的特定值如何与不同时间间隔内的其他先验值相关联。绘制部分自相关函数(PACF)也可能有所帮助,它与自相关相同,但删除了较短滞后的相关性。它估计某个时间戳内值之间的相关性,但控制其他值的影响。

 for var in df.columns[:-1]:
   fig, (ax1, ax2) = plt.subplots(2,1,figsize=(10,8))
   plot_acf(df_d.t2m, ax = ax1)
   plot_pacf(df_d.t2m, ax = ax2)
   opinionated.set_title_and_suptitle(vars[var], '',position_title=[0.38,1],
                                      position_sub_title=[0.95, 1])
   plt.tight_layout()
   plt.show()

可以看到在地表压力时间序列中有一个非常强的部分自相关,有1天的滞后。然后明显减弱,3天后几乎消失。这样的分析可以帮助我们更好地理解正在处理的数据的性质,从而得出更有意义的结论。

总结

以上就是在处理时间序列时进行探索性数据分析时常用的方法,通过上面这些方法可以很好的了解到时间序列的信息,为我们后面的建模提供数据的支持。

本文数据:

[1] Muñoz Sabater, J. (2019): ERA5-Land hourly data from 1950 to present. Copernicus Climate Change Service (C3S) Climate Data Store (CDS). DOI: 10.24381/cds.e2161bac

https://avoid.overfit.cn/post/d5229e3c8e464859be9f08bdce612676

作者:Aleksei Rozanov

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/575068.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

网站建设价格多少合理

网站建设价格多少合理,是很多企业和个人在寻找网站建设服务时,最为关心的问题之一。在选择好的网站建设服务商前,了解合理的网站建设价格,对于选择合适的网站建设服务商具有重要的参考作用。下面我们就来讨论一下,网站…

vue+element 树形结构 改成懒加载模式(原理element有),这里只做个人理解笔记

1 找到属性标签添加 lazy 和 :load"loadNode" 这两个属性 2 引入树形接口,并和后端约定好传值,(拿我的举例 第一次获取全部父级默认第一次传参数:{ parentId : 0},可获取全部父级 第二次通过点击的子级把子级id传进去,这一步就用到了:load"loadNode&quo…

区块链技术与应用学习笔记(10-11节)——北大肖臻课程

目录 10.分岔 ①什么是分叉? ②导致分叉的原因? ③在比特币新共识规则发布会会导致什么分叉? 什么是硬分叉? 硬分叉例子? 什么是软分叉? 软分叉和硬分叉区别? 软分叉实例 11.问答 转…

在no branch上commmit后,再切换到其他分支,找不到no branch分支的修改怎么办?

解决办法 通过git reflog我们可以查看历史提交记录,这里的第二条提交(fbd3ea8)就是我在no branch上的提交。 再通过git checkout -b backup fbd3ea8,恢复到上次提交的状态,并且为其创建个分支backup,此时…

ES6要点

ES6/ES7内容解析 一、变量/赋值1、变量2、解构赋值 二、函数1、箭头函数2、默认参数3、参数展开(剩余参数,数组展开) 三、数组/JSON1、 数组2、JSON 四、字符串1、字符串模版2、字符串方法 五、面向对象1、类2、bind()3、箭头函数的this 六、…

【Python特征工程系列】递归特征消除法分析特征重要性-SVC模型为例(案例+源码)

这是我的第268篇原创文章。 一、引言 递归特征消除(RFE)是一种高效的特征选择方法,它通过递归减少特征的数量来找出模型最重要的特征。本文基于支持向量机分类器作为选择器的基模型,采用递归消除法进行特征筛选。 二、实现过程 2…

HTTP与HTTPS 对比,区别详解(2024-04-25)

一、简介 HTTP(超文本传输协议,Hypertext Transfer Protocol)是一种用于从网络传输超文本到本地浏览器的传输协议。它定义了客户端与服务器之间请求和响应的格式。HTTP 工作在 TCP/IP 模型之上,通常使用端口 80。 HTTPS&#xf…

Jmeter(十九) - 从入门到精通 - JMeter监听器 -上篇(详解教程)

宏哥微信粉丝群:https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介 监听器用来监听及显示JMeter取样器测试结果,能够以树、表及图形形式显示测试结果,也可以以文件方式保存测试结果,JMeter测试结果文件格式多样…

使用docker安装本地pdf工具集合Stirling-PDF

平时工作中需要处理pdf,市面上的很多工具都需要充会员才能使用,偶然发现了一个可私有化部署且易于使用的PDF在线工具,使用docker部署,使用起来非常方便,而且功能齐全。 这里是官网: https://pdf.errui.cc/…

任务调度xxljob的使用记录

1.基本使用 a.下载代码,地址:https://gitee.com/xuxueli0323/xxl-job.git b.执行sql,修改配置,启动任务调度中心的代码 启动代码后任务调度中心访问地址:http://localhost:8080/xxl-job-admin(自己机器…

D-Wave 推出快速退火功能,扩大量子计算性能增益

内容来源:量子前哨(ID:Qforepost) 文丨浪味仙 排版丨沛贤 深度好文:1400字丨6分钟阅读 摘要:量子计算公司 D-Wave 宣布在其 Leap™ 实时量子云服务中的所有量子处理单元 (QPU) 上推出新的快速退火功能。…

30 OpenCV 点多边形测试

文章目录 点多边形测试pointPolygonTest示例 点多边形测试 pointPolygonTest pointPolygonTest( InputArray contour,// 输入的轮廓 Point2f pt, // 测试点 bool measureDist // 是否返回距离值,如果是false,1表示在内面,0表示在边界上&a…

“一个有趣的C语言代码”分析

“一个有趣的C语言代码” 一个有趣的C语言代码-流浪的海豚-ChinaUnix博客 #include <stdio.h> int print() {printf("hello world!\n");return 0; } int main(void) {long base[0];long* result base3;*(result1) *result;*result (long)print;return 0; …

如何安装最新版Docker Compose?

Docker Compose 是一个用于定义和运行多容器 Docker 应用程序的工具。通过 Compose&#xff0c;您可以使用 YAML 文件来配置应用服务&#xff0c;然后只需一个简单的命令便能创建和启动所有服务。在本篇博客中&#xff0c;我们将详细介绍如何在 Linux 系统上安装 Docker Compos…

Hive中几个非常重要的问题

1、Hive 有哪些方式保存元数据&#xff0c;各有哪些优缺点 (1).DerBy数据库&#xff1a;默认自带 优点&#xff1a;使用简单&#xff0c;不需要额外的配置。 缺点&#xff1a;只有一个客户端&#xff0c;多个客户访问会报错。 (2).使用MySql数据库存储 优点&#xff1a;单独的…

电商技术揭秘三十二:智能风控体系构建

相关系列文章 电商技术揭秘相关系列文章合集&#xff08;1&#xff09; 电商技术揭秘相关系列文章合集&#xff08;2&#xff09; 电商技术揭秘二十八&#xff1a;安全与合规性保障 电商技术揭秘二十九&#xff1a;电商法律合规浅析 电商技术揭秘三十&#xff1a;知识产权保…

PyQt介绍——动画使用详解之QPropertyAnimation

一、继承关系 PyQt5的动画框架是QAbstractAnimation&#xff0c;它是一个抽象类&#xff0c;不能直接使用&#xff0c;需要使用它的子类。它的类结构如下&#xff1a; QAbstractAnimation&#xff1a;抽象动画&#xff0c;是所有动画的基类&#xff0c;不能直接使用。 QVariant…

SpringCloud之负载均衡Ribbon

Ribbon 是一个客户端负载均衡工具&#xff0c;主要功能是将面向服务的Rest模板&#xff08;RestTemplate&#xff09;请求转换成客户端负载均衡的服务调用。通过Ribbon&#xff0c;开发人员可以在客户端实现请求的负载均衡&#xff0c;而无需单独部署负载均衡器。Ribbon支持多…

C#基础之值类型和引用类型

值类型和引用类型 文章目录 值类型和引用类型1、使用和存储上的区别2、特殊的引用类型string 引用类型&#xff1a;string&#xff0c;数组&#xff0c;类 值类型&#xff1a;其他类型&#xff0c;结构体 1、使用和存储上的区别 1、使用上的区别//值类型int a 10;//引用类型…

Python函数小知识

目录 一、函数的定义和调用 二、函数参数 三、函数作用域 四、递归函数和匿名函数 一、函数的定义和调用 def 函数名(参数): 自定义函数可以分为有参函数和无参函数 。 函数的作用&#xff1a; 在Python中定义函数可以提高代码的复用率&#xff0c;避免重复的代码&#xff0c;…
最新文章