地区RPI增速预测结果研究
时间:2022-06-02 11:31:28
导语:地区RPI增速预测结果研究一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。
内容提要:大数据时代可有效利用高频网络搜索数据预测传统宏观经济走势。基于网络搜索数据对商品零售价格指数(RPI)变动影响的分析,利用相关关键词的网络搜索数据,构建河北省地区日度网络搜索指数,并基于混频数据模型MIDAS-AR(1)对地区rpi增速进行预测。研究结果表明:基于日度网络搜索指数的混频数据模型适用于地区RPI增速的预测。在静态预测方面,采用混频数据模型的预测精度要优于同频模型。在动态预测方面,采用调整模型h值的混频数据模型的预测效果优于AR(1)模型的动态预测结果,说明构建的日度网络搜索指数对地区RPI变动具有一定的预测能力。基于此,在对宏观经济进行监测预测时,应有效利用网络海量即时数据;混频数据模型可应用于区域RPI增速预测。
关键词:商品零售价格指数;RPI增速预测;混频大数据;网络搜索指数
近年来,现代网络技术手段的不断发展使获取和储存海量数据成为可能。网络搜索数据频率往往高于传统宏观经济变量,蕴含丰富的数据信息。伴随着混频数据模型的深入研究和在经济金融领域内的推广应用,利用高频数据预测低频数据成为可能。网络搜索数据可以体现由于经济环境或供给需求变化产生的关键词搜索行为,其中蕴含了能够引起RPI变动的因素,这些因素是对预测RPI变动的传统信息源的重要数据补充。结合混频数据模型,可以充分发挥网络搜索数据的高频优势。这一方法可以利用更多数据信息,在已有的应用研究中大多收到较好的预测效果,为预测宏观经济变量提供新的思路。因此,筛选恰当的网络搜索数据,研究利用高频数据信息预测宏观经济变量具有一定的现实意义。
一、相关研究文献评述
网络搜索数据是衡量网络舆情的重要指标。在宏观经济领域,已有研究表明:网络搜索数据可体现生产者和消费者的投资和需求状态,与经济指标存在相关关系。张崇等(2012)研究表明:网络搜索数据与居民消费价格指数存在协整关系。白丽娟等(2015)认为,用户受到事件影响时结合自身信息需求会产生搜索行为,形成关键词,即关键词可看作是事件发展的量化指标。刘伟江和李映桥(2018)从供求理论的角度出发,基于谷歌指数合成宏观和微观搜索指数,实证表明:搜索指数与商品零售价格指数具有长期稳定协整关系。基于网络搜索数据对金融和经济指标影响的分析,Choi和Varian(2012)引入Google指数预测失业、旅游等领域的经济指标,研究表明:其预测效果更佳。González-Fernández和González-Ve-lasco(2018)基于所选关键词的Google指数,实证表明:引入网络搜索数据能够提升模型预测精度,利用网络搜索信息的预测可被推广至其他经济指标。国内学者徐映梅和高一铭(2017)基于百度指数数据,构造CPI低频及高频舆情指数预测CPI,两类舆情指数具有较强的时效性,在利用高频舆情指数预测CPI时采用混频数据模型MIDAS,改进了CPI预测精度。张瑞等(2020)基于网络搜索数据预测上海商品零售价格指数,研究表明:在预测时引入网络搜索数据具有时效性。李俊杰等(2021)发现,通过百度搜索数据可提取房地产市场信息关注指数。关于混频数据模型理论的应用研究较多,Ghy-sels等(2004)提出混频数据模型(MIDAS),认为MI-DAS模型可应用于经济与金融领域。Clements和Galvo(2012)提出引入一个向量自回归项作为共同因子,以消除低频因变量对高频自变量的季节性影响。国内多数研究将混频数据模型应用于我国宏观经济变量的预测中,王维国和于扬(2016)基于混频数据,构建不同权重函数的混频数据回归预测模型和无约束MIDAS模型,对我国季度GDP进行预测,研究表明:以BIC为权重的联合预测模型预测效果最优。纪尧(2021)采用包含利率、大宗商品价格、农产品价格、京东网络电商等高频数据,构建MIDAS模型,对我国CPI及PPI进行预测,说明其相对于ADL及GARCH模型在预测效果上的优越性。通过对已有研究文献的梳理,可以发现:公众对事件的关注度可以通过网络搜索行为转化为关键词热度,网络搜索数据对宏观经济变量存在影响。相比以往研究,本文有以下方面创新:一方面,本文保留网络大数据的原有频率,采用日度网络搜索数据构建地区网络搜索指数进行预测,从而避免损失数据信息;另一方面,本文将混频数据模型应用于某区域的RPI预测,以丰富基于网络搜索数据预测商品零售价格指数的研究。
二、网络搜索数据对地区RPI变动影响分析
(一)网络搜索数据关键词与地区RPI变动
根据以往研究,本文认为,利用网络搜索数据构建的指数不仅可以应用于CPI预测,同样可以推广至其他类价格指数,例如RPI。构建关注度指标的首要任务是相关关键词的筛选,本文从经济金融环境、常见零售商品、民生热词方面考虑与RPI变动相关的关键词。1.宏观经济及金融环境的影响。结合白丽娟等(2015)的研究,本文认为,当宏观经济及金融市场发生热点事件时,一方面,居民对这一事件的关注度增加,这会从网络搜索热度中得以体现;另一方面,RPI作为宏观经济系统中的重要组成部分,宏观经济及金融市场的大事件会对RPI产生影响。在这个过程中存在居民对于某一关键词的搜索热度先行于RPI变动的可能性,但具体哪些关键词能够先行于RPI变动、能够应用于RPI变动的预测还需要进一步定量分析。2.居民对商品价格的关注度。RPI这一指数主要反映商品零售价格变动的趋势。因此,部分商品价格的变动也会引发RPI变动。从消费者角度和生产者角度都有可能形成对某种商品的搜索行为,这些搜索行为本身代表了某些商品供求关系的变动情况,凝结了可能影响物价的因素。3.居民对社会热点问题的探讨。民生领域热词的关注度是持续较高的,就业、物价上涨等社会经常关注的热点问题同样会对RPI的变动产生影响。例如,就业压力大时对于就业的关注度会加大,而就业压力可能影响部分人群的消费水平,致使部分消费品价格波动,从而影响RPI变动。综上,本文基于上述三个层面选取关键词,具体选取的关键词如表1所示。
(二)构建网络搜索指数的关键词筛选
初选关键词不一定都适合应用于地区RPI变动的预测,还需要通过定量分析进一步筛选出具有预测作用的关键词。在构建日度网络搜索指数时,首先,将地区关键词日度搜索数据通过按月平均的方式转化为月度日均搜索数据;其次,利用SPSS计算地区RPI同比增长率与其月度网络日均搜索数据在不同时滞情况下的时差相关系数,找出相关系数最大时的时滞数,分析该关键词与RPI同比增长率数据的时滞关系;最后,基于筛选出的具有预测作用的关键词构建日度网络搜索指数,即根据各关键词与RPI同比增长率之间的时滞关系对各关键词序列进行错序调整,以关键词搜索数据与RPI增长率的时差相关系数的绝对值作为权重进行加权平均,得到地区日度网络搜索指数。综上所述,本文认为,可以先找出在理论上与RPI增速存在关联的关键词,构成一个专有的关键词词库,产生重点关键词;再采用定量分析的方法筛选出与地区RPI变动相关性较大的关键词;最终,构建日度网络搜索指数。基于构建的日度网络搜索指数,建立混频数据模型MIDAS-AR对区域RPI增速进行预测效果研究。
三、基于网络搜索数据的地区RPI增速预测模型构建
(一)数据来源与处理
本文以河北省为例,构建河北省网络搜索指数预测地区RPI增速。国内多数研究利用百度指数衡量关注度,如杨欣和吕本富(2014)、陈植元等(2016)。百度指数基于访问百度的海量网民行为数据,已具备向咨询者展示单个词的趋势、需求图谱和人群画像等功能。本文采用的关键词网络搜索数据来源于百度指数官网。地区月度RPI数据来源于同花顺金融数据库。实证分析时将数据集分成训练集和测试集,将2013年1月1日至2019年6月30日的日度网络搜索数据及2013年1月至2019年6月的RPI同比增速数据作为训练集,将2019年7月1日至2020年12月31日的日度网络搜索数据及2019年7月至2020年12月的RPI同比增速数据作为测试集,采用均方误差MSE衡量模型预测效果。为减少入选关键词序列由于数量级差异对模型预测造成的影响,将入选的关键词百度指数序列的训练集按以下方式进行处理:(1)对于测试集的日度网络搜索指数,采用与训练集相同的归一化算法,即(2)
(二)模型构建
本文基于混频数据模型MIDAS(m,K,h)-AR(p)进行实证分析,其表达式如式(3)所示。其中,xt代表高频日度数据,yt代表低频月度数据。m为因变量与自变量的频率倍差,本文中m的值为30。为权重多项式,L为滞后算子。K为最大滞后阶数,h为向前预测的步数。在表1的关键词中,选出了关键词指数与河北省RPI变动的时差相关系数较大的四个关键词,分别是“油价”“利率”“粮食价格”“棉花价格”。其领先阶数分别为1阶、0阶、5阶、4阶,对应的时差相关系数分别为-0.55、-0.59、-0.50与-0.53。按照式(1)对四个关键词序列进行预处理,并以时差相关系数的绝对值作为权重对两个关键词序列进行加权平均,得到地区日度网络搜索指数。经检验,建模序列在5%的显著性水平下平稳。为便于模型计算分析,将一年中每个月的天数设定为30天。本文采用三种模型对河北省RPI同比增速进行预测:(1)基于混频数据的MIDAS-AR(1)模型;(2)基于同频数据的自回归分布滞后模型ADL。由于对河北省RPI增长率建立AR(1)模型后,其残差已不存在自相关。因此,在这两种模型中,均引入因变量的一阶滞后项;(3)AR(1)模型。
四、基于网络搜索数据的地区RPI增速预测结果分析
(一)基于静态预测方法的预测效果分析
首先,采用静态预测的方法对测试集的各时间点进行预测。基于三种模型预测的均方误差如表2和表3所示。表2列出了混频数据模型设定不同的最大滞后阶数K值及不同的向前预测步数h值时MI-DAS-AR(1)在测试集上的静态预测情况。表3列出了h值取90的MIDAS-AR(1)模型、相应滞后阶数的ADL模型与AR(1)模型静态预测的均方误差。其中,ADL模型的网络搜索指数采用月度数据,先将“油价”“利率”“粮食价格”“棉花价格”关键词日度网络搜索数据通过按月平均的方式转化为月度日均网络搜索数据,再将经错序调整的两个序列进行归一化,并以时差相关系数的绝对值作为权重加权平均得到。由表2可知,采用MIDAS-AR(1)模型静态预测的效果与最大滞后阶数K和向前预测步数h有关。随着最大滞后阶数K的变化,模型预测的均方误差大小有波动。在表2中,当h的值为90,K的值为150,即日度网络搜索指数采用向前预测步数为90天,滞后150天(5个月)的数据进行预测时,模型的预测效果相对最优。此时,MIDAS-AR(1)模型与ADL模型的预测效果如图1所示。由表3可知,采用混频数据模型的预测精度均优于对应的同频ADL模型。当h值大于等于60,混频数据模型的静态预测可以产生优于AR(1)模型的静态预测效果。
(二)基于动态预测方法的预测效果分析
基于动态预测,进一步分析构建的日度网络搜索指数对地区RPI变动预测的作用,训练集与测试集的划分与静态预测相同。本文通过调整混频模型中h的值对2019年7月至2020年12月测试集上的RPI增速进行动态预测。其对应关系如表4所示。在进行动态预测时,模型中因变量的一阶滞后项,即2019年7月及之后的RPI增速数据采用由MI-DAS-AR(1)模型预测得到的估计值。采用MIDAS-AR(1)模型及AR(1)模型在测试集上的MSE如表5所示。其中,AR(1)模型采用动态预测方法预测,模型预测效果仍采用模型预测的均方误差MSE衡量。表5列出了采用调整h值的MIDAS-AR(1)模型与AR(1)模型在测试集上进行动态预测的均方误差。由表5可知,对测试集预测2个季度、4个季度和6个季度的情况下,其动态预测的均方误差小于AR(1)模型,说明构建的日度网络搜索指数对地区RPI变动具有一定的预测能力,得出构建的日度网络搜索指数对地区RPI变动具有一定影响的结论。
(三)重点关键词讨论
基于上述分析,可以发现:第一,构造日度网络搜索指数的四个关键词中,“油价”“利率”可以看作是由于居民对经济金融环境的关注而产生的搜索行为。经济金融环境和居民的生活息息相关。一方面,油价的变动会提升居民对于“油价”的关注度,居民关注度的提升对于油价下跌更加敏感。另一方面,受经济金融环境波动影响,居民在调整自身的消费投资行为、形成利率预期时会提升对“利率”的关注度。这些关键词关注度的提升是经济金融环境变动的一种体现,且居民进行关键词的搜索行为通常是即时的。另外,经济金融环境的变动会对RPI产生影响。例如,油价下跌可能带来的通缩压力、由于经济金融环境变动导致的居民消费投资行为变化等。在RPI发布前,居民的搜索行为对RPI可能具有一定的先行性。从时差相关系数来看,在研究的时间范围内,伴随着对“油价”“利率”关注度的提升,会导致地区RPI短期下降。第二,“棉花价格”“粮食价格”可以看作是居民对商品的关注。粮食作物价格变动会引起生产者和消费者的关注度提升。在研究的时间范围内,伴随着对“棉花价格”“粮食价格”关注度的提升,会引起地区RPI反向变动。第三,在研究的时间范围内,表1的关键词中,除了用来构建日度网络搜索指数的四个关键词外,还有“就业”“蔬菜价格”这些关键词的关注度与地区RPI变动的时差相关系数在0.4-0.5之间,且具有一定的先行性。其中,“就业”可以看作是居民对民生热词关注度的体现,当居民感受到就业压力时,对该关键词的关注度会提升。时差相关系数显示,对“就业”关键词关注度的提升对河北省RPI变动具有先行性,具体影响体现为负相关。第四,“鸡蛋价格”“股票”“基金”关键词的关注度与地区RPI变动的时差相关系数具有滞后性。其中,“股票”“基金”关键词的关注度的时差相关系数在0.5以上,且RPI变动与对该关键词的关注度变动是反向的。
五、结论与政策启示
本文实证结果表明:基于构建的网络搜索指数建立混频数据模型,有助于地区RPI的预测。居民对经济金融环境类关键词的关注度对河北省RPI变动具有一定的先行性,具体体现为当居民对相关关键词的关注度提升,与短期RPI的下跌有较强的相关性。部分商品的关注度也存在先行性和相关性,但时差相关系数相比经济金融环境类关键词稍小。基于时差相关系数较大的关键词构建的日度网络搜索指数,在静态预测方面,采用混频数据模型的预测精度均优于对应的同频ADL模型。通过调整MIDAS-AR(1)模型的h值,可基于混频数据模型对地区RPI增速进行动态预测,且均方误差小于AR(1)模型动态预测的均方误差,这说明构建的日度网络搜索指数对地区RPI变动具有预测能力。基于上述结论,本文可得出以下启示:1.应关注居民由于经济金融环境变化产生的关键词搜索行为。相关关键词的关注度可能凝结了引起RPI变动的因素,且具有一定的即时性。在实际应用中,与RPI增速相关性较强的关键词通常也处于动态变化的过程中。因此,需要根据实际情况不断更新网络搜索关键词词库和关键词筛选方法,在实践中找到对RPI增速有持续性影响的关键词,使关键词词库形成体系,更好地应用相关预测方法。2.在对宏观经济进行监控和预测时,应有效利用网络海量即时数据。网络搜索数据和搜索引擎中的关键词热度等数据蕴藏了能够反映经济社会变化的关键信息。近年来,我国不断出台相关政策,积极推动云计算等互联网信息技术与大数据的融合发展,鼓励其在金融、工业等领域的应用。应当积极关注网络搜索数据中反映社会关注度的信号,更好地提取并利用这些关键信息。3.混频数据模型可被应用于区域RPI增速的预测中。利用高频数据预测低频数据有利于保留网络大数据原始频率,为RPI预测提供了新的思路和方法。混频数据模型在地区宏观经济预测中具有适用性。今后,在RPI的预测中应充分利用高频数据和混频数据模型,并结合实际不断完善该模型,在经济指标的监测中注意吸收新技术、新理论。
作者:王文胜 常晓颖
- 上一篇:数据价值开发的校园大数据生态治理研究
- 下一篇:机电工程实践教学改革方法