News Co-Occurrences:关注同时出现在新闻中的股票

2021-07-07 16:00:49 浏览数 (1)

量化投资与机器学习公众号独家解读

量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号今年全力打造的一档深度、前沿、高水准栏目。

公众号遴选了各大期刊最新论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

第一期 | 第二期 | 第三期 | 第四期 | 第五期

本期遴选论文 来源:Journal of Risk and Financial Management 19 March 2019 作者:Yi Tang、Yilu Zhou、Marshall Hong 标题:News Co-Occurrences, Stock Return Correlations, and Portfolio Construction Implications

核心观点

  • 股票同时出现在新闻的频率与股票市值、股票波动及分析师覆盖度之间存在明显的关联性。
  • 个股之间的相关性随着在新闻中同时出现频率的增加而增加。
  • 个股在新闻中同时出现频率可以用于预测未来个股之间的相关性,从而应用与风险模型。

随着NLP技术的发展,新闻分析数据在量化投资中的应用的场景越来越丰富。本篇论文从新闻中同时出现不同股票(News Co-Occurrences)的角度出发,去验证其所包含的经济学含义,并探索其在量化投资中的应用。

同时出现在一篇新闻的股票之间是否有某种程度上的关联?同时出现的频率与股票关注度之间的变化是否有关系?是否会对股票之间的相关性产生影响?这些都是作者试图在文中探索的问题。

作者主要采用了线性回归的方式进行实证分析,涉及的数据及相关指标说明如下:

  • 数据时间范围:2007年5月-2016年12月
  • 股票范围:S&P1500
  • 计算准则:月度指标至少需要24个月的数据、日度指标至少需要15天的数据
  • 所有指标都在月末计算

文中涉及的其他指标的说明:

统计分析

作者首先对不同分组的股票的相关指标做了统,一共分为三组:

  • COC=1:当月至少和别的股票出现在同一篇新闻的所有股票
  • COC=0:当月未曾和别的股票出现在同一篇新闻的股票
  • All stocks:S&P500所有股票

对以上三组股票分别计算2007年5月至2016年12月每月末截面上各指标的均值,然后再计算时序上每月均值的平均值,计算结果如下表所示,可以看出:

  • 第一列Pi表示,每个月,平均有47%的股票至少和其他股票同时出现在至少一篇新闻里。
  • 和别的股票同时出现在一篇新闻的股票(COC=1)跟从未和别的股票出现在同一篇新闻的股票(COC=0)相比具有更低的风险(BETA及IVOL更低)、更高的市值(ME)及更高的分析师覆盖(CVGR),且与其他股票之间的相关性也更高(CORR)。

News Co-Occurrences与股票特征之间的关系

News Co-Occurrences截面的变动

作者采用Fama-MacBeth的方法对以下两个等式进行回归分析(先截面回归,再算回归系数在时序上的均值)

begin{aligned} L N T F_{i j, t}=& lambda_{0, t} lambda_{1, t} I N D_{i j, t-1} lambda_{2, t} C S_{i j, t-1} lambda_{3, t} G E O_{i j, t-1} lambda_{4, t} L N T F_{i j, t-1} varepsilon_{i j, t} \ L N T F_{i j, t}=& lambda_{0, t} lambda_{1, t} I N D_{i j, t-1} lambda_{2, t} C S_{i j, t-1} lambda_{3, t} G E O_{i j, t-1} lambda_{4, t} L N T F_{i j, t-1} \ & gamma_{1, t} overline{B E T A}_{t-1} gamma_{2, t} overline{S I Z}_{t-1} gamma_{3, t} overline{I V O L}_{t-1} gamma_{4, t} overline{C V R G}_{t-1} varepsilon_{i j, t} end{aligned}

相关变量的解释:

下表给出了回归的结果,其中Model1对应等式4,Model2对应等式5。其中Model1中,IND、CS及GEO的回归系数分别是0.073、0.098及0.032,且在置信度99%的区间里均显著。这意味着处于同一个行业,存在供应链关系或在同一个地区的股票有更高的概率出现在同一篇新闻中。即使在Model2中控制了其他变量(包括BETA、SIZE、IVOL及CVRG),IND、CS及GEO的回归结果与Model1相比基本没受影响。同时也可以看出,同时出现在新闻的数量与BETA成负相关,与SIZE和CVRG呈正相关,这个结果与表1的结果保持一致。

News Co-Occurrences的拆解

作者用LNTFP和LNTFR分别表示模型的拟合值和残差。每个月,分别计算LNTFP及LNTFR的均值和标准差,再计算时序上的统计值。在表2的B部分,Expected表示拟合值LNTFP,Shock表示残差LNTFR。可以看出,Model1和Model2的结果非常类似。再后续的分析应用中,作者选取了更完整的Model2。

News Co-Occurrences与投资者关注度之间的关系

为了研究News Co-Occurrences与投资者关注度之间的关系,作者采用了两个模型,等式6和7的区别是,等式6中News Co-Occurrences直接用LNTF表示。等式7中,News Co-Occurrences用两个变量LNTFP和LNTFR表示,它们各自有自己的回归系数,这样做就可以看出是LNTFP更重要还是LNTFR更重要。

overline{A S V}_{i j, t}=lambda_{0, t} lambda_{1, t} L N T F_{i j, t} varepsilon_{i j, t}
overline{A S V}_{i j, t}=lambda_{0, t} lambda_{1, t} L N T F P_{i j, t} lambda_{2, t} L N T F R_{i j, t} varepsilon_{i j, t} prime

下表3给出了以上两个模型的回归结果,可以看出LNTF、LNTFP及LNTFR的回归系数均显著,但可以看出LNTFR相比LNTFP来的更显著,说明异常的News Co-Occurrences更能引起投资者的关注。

News Co-Occurrences VS 股票之间的相关性:同步性

作者通过以下两个模型,验证股票之间的相关性与News Co-Occurrences的关系。大部分变量在上文解释过。这里在重复下, CORR_ij,t 表示在t月,股票i与j日度收益率的相关系数。

begin{aligned} operatorname{CORR}_{i j, t} &=lambda_{0, t} lambda_{1, t} L N T F_{i j, t} lambda_{2, t} overline{A S V}_{i j, t} lambda_{3, t}left(overline{A S V}_{i j, t} times L N T F_{i j, t}right) gamma_{t} operatorname{CORR}_{i j, t-1} varepsilon_{i j, t} \ C O R R_{i j, t}=& lambda_{0, t} lambda_{1, t} L N T F P_{i j, t} lambda_{2, t} L N T F R_{i j, t} lambda_{3, t} overline{A S V}_{i j, t} lambda_{4, t}left(overline{A S V}_{i j, t} times L N T F P_{i j, t}right) \ & lambda_{5, t}left(overline{A S V}_{i j, t} times L N T F R_{i j, t}right) gamma_{t} C O R R_{i j, t-1} varepsilon_{i j, t} end{aligned}

以上两个模型的主要区别是,模型8使用了LNTF,用以整体判断News Co-Occurrences与股票之间的相关性是否有关系。模型9分别使用了LNTFP和LNTFR,就可以知道是LNTFP还是LNTFR与CORR的关联性更大。

表4给出了回归的结果:

其中Model(2)对应是等式8的回归结果,可以看出,ASV与ASV*LNTF的回归系数并不显著。且相比Model(1),LNTF及CORR的回归结果基本无变化。总体可以看出,News Co-Occurrences与股票之间的相关性存在显著的关联性。

其中Model(6)对应是等式9的回归结果,可以看出,相对LNTFR,LNTFP的回归系数更显著,说明长期的LNTFP与股票之间的相关性的关联程度更大。

News Co-Occurrences VS 股票之间的相关性:预测性

上一部分,我们用当期的CORR与当期的News Co-Occurrences进行回归,检验它们的同步关联性。这一次,我们用当期的News Co-Occurrences与后面K期的CORR进行回归,检验News Co-Occurrences对CORR的预测性。

begin{aligned} C O R R_{i j, t k}=& lambda_{0, t} lambda_{1, t} L N T F_{i j, t} gamma_{t} C O R R_{i j, t} varepsilon_{i j, t prime} \ C O R R_{i j, t k}=& lambda_{0, t} lambda_{1, t} L N T F_{i j, t} lambda_{2, t} overline{A S V}_{i j, t} lambda_{3, t}left(overline{A S V}_{i j, t} times L N T F_{i j, t}right) gamma_{t} C O R R_{i j, t} varepsilon_{i j, t} \ C O R R_{i j, t k}=& lambda_{0, t} lambda_{1, t} L N T F P_{i j, t} lambda_{2, t} L N T F R_{i j, t} gamma_{t} operatorname{CORR}_{i j, t} varepsilon_{i j, t} \ C O R R_{i j, t k}=& lambda_{0, t} lambda_{1, t} L N T F P_{i j, t} lambda_{2, t} L N T F R_{i j, t} lambda_{3, t} overline{A S V}_{i j, t} lambda_{4, t}left(overline{A S V}_{i j, t} times L N T F P_{i j, t}right) \ & lambda_{5, t}left(overline{A S V}_{i j, t} times L N T F R_{i j, t}right) gamma_{t} operatorname{CORR}_{i j, t} varepsilon_{i j, t} end{aligned}

下表5给型的回归结其中PanelA对应等式10,PanelB对应等式11,PanelC对应等式12,PanelD对应等式13。果,不同的K,表示不同的预测间隔,如K=2,表示用当月的News Co-Occurrences预测未来2个月后的CORR。主要结论如下:News Co-Occurrences能够显著预测未来个股之间的相关性CORR,且长期的均值LNTFP比短期的变动LNTFR具有更强的预测性,且不随着预测间隔的增加出现衰减。

总结

以上两部分可以知道:

  • News Co-Occurrences的长期均值(LNTFP)与股票之间相关性的关联度更大
  • News Co-Occurrences的短期变化(LNTFR)与投资者对股票的异常关注关联度更大
  • News Co-Occurrences能够显著预测未来个股之间的相关性CORR,且长期的均值LNTFP比短期的变动LNTFR具有更强的预测性,且不随着预测间隔的增加出现衰减。

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W 关注者,连续2年被腾讯云 社区评选为“年度最佳作者”。

0 人点赞