基于『大语言模型』和『新闻数据』的股票预测研究

2024-08-01 18:48:14 浏览数 (2)

作者: Tian Guo、Emmanuel Hauptmann

前言

量化投资依赖于从各种数据源(包括市场价格、经济指标、财务文本等)提取定量特征或信号,以构建和优化投资组合。近年来,由于自然语言处理(NLP)技术的发展,使用文本数据进行量化投资的趋势显著增长。特别是,大语言模型(LLMs)在各种语言理解和生成任务上展示了卓越的性能,并且微调技术允许将预训练的LLMs适应于量化投资。

本文专注于使用财务新闻进行股票预测以进行选股。传统使用财务新闻数据应用于选股方法涉及,如下图a所示,包括特征标注(例如,情感、主题、受欢迎程度等),提取特征(例如,训练财务情感分类模型),并通过统计分析或构建预测模型来验证提取特征的预测能力。这个过程可能是耗时的,并且需要额外的数据(例如,标记的财务情感数据)和持续的改进。

本文探索了通过微调LLMs使用新闻直接进行股票收益预测,如上图b所示:

1、我们设计了一个包含文本表示和预测模块的基于LLM的收益预测模型。

2、我们假设,仅包含编码器的和仅包含解码器的大型语言模型在预训练和微调阶段对文本序列的处理方式不同,因此它们的文本表示性能可能会有所差异;基于此,我们提出比较仅使用编码器的模型(如DeBERTa)和仅使用解码器的模型(如Mistral和Llama3)作为预测模型中的文本表示模块。

3、考虑到LLM生成的文本表示在Token级别,我们提出了两种简单的方法将Token表示集成到预测模块中:bottleneck表示和aggregated表示。

4、我们在真实的财务新闻和各种股票池上进行实验。除了评估预测误差外,我们还通过在样本外时期进行回测来评估基于收益预测构建的两种类型的投资组合。对仅包含编码器的和仅包含解码器的LLMs的实验,为识别适合不同投资策略和市场的文本表示提供了帮助。

具体介绍

下图为使用大模型基于新闻数据进行股票收益预测的流程:

我们知道大语言模型大部分是基于Transformer结构,其中又分为encoder-only(仅使用编码器部分),decoder-only(仅使用解码器部分)和encoder-decoder。本文中对encoder-only和decoder-only两类大语言模型的预测效果进行了对比。

Encoder-Only LLMs(编码器LLMs):

这类模型主要关注于学习输入文本的上下文嵌入(contextual embeddings)。它们通过预训练阶段的掩码语言建模(masked-language modeling)来实现这一目标。

在掩码语言建模中,文本序列中的一些标记(tokens)会被随机遮蔽(mask),然后模型的任务是预测这些被遮蔽的标记。这个过程使得模型学习到的每个标记的向量表示能够结合其左侧和右侧的上下文信息。

一个著名的例子是(BERTBidirectional Encoder Representations from Transformers),它通过这种方式生成输入文本的双向表示。

在预训练中,模型会看到如“[MASK]”这样的特殊标记,并尝试根据周围的上下文来预测这个位置原本的词。

Decoder-Only LLMs(解码器LLMs):

decoder-onlyLLMs在预训练中使用下一个词预测任务(next-token prediction task),它们被训练来生成文本,通过预测序列中下一个词来建模。

这类模型的预训练目标是自回归地(autoregressively)建模输入序列,即每个词的预测都依赖于之前已经看到的词。

为了模拟序列的第一个词,通常会在序列开始处添加一个特殊的开始序列标记(BOS,Beginning-of-Sequence token)。

一个例子是GPT-3(Generative Pretrained Transformer 3),它通过这种方式生成文本,并能够捕捉序列的流动性和连贯性。

作者还提到了两种将LLMs生成的标记级(token-level)向量表示整合到预测模块的方法:瓶颈表示(bottleneck representations)和聚合表示(aggregated representations)。这两种方法都旨在将LLMs生成的文本表示转化为能够用于预测股票回报的形式,但它们在如何整合序列信息方面采取了不同的策略。瓶颈表示通过一个单一的向量来捕捉整个序列的信息,而聚合表示则通过综合考虑序列中所有标记的信息来实现。论文的实验结果表明,这两种方法在不同的投资领域和不同的LLMs中表现各有优劣。

瓶颈表示(Bottleneck Representations):

1、这种方法的核心思想是在微调(fine-tuning)过程中,促使LLMs将整个文本序列的信息压缩成一个单一的向量表示。

2、实际操作中,通过在输入序列的末尾添加一个序列结束(End-of-Sequence, EOS)标记来实现。由于EOS标记在所有序列中都是相同的,它的向量表示将依赖于序列中的实际标记。

3、在微调过程中,EOS标记的向量表示被送入预测模块,并在训练过程中通过反向传播(backpropagation)来调整,以总结序列中实际标记的表示。

4、对于encoder-only LLMs,这种方法与预训练阶段的掩码语言建模任务一致,可能有助于更有效地总结序列级特征。

聚合表示(Aggregated Representations):

1、与瓶颈表示不同,聚合表示不是将信息压缩成一个单一的向量,而是允许预测模块综合考虑序列中所有标记的向量表示。

2、这种综合可以通过简单的方法实现,例如对所有标记的向量表示进行平均,或者使用更复杂的方法,如注意力机制(attention mechanisms)。

3、论文中选择了简单的平均方法,因为它不需要训练额外的参数,并且可以清晰地与瓶颈表示进行比较。

4、对于decoder-onlyLLMs,使用聚合表示可能会增加预训练和微调之间的差异,因为每个标记的表示是基于上下文和自身,而不是预训练中的掩码标记。

5、对于decoder-only LLMs,平均所有标记的表示可能会导致对输入序列中早期标记的偏见,因为在自回归设置中,早期标记会反复合并到后续所有标记的表示中。

实证结果

作者使用了2003年至2019年间的公司级财务新闻流数据,这些数据由一家金融数据供应商提供。每条新闻都包含一个或多个公司标识符,表示新闻主要关注的公司。测试范围为北美、欧洲及新兴市场。

模型训练和验证数据覆盖了2003年至2014年,剩余的数据用于样本外测试(out-of-sample testing)。模型训练使用了32的批量大小(batch size)、1e-5的学习率。微调LLMs时,所有线性层都应用了秩为4的低秩适应(Low-Rank Adaptation, LoRA)技术。所有模型都在两个A100 GPU上进行了10个epoch的训练。

此外,我们还将基于预测的投资组合与传统基于情感分析的投资组合进行了比较,使用了FinBERT和FinVader这两种情感分析方法来构建基于情感的投资组合,并使用相同的方法,但以情感值为排名标准。通过这些设置和指标,作者能够全面评估不同LLMs和表示方法在股票回报预测任务上的有效性。

上门的两幅图和表格揭示了在北美市场进行股票收益预测时,大语言模型(LLMs)的实证研究成果。研究表明,聚合表示法(Aggregated Representations)通常在生成增强多头仓位和长空头仓位投资组合表现的回报预测方面优于瓶颈表示法(Bottleneck Representations)。具体来说,在顶部分位数(如第9分位数)上,聚合表示法能够产生更高的回报,这对多头仓位投资组合有利。然而,瓶颈表示法在某些情况下,如Llama模型,也能展现出与聚合表示法相当的性能。

在不同模型的对比中,Mistral模型在多个投资领域展现出了更为稳健的表现,尤其是在使用聚合表示法时。DeBERTa模型虽然在某些情况下表现良好,但在大型投资领域中,其基于瓶颈表示法的预测模型表现不如基于聚合表示法的模型。Llama模型虽然在某些分位数上表现不俗,但在整体的一致性和稳健性方面似乎不如Mistral。

表格内容进一步证实了这些发现,显示基于预测的投资组合在年化收益和夏普比率上普遍优于传统的基于情感分析的投资组合。这表明,直接从LLMs的文本表示中派生出的回报预测是一个强有力的信号,能够有效地支持量化投资组合的构建,超越了传统的基于情感的分析方法。

上图是在北美市场对不同大语言模型(LLMs)的性能进行了深入的比较分析,揭示了研究的关键发现。首先,第一幅图展示了encoder-only和decoder-only LLMs在适合的表示方法下的表现。结果表明,decoder-only模型Mistral和Llama在预测高回报(第9分位数)和低回报(第0分位数)方面表现突出,这直接反映在多头仓位和长空头仓位投资组合的优越表现上。特别是,decoder-only模型在长空头仓位投资组合中的表现尤为显著,这强调了在投资组合的多头和空头两边都进行有效股票选择的重要性。

第二幅图进一步将基于预测的投资组合与基于情感分析的投资组合进行了对比。基于LLM的预测型投资组合不仅在年化收益和夏普比率上超越了情感型投资组合,而且在累积收益图表中也显示出更优的曲线。特别是,基于LLM预测的多空头仓位投资组合的收益曲线比多头仓位投资组合更为平滑,这表明空头部分有助于降低整体投资组合的波动性。

0 人点赞