广发言 | 李育鑫:AI时代,量化投资将更加智能与精准

2024-05-18 19:30
导读:

珠江滔滔,不舍昼夜。

在时间的洪流中,风流终被裹挟而去,唯价值沉淀。

何谓价值?《资本论》赋予了其政治经济学的基本定义:凝结在商品中无差别的人类劳动,而在证券投资领域,价值通常是在说企业内在价值和市场赋予其价格之间的关系。

好公司需要日积跬步打造护城河,好生意需要千锤百炼形成强壁垒。好价格,也需要在市场的波动中等待时机。价值投资背后,凝聚着时间的结晶。

我们邀请到广发基金的基金经理,请他们分享对于时间的认识,对价值的思考。

让我们,以时间的名义,为时间正名。

让我们,以价值的名义,为价值赋能。

珠江滚滚,一江春水向东流!
Image


Image


普通投资者大多知道巴菲特,但很少人知道詹姆斯·西蒙斯。近日,被誉为“量化之王”的詹姆斯·西蒙斯逝世,他创立的文艺复兴科技公司开创了量化投资的先河,并成为历史上最赚钱的投资公司之一。


量化投资,简而言之,是一种使用数学模型和算法来决定投资组合的策略。这种方法与基于直觉和主观判断的传统投资方式截然不同,它依赖于大数据分析、数理统计和自动化交易技术,旨在通过消除人为情感干扰,实现更客观、更科学的投资决策。量化投资的核心优势之一是能够处理海量信息,凭借信息广度的优势,从市场众多潜在的投资机会中快速捕捉胜率更高的部分,从而迅速做出交易决策。


经过多年的发展,量化投资已经成为金融行业的重要部分,而量化基金也因其近年来的优异表现受到了广泛关注。人工智能在飞速发展的过程中,逐渐与量化投资相结合,开启了投资领域的新纪元。人工智能提供了更精确的数据分析和预测能力,实现了交易策略的自动化执行,为投资者带来更高的效率和回报。结合近五年的实践,笔者分享一些关于量化投资的思考和感悟,期望有助于读者朋友们更好地了解量化投资。



多因子策略是主流量化策略


无论是在相对成熟的海外市场,还是在方兴未艾的国内市场,多因子模型都是量化投资领域应用最广泛、最成熟的量化选股模型之一,其核心在于充足的Alpha因子储备。理解多因子模型的分析逻辑,可以帮助我们更好地理解量化投资的Alpha来源。


因子投资框架起始于1960 年代哈里·马科维茨的现代投资组合理论。1964 年,威廉·夏普提出了资本资产定价模型,这是第一个将风险因子与预期收益联系起来的模型。1980 年代,经过法玛和弗兰奇的完善,发展出现代多因子投资框架的雏形。1990 年代后,因子投资逐渐落地商业化应用,并演进发展至今。


在二级市场中,股票价格的变化往往同时受到多个因素的共同作用。量化投资中的单个因子对应于单一维度的影响因素,而多因子策略则是基于统计学和金融理论,通过选取多个与资产收益相关的因子来构建投资组合的模型,是量化投资中的主流 Alpha 策略。


多因子投资框架的核心在于不断挖掘和积累能够产生超额收益的因子,形成完备的Alpha因子库,并运用Alpha因子实现投资组合的超额回报。常见因子包括表征公司基本面的成长、盈利、估值、公司治理等,以及表征市场交易行为特征的资金流、波动率、反转、高频价量等。通过综合考虑多个因子,可以更全面地评估股票的投资价值。


例如,笔者目前管理的量化基金中就有对多因子模型的运用。在管理过程中,我们对多维度、多元化的数据进行处理加工,包括财务数据、分析师预期、另类数据、日频/分钟价量、逐笔成交明细、订单薄数据等,通过精细化地构造和筛选,积累了上千个有效的alpha因子共同构成因子库,可以有效覆盖更具广度的超额来源。


随着资本市场中上市企业数量的不断增多,多因子模型的运用价值也越来越显著。以小盘股投资为例,传统的基本面研究虽然具有持续、深入、细致的特点,但主要集中覆盖在大中市值公司,而小盘股数量众多,细分行业分布广泛,靠人工研究很难完全覆盖和深入挖掘。多因子模型可以很好地填补中小市值这一研究空缺,通过多维度、多元化数据的支持,常年积累的量化多因子体系能高效跟踪覆盖中小市值领域,提升投研的效率和胜率,有望积累更为丰厚的超额;同时也有助于促进市场效率和公平性,使更多中小市值的创新型企业获得必要的资本支持。


以丰富的数据搭建量化多因子体系是量化投资决策的驱动因素,数据的质量和丰富程度决定了因子质量和多样性的上限,进而决定了整个策略收益的上限。因此,搭建量化多因子体系的流程可以概括为以下步骤:数据处理—因子构建—因子加权—组合优化。下面,笔者将结合自身的实践展开阐述。


首先,原始数据的获取和处理。我们会对公司各个维度的数据进行全面且合理地采集,包括财务数据、新闻数据、分析师预期数据、不同颗粒度的市场价量数据(日频、分钟频、tick)等基础数据。对于收集好的数据,我们会进行精细化地处理,包括对数据缺失值、异常值、重复值进行处理;同时,为确保不同股票之间的因子具有可比性,还要对因子进行数据标准化处理。整体而言,我们追求多元化和异构化的数据,既关注股票的成长、盈利等基本面属性,也融入动量反转、资金流、波动率、参与者结构等市场微观交易信号,力求通过多维度、有广度的数据挖掘出市场隐含的定价偏离。


其次,选股因子的积累,主要包括因子构建、因子测试、因子相关性检验三个环节。一是因子构建,是基于对金融市场的认知和股票定价规律的探索,构建用以刻画股票某一特性的有逻辑含义的因子。二是因子测试,是通过历史数据检验的方法,评估因子取值与未来股票收益率之间是否长期具备稳定的关联性,筛选出能较为稳定地预测未来股票收益率的有效因子。三是因子相关性检验,旨在了解因子之间的线性关系,这对于构建多因子模型和避免多重共线性至关重要。通过长期不断积累低相关性的有效因子,力求获得穿越周期、低衰减兼备的稳态超额。


第三,选股模型的开发完善,主要是对因子加权复合。我们在完备的因子库储备的基础上,需要进一步为投资组合中的各个因子分配不同的权重,进而整合多个维度的信息,得到对未来股价具有更强预测能力的复合信号,常用的加权方法有各因子等权处理、基于IC/IR加权等。


基于完善的Alpha模型,我们可以进行第四步,即构建组合和组合动态优化:在满足一系列条件约束的前提下,通过组合优化实现投资组合的最优配置。在构建组合时,我们注重均衡性,避免过度集中少数行业或风格,尤其关注超额的稳定性,以期为投资者带来更好的持有体验。



机器学习赋能量化投资


前面提到,量化投资中的多因子模型是通过选择、分析和组合多种影响股票价格的因素来构建投资策略。传统的多因子模型,仅仅是基于线性加权的方式对不同因子进行信息汇总。然而,随着数据规模和复杂度的增加,传统简单模型越来越难以准确地描述市场行为。


人工智能和机器学习的发展,为量化投资的策略的进一步提升提供了契机和动力。相比于传统的线性模型,机器学习算法能捕捉不同因素之间非线性的关联性,同时拥有更高的模型复杂度,意味着它在高维空间中具有更宽泛的求解域,即在复杂的应用场景下具备更强的学习能力,从而成为了一种强有力的量化投资工具。下面,笔者介绍一些常用的机器学习模型及其应用场景。


一是人工神经网络模型。神经网络模型通过模仿生物神经元之间相互传递信号的方式,从而达到学习经验的目的。它由大量简单的处理单元广泛互相连接而成,是一个高度复杂的非线性动力学习系统。虽然每个神经元的结构和功能都不复杂,但通过多层神经网络的连接和信息的逐层传播,可以对实际生活中的各种复杂规律进行精准地刻画。


在量化多因子体系下,神经网络模型可以直接用于对原始的数据特征进行信息提炼,从而生成有效的Alpha因子。例如,我们可以将股票市场的高开低收、成交量、成交额等原始交易数据作为神经网络的输入,使用模型对历史数据进行参数训练,自适应性地提炼出对未来股票收益具有预测作用的信息,最终输出一系列Alpha因子,对因子库进行有效扩充。通过这种方式得到的因子虽然在直观性上有所欠缺,但它能捕捉到更隐蔽的市场定价规律,与基于金融知识构建的有逻辑含义的因子形成有效互补。


另外,我们还可以将已经积累的Alpha因子作为神经网络的输入数据,此时神经网络模型主要发挥因子加权复合的作用,最终输出对每支股票的综合评价打分。相比于传统的线性加权方法,神经网络模型凭借优异的学习能力,能更充分地对不同维度的因子信息进行融合,发挥出量化多因子体系在信息广度方面的优势。


二是XGBOOST(Extreme Gradient Boosting)。XGBOOST是一种基于梯度提升的机器学习算法,能够通过迭代训练一系列弱学习器来构建一个强大的预测模型。它的优势在于可以处理大量的数据特征,并具有强大的泛化能力,能够快速有效地构建出高性能的模型。XGBOOST通常由一系列决策树构成,而每棵决策树的层次结构是相对直观的,因此,XGBOOST相比神经网络模型具有更强的可解释性。


Image


在量化多因子框架中,XGBOOST可以用于对Alpha因子进行合成。模型通过学习历史数据,找到不同Alpha因子之间较好的非线性树型组合结构,然后对各棵决策树的预测结果进行加权复合,得到预测能力提升后的综合信号作为模型输出。


这些机器学习算法的共同优势在于,它们能够处理多维度、多样化的数据,提升投资策略的精确性和效率。此外,它们的非线性建模能力和自适应学习机制,可以帮助量化投资者在瞬息万变的市场中做出更准确的决策。



量化投资未来发展的两大方向


随着人工智能技术的不断发展,它在量化投资中能发挥的空间越来越大,有两大方向已经受到业界的重点关注。


一个是结构更复杂的神经网络模型。神经网络模型是机器学习领域的一个前沿方向,其中包括了很多分支。目前,量化领域中主流使用的是GRU、LSTM等时序神经网络,侧重于对数据在时间序列上进行规律挖掘。未来,量化投资有望更多地采用其他类型的深度学习模型,如卷积神经网络(CNN)和图神经网络(GNN),以及不同类型神经网络之间的融合变体,用以同时处理股票自身的时序信息和不同股票之间的联动作用。这些模型可以从数据中自动提取出更多有效特征,为投资决策提供更精准的参考。


另一个是机器学习应用于情景分析。在量化投资中,我们通常会储备多个模型,比如线性模型、神经网络模型、XGBOOST等。对于模型之间的权重分配,传统做法是基于特定的简单机制,例如根据历史经验预先指定固定比例,或者根据模型近期表现进行线性加权。实际上,机器学习算法也可运用于对不同模型的结果进行整合。通过学习宏观经济指标等外生变量对不同模型表现优劣的影响,机器学习算法会根据当下的市场环境,对更匹配目前情景的模型赋予更高的权重,最终实现自适应性分配模型权重的效果。


整体而言,机器学习算法在量化投资中的应用为金融市场注入了新的活力。随着技术的不断进步,量化投资将更加智能化、精准化,为个人投资者提供更好的服务。相信在未来,人工智能与量化投资的融合将进一步推动投资策略的创新,为投资者带来更多机遇和收益。


(风险提示:文章涉及的观点和判断仅代表投资经理个人的看法。本文仅用于沟通交流之目的,不构成任何投资建议。投资有风险,入市须谨慎)



Image



相关推荐
打开APP看全部推荐