■中短期市场的难预测性折射出深层次问题。中短期市场难以预判的特性,背后所反映的可能是某些尚未被发现、理解、定价的市场特征,由于人类思维的局限性,譬如归纳与演绎推理并非万能,使得该类特征难以被察觉。相对于人类思维的局限,近年以来发展较快的机器学习提供了一定程度的优化方法,本文将通过搭建机器学习投资体系,以期弥补人类大脑在高维数据处理与线性思维的不足,尝试观测市场短期变化的特征,进而提供投资策略的新思路。
■机器学习发展迅速,投资领域不乏先驱。20世纪40年代,机器学习以模仿人类神经元的连接为起点逐步发展,但到了20世纪60年代中叶至70年代中叶,其发展的步伐进入停滞期。年,误逆差传播算法(BP算法)又推动了人工神经网络发展的第二次高潮。当前,机器学习的焦点集中在集成学习和深度学习,从应用场景来看,随着机器学习的平台不断扩张,机器学习算法已经应用到诸多领域,以股票市场为例,涌现出了不少 机构投资者,如文艺复兴科技公司等先驱,通过不断创建、改良算法,创下了令人瞩目的成绩。
■机器学习应用于ETF投资,近三年业绩显著。基于机器学习的特点,不难看到,数据量越大、对预测精度要求越高的领域,机器学习越能发挥其自身优势。市场(尤其是中短期市场)是一个典型的由多维信息构成的大数据集,我们认为机器学习工具能帮助投资者更好地识别金融资产价格的变化模式和可能存在的规律。为此,我们搭建了一套名为阿尔卡纳(Arcana)的纯机器学习投资体系,使其通过不断学习历史信息,识别信号,进而在月度频率上对相关行业ETF做出预判与投资决策,从近三年业绩来看,年1月至年12月,持仓总收益率%,平均年化收益率84%,年化夏普率3.75,同期全市场排名6/。
■尝试理解短期市场变化,则不应局限于线性思维。阿尔卡纳反映出来的问题是深刻的,我们通过对其业绩回检,不仅发现了A股市场的非稳态性质,即市场并不是始终处在一个确定的状态里,信息/因子并非始终有效,还发现了各类可能被忽视的因子对A股存在的影响,如反腐对ETF价格存在阶段性影响、房价对消费影响明显等现象。因此,在观测短期市场这一问题上,紧盯某些长期因子并不能有效做到市场预判,而应对更广范围的因子进行收集、观测、理解。
正文
中短期市场的难预测性折射出深层次问题
如何预判股票市场表现?这一问题自出现以来就持续困扰着投资者,从学术界到金融界、机构投资者到个人投资者,无数业界翘楚贡献了大量的经验和成果,但时至今日,人们仍未完全掌握 预判这个变化多端的市场的方法,市场仿佛一个充斥着大量信息的混沌系统,使得人们对股价、指数的前瞻变的极度困难,因此在面对中短期(如一年以下)市场变化时,投资者多以“立足长期趋势、淡化短期波动”的态度来应对,间接回避了对市场变化特征的探讨。
对中长期投资者而言,对行业发展、企业成长的理解与跟踪是核心要义,也是投资者在穿越中长期市场牛熊风浪中的北极星,从本质上看,这实则是在对中长期投资问题进行归纳与演绎推理。然而每当尝试对中短期的市场进行预判并形成策略时,似乎胜率并不显著,一个具有代表性的例子则是公募基金的“赢家诅咒”(Winner’scurse)现象。
“赢家诅咒”是经济学中对一类现象的称呼,指在谈判中,提议人的提议虽然被接受,但却未必得到了 的交易结果。该现象发生在很多领域,如出版商预付了高额出版费,但最终却未回本。在A股市场中亦存在该现象,中短期业绩排名靠前的基金不乏市场的追捧,但出色的业绩在随后的时间内较难延续,以年为例,在彼时A股单边熊市中,市场上涌现出的排名前10的公募基金业绩亮眼,但其在后续两年间业绩却难续辉煌。
图1:公募基金的“赢家诅咒”现象
资料来源:Wind、招商银行研究院
“赢家诅咒”现象是中短期市场难预见性的体现之一,而为何难以预判?我们认为根本原因在于认知偏差。根据认知科学的核心观点,心智的计算-表征理解(Computational-RepresentationalUnderstandingofMind)是对思维最恰当的理解,换言之,人类思维实则是逻辑、概念、规则、类比、表象、联结这六种代表性心理表征的计算过程,而人类思维在处理短期股市变化该类问题时,心理表征的计算过程存在不同程度的偏差,可能原因有三:
其一,相较于长期变化,中短期市场易受短期事件冲击影响,而每个个体受自身学习经历、工作环境、监管政策、可得信息等方面的综合影响,对信息的评估存在不同程度的偏差,进而体现为交易行为的不同;
其二,投资者对高维数据信息的理解和利用并不充分,人的决策过程偏线性化。最为直观的体现之一就是认为中短期市场可能服从某种规则(如技术分析),虽然这种方法时而有效,但容易陷入局部极值(典型例子即是“抄底抄在半山腰”)的困境。线性化思考过程容易忽略大量非线性数据的关联,如某类事件的出现可能引发其他因子之间的变动,使得长期规律(如现金流贴现模型等估值框架)难以刻画短期股价变化过程;
其三,人的决策不可避免地受到身心状态的影响,从而表现出一定程度的“非理性”,如业绩考核压力加大、投资规模大幅度变化等情况下,因投资者身心状态产生较大变化而出现的非理性表现。
因此我们推测,中短期市场难预知的特性,背后所反映的可能是某些尚未被发现、理解、定价的市场特征,由于人类思维的局限性,譬如归纳与演绎推理并非万能,使得该类特征难以被察觉。相对于人类思维的局限,近年以来发展较快的机器学习提供了一定程度的优化方法,本文将通过搭建机器学习投资体系,以期弥补人类大脑在高维数据处理与线性思维的不足,尝试观测市场短期变化的特征,进而提供投资策略的新思路。
机器学习的前世今生
提及机器学习,人们可能立刻想到的是大量的复杂算法模型,但其实要理解机器学习并非难事,抛开过于学术的定义,以挑选橘子场景为例便可知晓一二。
生活中的经验告诉我们,表面有小斑点、颜色鲜黄的、个头中等的橘子是甜的概率较大。当机器被赋予“有斑点+鲜黄+个头中等=甜”这类规则之后,给定同一个橘子,不同的人和同一机器进行多次判断该橘子甜还是不甜,在较成熟的机器学习体系下,被机器认定为甜橘子的概率应与被人认定为甜橘子的概率相近。此外,基于特征做判断的机器学习还可以分离出特征的相对重要性,例如当遇到颜色鲜黄、个头中等但无斑的橘子时,缺乏经验的人在短时间内可能难以做出正确判断,但机器通过分析可能认为,表皮颜色对甜度的影响更大,因此即使没有斑点,机器也倾向于认为这是个甜橘子。
上述例子简单展示了机器与人在特定任务处理上的异同之处,下文将通过回顾机器学习的过往发展,对当下的应用场景(如投资领域)做出简介,进而介绍投资决策中融入机器学习的优势。
(一)机器学习的发展历程
机器学习萌芽于20世纪40年代,以模仿人类神经元的连接为起点,彼时,需要依赖相关学习规则才能高效运作,最典型的规则之一为“Hebbian规则”。由于Hebbian规则属于无监督学习,故在处理大量有标签分类问题时存在局限。随后,前向人工神经网络(感知器)诞生,开启了有监督学习的先河,并被广泛应用于文字、声音、信号识别、学习记忆等领域。20世纪60年代中叶至70年代中叶,机器学习的发展进入停滞期,一批学者对感知器效果提出严重质疑。年,应用于多层神经网络的学习规则——误逆差传播算法(BP算法)推动了人工神经网络发展的第二次高潮。除了BP算法,包括SOM(自组织映射)网络、ART(竞争型学习)网络、RBF(径向基函数)网络、CC(级联相关)网络、RNN(递归神经网络)、CNN(卷积神经网络)等在内的多种神经网络也在该时期迅猛发展,标志着机器学习的复兴。
图2:机器模型发展历程概览
资料来源:招商银行研究院
当前,机器学习的焦点集中在集成学习和深度学习。虽然方法论随着时间变迁,但是机器学习的本质始终未偏离图灵在年伦敦的演讲中提到的那句话,“Whatwewantisamachinethatcanlearnfromthepastexperiences.”(我们想要的是一台能从过去的经验中学习的机器)。从应用场景来看,随着机器学习的平台不断扩张,机器学习算法已经应用到诸多领域,以股票市场为例,涌现出了不少 机构投资者,如文艺复兴科技公司(RenaissanceTechnologies)等先驱,通过不断创建、改良算法模型,创下令人瞩目的成绩,其内部代表作大奖章基金(MedallionFund)在-近30年的时间内费后年化收益率高达39%,远超索罗斯(-,费后年化32%)、科恩(-,费后年化30%)、巴菲特(-,费后年化21%)、达里奥(-,费后年化12%)。
图3:机器学习应用广泛
资料来源:招商银行研究院
(二)投资决策中融入机器学习的优势
从前文提到的挑选橘子问题中可以发现,在做决策中融入机器学习可能具有相对优势。类比电脑,人类大脑就像块CPU,虽然强大,但在同时有效处理多个任务的问题上存在明显的不足之处,即我们常说的“一心不能二用”。而电脑则有两颗“大脑”,一个是CPU,另一个则是GPU,串行与并行的计算方式赋予了电脑在较短时间内对高维数据快速处理的能力。简而言之,机器和人脑本质上都是优化器,当任务维度增加时,人脑往往可能会顾此失彼,但机器求 解的能力更强,犹如在复杂地形中能更准确的寻找到全范围内 的山峰或 的洼地,即更容易得到非凸(Non-convex)的全局 解。
图4:机器学习与人类学习对比
资料来源:招商银行研究院
基于机器学习的特点,不难看到,数据量越大、对预测精度要求越高的领域,机器学习越能发挥其优势。市场(尤其是中短期市场)是一个典型的由多维信息构成的大数据集,我们认为机器学习工具能帮助投资者更好地识别金融资产价格的变化模式和可能存在的规律,通过对短期市场的观测,尝试探索可能尚未被发现、定价的市场特征。
为此,我们搭建了一套名为阿尔卡纳(Arcana)的纯机器学习投资体系,使其通过不断学习历史信息,识别信号,进而在月度频率上对相关行业ETF做出预判与投资决策,从近三年业绩来看,年1月至年12月,持仓总收益率%,平均年化收益率83.8%,年化夏普率3.75,同期全市场排名6/。
图5:策略净值比较
资料来源:Wind、招商银行研究院
机器学习应用于ETF配置的实证检验
阿尔卡纳回报远超大市,为何机器能实现如此显著的业绩,接下来我们将从标的选择、架构设计、实际表现三个方面来开展分析。
(一)标的选取与架构设计
ETF是交易所交易基金(ExchangeTradedFund)的简称,是一种在交易所上市交易的、基金份额可变的一种开放式基金,一般跟踪各类行业、主题等一揽子股票的综合表现。因此,投资者买卖一只ETF,就等同于买卖了它所跟踪的指数/行业/主题,可取得与该指数基本一致的收益。
我们选取6支规模大、流动性好、覆盖范围广的行业ETF构建标的池,旨在尽量覆盖A股主要行业,包括消费、信息技术、金融、医药等行业。需要指出的是,房地产ETF由于发行成立时间较晚,可供学习的历史数据不多,因而暂未纳入标的池。
图6:标的池简介(截止年末)
资料来源:Wind、招商银行研究院
在架构设计上,阿尔卡纳类似人类投资决策流程,分为信息获取、信号识别、做出决策三大步骤。
图7:Arcana架构设计
资料来源:招商银行研究院
进行预测前,需要输入历史数据训练模型。我们的因子库结构大致可分为5大类:市场、行业、宏观、政策以及环境。由于部分数据披露存在时滞,例如,年10月份的CPI数据的披露时间为11月23日,那么在11月初,将无法根据预测结果进行调仓(阿尔卡纳调仓日为每月月初),为了应对这种情况,我们将根据因子披露是否有时滞,进行相应调整。
图8:部分因子数据结构
资料来源:招商银行研究院
预测价格和相关因子间的映射如下式所示:
基于集成算法得到预测价格后,将预测价格输入定量配置模型,即可输出下个月的仓位建议,下月初即根据仓位建议进行相应调整。
(二)预测效果和策略表现
从机器学习算法的预测效果来看,近三年阿尔卡纳对能源ETF、材料ETF、金融ETF的预测准确性较强,而长期成长性较强的消费ETF、医药ETF和信息技术ETF的预测准确率略低,但也均超60%的正确率水平。
图9:预测方向准确率(-,月频)
资料来源:招商银行研究院
经过逐期预测与对应调仓,从年度回报来看,不论当年市场行情如何,阿尔卡纳均跑赢市场,也跑赢了标的池中的单一标的。与同期公募基金的表现对比,阿尔卡纳持仓回报排名稳定于同期全市场公募基金的前1%,并且随着时间拉长,阿尔卡纳的效果逐步提升。
图10:年度回报对比
资料来源:Wind、招商银行研究院
图11:超越同期全市场公募基金百分比情况
资料来源:Wind、招商银行研究院
阶段表现来看,阿尔卡纳在择时上表现较好,尤其是在震荡下跌时,数次空仓建议后来证明都是正确的。例如年期间,股市全年震荡下跌,Arcana建议年空仓月数达5个月(4、6、8、10、12月空仓),同期沪深指数表现为震荡或下跌;年5月空仓恰好规避中美 超预期升级的风险;年8-9月空仓则回避了7-8月指数急速上涨之后的调整。
图12:阿尔卡纳阶段性择时效果
资料来源:Wind、招商银行研究院
短期市场可能存在尚未被发现与理解的特征
阿尔卡纳反映出来的问题是深刻的,我们通过对其业绩回检,不仅发现了A股市场的非稳态性质,还发现了各类可能被忽视的因子对A股存在的影响,反映出短期市场虽然难以预测,但可能存在着某些现象尚未被充分发现、理解和定价。此外,阿尔卡纳所揭示出来隐含的政治与经济现象也值得未来