1.3 有保留地相信回测结果

我们拥有历史数据,可以用于回测建模,然后将其用于目前的新市场环境交易,我们给这种行为起了一个听起来“高大上”的名字:量化投资。似乎一切波动都可以用定量方法完全解读,可以封杀一切风险暴露,只取得利润,其实不然。

早在1900年以前,查尔斯·亨利·道(Charles Henry Dow)就已经创立了股票市场平均指数——“道琼斯工业指数”。他们引入了移动平均线这种分析方法。当时的历史价格数据质量很差,只能通过纸质出版物印刷保存。但是基本的指数编订、权重规则、移动平均动量分析方法,已经被引入了,这就是典型地想通过定量化分析来预测市场和战胜市场的表现。

所以通过回测构建模型是一门古老的融合学科,甚至包括很多对于市场运行规律的不尊重(金融数据研究属于非实践性科学)。回到本章节主体,我们为什么要相信回测结果,能否相信回测结果,甚至将其应用到未来的实际投资中?

主要原因是,模型运行在样本数据(历史数据,in-sample部分),我们相信样本数据能够在一定程度上反应总体数据,特别是真实数据(样本外实盘数据,out-of-sample部分)。样本容量过小,则样本对总体缺乏足够的代表性,从而难以保证推算结果的精确度和可靠性,所以历史数据不足的问题不容忽视。训练模型首先要获取尽可能多的历史数据,然后假设历史数据能够尽可能推断未来走势,这是我们做量化投资相信回测结果的基本假设。

可以阅读一下技术分析理论的三大假设(市场行为包容消化一切信息、市场运行以趋势方式演变、历史会重演),或者道氏理论的三大假设,从这里寻找一些可以轻松理解的答案。实际上我初入这个行业时,心中也是抱定信念,坚信这些假设成立。虽然后来随着研究发现某些假设并不十分稳固,但是这些假设还是很有市场的,并且交易者愿意按照其指导自己的操作。

回到刚才所说样本和总体的关系,我们将此问题转到统计学角度来分析,既然手中的数据是样本,那么我们要分析研究对象(股票和期货价格)的变化程度和所要求或允许的误差大小,在不同的模型中这两点要求不一样,但是总体来看,样本永远无法满足要求,且现实数据变化较大,所以我们仅能获取到粗略统计结论。

因此一定要有保留地相信回测结果,而不是按照回测结果达到多少年化收益率和胜率等绩效指标,就认为实盘中也能达到如此结果,实盘和回测一定是有偏差的(当然我们都希望实盘比回测绩效更好,但是很遗憾这种情况很少出现)。

所以需要注意:我们是用模型效果在样本数据上推测真实数据也按照此规则运行,一切前提都在数据端,如果数据一旦不按照此规则运行,则模型随数据变化程度而衰减甚至失效。如图1-10所示。

图1-10 矩阵推进(walk-forward)建模方法适用于数据量巨大的高频领域

在承认衰减是必然的之后,模型开发者希望绩效尽可能少地衰减,但是无论使用什么数据切分方法、矩阵推进(walk-forward),都只是在样本内部说明你的模型对于数据有较好的适应能力,此时我们希望得到的结果是,在训练和测试部分,资金曲线都有较好的上升斜率,并保证了相似的交易次数(交易密度验证)。如图1-11所示。

图1-11 随着样本量增加,样本特征趋近于总体,所以我们永远面临样本不足

当我们站在更远的时间点看现在(手中的回测数据)时,会认识到再长时间的测试样本,依然只是样本而不是总体。高盛公司数量策略部门的董事总经理Emanuel Derman认为:样本和总体相似,但这种相似性也是有限的。仅以回测数据建模,导致模型缺少深刻的结构和坚实的原理。大部分传统的权益模型专注于数据之上,这是一个危险的现象。

我们的回测报告只是逼近模型在实盘阶段的表现,或者说近似说明该模型有哪些风险收益特征。相信回测并不等于死板地恪守,要看清回测的实质。

除了认识到样本仅是总体的一部分概率表示之外,还要考虑以下这样几个问题:

(1)样本内数据的交易规则、交易成本、市场参与主体是否和目前的实盘一致?

(2)在样本内数据上,单笔交易的利润贡献是否平稳,还是说来自于少数高盈利的交易?

(3)样本内数据的不同周期波动率,是否和目前的市场波动率相似?

(4)样本内数据是否质量低下,以及政策过度干预?

以上几个问题如果出现了和目前市场不符的情况,则要人工地过滤掉一些和目前不符的模型或参数配置或品种配置。如果你是一个资深交易者,则可以通过对市场规则的熟悉来完成过滤,如果你是一个细心的数据分析师,则可以将数据对应到基本面在历史上发生的变化来实现过滤。

如图1-12所示,实盘绩效可以看作是预测数据,这部分数据随时间运行偏差越来越大,这是接下来我们要通过模型对抗的核心问题。它严重干扰着量化投资行业,使得我们即使做出可以回测盈利的模型,在实盘也实盘无法跑赢市场,甚至出现较大绩效衰减。我们在本书中的不同地方会提到解决方案,也会给出我们的建议。

图1-12 用时间序列预测误差理解回测和实盘绩效

以上问题都是说起来容易,做起来需要高度专注和长时间付出才可以完成。我尽可能说出这些内容,希望缩短投资者建立长期盈利模型的时间,各位读者要在数据分析方面下功夫。也只有尽量避免各种不利的数据影响,我们才能在更大程度上相信回测结果。

量化投资的危险之处在于,目标函数在推动你从数据里挖出黄金,也在放大噪声的影响力,所以到了某个奇怪的交易规则设置临界点下,模型由噪声主导,得到的完全都是幸存者偏差。事实上定量管理的核心问题和导致模型奔溃的主要原因,正是在于对历史数据的过度依赖,市场环境的变化可能导致股票、期货市场运行模式的改变,所以我们要相信回测结果,在一定程度上也要尝试走在市场前面,预判性地应对风险。