使用机器学习模型对大盘指数进行预测

作者:子楠
链接:https://zhuanlan.zhihu.com/p/24417597
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

用数学模型分析策略,可以避免由于情绪波动的造成的影响,避免一些因此产生的非理性策略。从这点上来说,机器学习可以很好地避免这种主观情绪造成的非理性决策。

大多数人在炒股的时候会觉得,如果我能判断大盘涨跌,大盘涨的时候,我就买,下跌的时候,我就全卖了,等下次涨,那肯定能赚钱。那么,本篇文章就用3个模型(SVM,决策树,adaboost)来对HS300指数进行预测,记录数据的获取,清洗,模型选用,以及如何调参。

1、获取数据:

首先获取数据,这里我使用优矿的api:DataAPI.MktIdxdGet来获取历史数据。获取在fields中已定义的数据,本项目,我选择的数据有:tradeDate,交易日、closeIndex,收盘指数、highestIndex,当日最大指数,lowestIndex,当日最小指数,CHG,当日最大涨跌幅。

我们获取数据选用的是从2006年3月1日到2015年3月1日的所有交易日,一共有2127行的HS300指数数据。

2、 处理数据:

首先我把交易日设定为index,然后将预测用的交易日的前30日数据提取出来,找出前30日的最大指数,找出前30天最小指数,定义当日指数差为当日最大指数减去当日最小指数,找出前30天最大日指数差,加上之前通过api选择到的数据,作为特征值。

除去我们用作索引的交易日期,经过处理后,一共有11列数据,其中10个为特征值,一个是待处理的标签。我认为目前市场并不是完全的有效市场,少数异常值可以对预测的时候提供市场信息,所以我认为,不应当把任何值当作异常值去除。

处理完数据后,我们查看一下数据的统计描述:


然后,我们找到预测用的30个交易日后的收盘价,用这个数字当作当前交易日需要预测的目标。设定lables表,为布尔值,如果这个预测目标大于当前交易日的收盘价,则设定为true,否则设定为False。

到这里数据集合就处理完了,待会儿可以直接切割这个集合用来做预测。

3、有效性验证:

为了验证模型的有效性,本项目采取了两个指标:

1、 模型交叉验证的score值。(这里的score值简单地计算测试机中准确预测的比率有多少。score值的范围为0~1,由于是二元分类问题,所以socre越接近1,模型表现越优秀。由于是二元分类问题,所以如果score小于等于0.5,那么可以认为模型失效。)

2、与纯随机策略对比的夏普比率(夏普比率是一个综合考虑风险和收益的计算数据,可以简单的理解为收益/风险,本模型中夏普比率采取的计算方式是(收益-基准收益)/标准差)。

首先,在训练模型的时候,对数据集进行交叉验证,获取score。以此来验证模型对于训练用数据集的准确率,如果小于等于0.5,则认为该模型对于该问题无效。如果score大于0.5,使用数据集时间点之后的数据进行回测,比对用了模型验证后,预测涨则随机选股,否则不选。对比没用模型时,纯粹随机选股的夏普比率,如果明显大于纯随即选股的夏普比率,则认为“如果大盘涨我就买,大盘跌就不买”这种思路是有效的。

4、阈值设定:

模型有效性经过验证的情况下,也就是说,“如果大盘涨我就买,大盘跌就不买”这种思路是有效的,且未经调参的模型score大于0.5的情况下。我认为经过调参后,模型的score要稳定大于0.8,才能证明该模型能够明显有效。

5、纯随机策略回测图:

用2016年1月到12月来回测,得到下图:

夏普指数为-0.72,我们在验证有效性时,使用该纯随机策略,只添加“如果预测1个月后上涨,则进行交易”这一个条件,其他不变,依然是随机购买。


6、SVM预测:

简要介绍:

SVM又名支持向量机,对二元分类问题表现尤其良好。某种程度上来说,SVM是把数据映射到高维空间,然后对空间进行切割,所以训练点之间间隔越大,SVM效果越好。作为一个大间隔分类器,SVM可以最小化经验误差,降低结构化风险。SVM的计算复杂度取决于其映射产生的支持向量,故不易发生维数灾难这种问题(这很重要,因为本题定义了很多特征量)。而最终结果取决于少数重要向量,所以一定程度上增减向量,不会对模型造成太大损害。

当样本数量过多时,SVM的训练时间会大幅增加,同时,SVM对多元分类问题处理存在困难。

单看指数的话,股票交易10年也不过2500个左右的交易日,所以数据量并不大。而当前研究的问题也确实是二元分类问题,所以这里首先选用SVM模型进行测试。

模型测试:

这里我们直接使用sklearn的SVM包中的分类模型SVC。在训练模型后,使用score函数,获得的预测准确率为:0.68。超过了0.5,所以可以认为该模型是初试有效的,值得进一步测试。

我们用2016年1月到12月来回测,得到上图,发现该模型是有效的,此时的夏普比率为0.99.,大于纯随机策略的-0.72,同时,我们的策略线(蓝线)确实明显优于HS300大盘指数(黑线)。

调整参数:

接下来,我将调整SVM的参数C,以便进一步提高SVM对于该模型的表现,观察随着C的变化,Score值的变化趋势:

我首先做了一个图,观察在C值在1~1000范围内,得到的Score值的变化:

我们发现,模型表现随着C值的提高而提高,在C值为360左右的时候,表现达到了最高。

接下来调整gamma,也是相似的方法,我们观察gamma在0~10之间的变化,得到下图:

可以看出,gamma在1.8左右的时候,score表现得最好。

至于核函数,通常都是默认核函数最佳,这里由于是第一个模型,还是检验一下吧:

果不其然是rbf(默认的高斯核函数)是最佳的。

接下来我们用GridSearchCV来确切获得最佳的C值和gamma值:运行函数后,我们得到最佳的C值为300,最佳的gamma值为1.03。根据这两个参数,此时我们模型test后获得的score为0.76,明显高于之前的0.68。

接下来通过不同的数据集(改变数据集中的数据数量)的方法测试score的方法,判断模型是否稳健,得到下图:

发现根据数据集的不同,准确率上下摆动,摆动幅度在0.1左右。但是始终没有低于过0.72,0.72大于0.5,所以可以认为模型一定程度上是稳健的。

但是由于0.72小于0.8,低于了我们设定的阈值,所以认为SVM模型对于该问题的解决表现不够良好。

7、决策树预测:

简要介绍:

由于决策树是归纳型算法,所以当其预测的数据集如果是人类很容易理解的信息,那么决策树可以表现良好。决策树可以清晰地处理大量数据,了解不同特征的影响重要性。这种算法在特征明确,杂音小,特别熟数据量较大时,效果较好。

决策树属于局部贪婪的算法,容易过拟合,有时无法保持全局最优,所以泛化能力较差。在股票交易中使用时,应当随时更新数据,否则有可能过拟合过去的经验,对未来的预测能力下降。

模型测试:

这里我们直接使用sklearn的tree包中的分类模型DecisionTreeClassifier。在训练模型后,使用score函数,获得的预测准确率为:0.88。超过了0.5,所以可以认为该模型是初步有效的。

我们用2016年1月到12月来回测,得到下图


发现该模型是有效的,此时的夏普比率为-0.09.大于纯随机策略的-0.72,我们的策略线(蓝线)也在HS300大盘指数(黑线)上面,所以可以认为相比于纯随机策略,模型是有效的。

调整参数:

接下来我们调整决策树的参数。首先我们调整最大深度,在0~100之间,获得下图:

发现最大深度在15左右的时候,开始趋于稳定,在18左右的时候,模型表现最好。

然后我们调节min_samples_leaf参数,从0到10之间,获得下图:

发现min_samples_leaf震荡幅度很大,总体来说,随着min_samples_leaf增加,模型score降低。所以这里我们就选用默认值1。

接下来调整参数min_samples_split,范围在0~50之间,获得下图:

发现随着min_samples_split的增加,模型在测试集上获得的score降低。

然后调整参数min_weight_fraction_leaf,范围从0~0.5,获得下图:

在可选范围内震荡过大,不具有明显规律,所以这时我们就选用默认值0.0。

接下来我们依靠上面选用的参数范围,使用GridSearchCV函数,选取表现出了趋势的参数max_depth和min_samples_split的最优值,我们得到的反馈为max_depth为32,min_samples_split为3.

依靠这两个参数重新进行一次在test集上的测试,这时我们得到的预测准确率为0.9,略高于之前的0.88


接下来通过不同的数据集(改变数据集中的数据数量)的方法测试score的方法,判断模型是否稳健,通过改变测试集,得到下图:

发现总体来说,模型表现在0.82~0.94之间,1000次的测试稳定高于0.8,0.8是大于0.5的,所以可以认为我们的预测模型是稳健有效的。

同时因为我们1000次的测试中,模型准确率从未低于我们设定的阈值,0.8。所以认为我们的模型对于问题的解决表现良好。

既然表现良好,那么我们就来看看哪些特征影响最大,我生成了一下特征在决策树中的重要性,得到下面得到得到下面表格与图:

发现对于未来30天股市涨跌来说,最重要的预测指数是30天内的最高值和30天内的最低值,其次是30天内的最大日波动,这3项的重要性超过了50%。也就是说,对于未来股市涨跌的预测,决策树模型认为,股市的波动是最重要的。

8、Adaboost预测:

简要介绍:

adaboost是一种通过训练多个不同的弱分类器,装配到一起的办法,形成一个较强的分类器的模型。它根据每个分类器上样本的准确性,来给特征分配权值,然后再把修改过权重值后的特征传入下一个分类器,依次迭代,最终融合成一个决策分类器。可以简单地把adaboost算法理解为“三个臭皮匠赛过诸葛亮”。

adaboost可以很好地对特征权重值进行筛选,一定程度排除无效的训练数据特征造成的干扰,增加关键数据的权重,可以较好的避免过拟合。

adaboost的缺点也很明显,弱分类器太少则训练结果不够好,太多则训练时间过长。

模型测试:

这里我们直接使用sklearn的ensemble包中的分类模型AdaBoostClassifier。在训练模型后,使用score函数,获得的预测准确率为:0.78。超过了0.5,所以可以认为该模型是有效的,有调参的价值。

我们用2016年1月到12月来回测,得到下图:


发现该模型是有效的,我们的策略线(蓝线)确实明显优于HS300大盘指数(黑线),此时的夏普比率为-0.13.大于纯随机策略的-0.72,所以可以认为相比于纯随机策略,模型是有效的。

调整参数:

接下来我们先调整adaboost的参数,首先调整装配数量n_estimators,我们选择0~200范围,发现得到下图:


果不其然是随着装配的弱分类器数量的增加,模型表现效果越好,而且依然在增加,由于依然在增加,我们接下来比对一下200~300范围内,模型的score表

现结果:

发现产生了较大的震动,那么可以认为,模型的最优n_estimators大致在这个范围之内。

为了保险起见,我又做了一个200~400范围内的图,发现震荡依然很明显,略有提高,并且在350以后近似于稳定,此时计算起来已经相当慢了。以及此时相比于200~300的平均提高,已经没有超过自身的波动范围,可以认为没有进一步尝试更高的参数的意义。


接下来我们调整参learning_rate,在0~10的范围内,得到下图:

发现在1.7左右,表现最好。

综合以上两个大致范围,接下来我选用GridSearchCV在n_estimators为340时,learning_rate在1.5~2之间,寻找最优值。得到最优结果为:n_estimators=340,learning_rate = 1.53的情况下。此时预测准确率为0.91。


然后通过不同的数据集(改变数据集中的数据数量)的方法测试score的方法,判断模型是否稳健,通过改变测试集,得到下图:

确率在0.86~0.94之间波动,未低于0.84,平均在0.9左右,由于0.84大于0.5,所以模型是有效的。总体来说,模型的稳健性还不错。

同时,由于准确率的波动从未低于过我们设定的阈值0.8,所以可以认为模型表现良好,对于解决问题有积极作用。


由于我们这次装配准确率很不错,所以我又再次生成了一次特征重要性的表格与图,来看看哪些因子影响更大。

从表格与图中可以看出,这次影响最大依然是前30天的最小值,不过第二大的是30天内的最大日波动,第三大的因素才是30天内的当日最大指数。与决策树相比,前三位影响最大的因子依然是这3个。(不过与决策树相比,交易量不再是影响第四大的因素,在adaboost中,交易量成为了影响最小的因素了。)

值得注意的是,无论是在决策树模型,还是在adaboost模型中,能体现前30日的特征,在对未来30日后的涨跌预测中,起到了巨大的影响。

9、总结

通过添加了3个模型对大盘指数的预测后的随机策略,与纯随机策略的夏普指数相比,可以发现,对大盘预测之后,夏普指数是大于纯随机策略的,也就是说,预测大盘的涨跌,对于股票交易的收益提升以及风险降低,是有积极作用的。用通俗的话就是

“如果你能预测大盘涨跌后再瞎J8买,确实比纯粹的瞎J8买效果更好”

通过比较3个模型,我们发现,对于大盘的预测,SVM模型表现不够好,决策树和adaboost的表现经过调参之后,稳定大于我们设定的阈值,表现良好。

同时,在对达到了阈值的两个模型的参数比重分析中,我们发现了一个有趣的现象:“前30天的最小指数”,“30天内的最大日波动”与“30天内的最大日波动”这3个指数作为特征,对于模型预测的权重加起来达到了50%,我是这样理解的,前30日的股市波动,对股市未来30天的涨跌有巨大的影响。



10、增加样本外数据再次验证模型

不行,我一直在考虑时间序列这个问题,不写代码来验证一下睡不着。 虽说写好代码测试完都2点了,希望大家耐心看完吧。

于是这次我切割了样本外数据,通过预留最后100~228个数据用作样本外数据测试,再次查看模型效果。

发现经过再次测试以后,adaboost和SVM的模型稳健性很差了,上下摇摆,波动不定,决策树的稳健性依然还在,但是预测样本外数据的准确率(0.8左右),明显低于预测样本内数据的准确率(0.9)

然而又有了新的问题,对于稳健性很差的那两个模型,一般而言,100个数据预测准确率为0.8,再增加一个数据,就算预测错了,预测准确率也应该只是变为0.79啊,为毛从图中看,变动的时候,直接就从0.8的准确率,变到0.2了呢?

这到底是为什么呢?目前我对这个现象的假设是这多的一个数据因为我分割的方法,它到了训练集里面,然后对模型产生了巨大的影响,恰好改变了模型之前对上涨和下跌的预测。产生这个问题的主要原因应该是我很SB的,直接根据大于或者小于算涨跌的定义标签的方式,导致分类器在涨跌那条很细的线上纠结,所以稳健性变差了。

解决方案:预留一个阈值,比方预留为5%,那么30天后的收盘价,大于今天的105%才算涨,低于今天的95%才算跌。否则设定为None。

然后我又想起来了一个问题,这个准确率是一段时间内的统计准确率,如果我减少时间周期,不是集合到一起统计准确率,而是100天,100天这样间隔统计准确率,准确率又如何呢?于是这次我得到了这样一张图:

说明模型的稳健性并不够高,而且随着时间周期,模型的准确率会突变。有趣的是,不同模型依然保持一个加起来准确率为1的规律。

本文只是抛砖引玉,别妄想看完本文你就能拿去直接预测大盘了。还有一堆模型和一堆数据可以进一步使用的。

11、代码地址:

由于数据是在优矿上提取的,纸糊又不允许我这种小透明上传附件,已经保存到桌面上处理好的csv文件没法上传上来,优矿的api只能在优矿里调用,所以我只好在那上面发布instead of上传到github了(我才不会告诉你主要是因为我不会git)。在网页里点克隆自己改着玩吧。

SVM模型的代码:uqer.io/community/share

决策树模型的代码:uqer.io/community/share

Adaboost模型的代码:uqer.io/community/share

重新比较3个模型预测大盘:uqer.io/community/share


所使用的机器学习库均为sklearn的库,可以直接在谷歌上搜。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1620409.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

大盘趋势图强弱分析 通达信大盘多空指标公式 副图不加密

判断大盘走势图的四大技巧有哪些? 答:1.消息面、政策面、经济面。2.技术面。技术面上最重要的是成交量。3.利用领涨股。一般一波行情的发展都会由一只或几只领涨股引领,对他们本身进行分析进而了解市场主力所盯紧的热点,然后判断…

通达信 红线精准主升浪波段买卖选股指标 蝶形飞扬副图公式源码

波段神器,无未来,信号极其准确,不是好用的指标不好分享给大家! 这是指标用于显示选股下单的信号,只显示安全的做多做空信号,所以信号较少,少而准!对比一下就知道了! 一个能及时提示上涨和下跌,有兴趣的朋友可以下载来试试! 指标用…

R实战:【实战分析】大盘历年几月是行情?

有人说每年的5月份是下跌行情,11月份左右会有个吃饭行情,是这样的吗?还是用事实来说话吧 R实战系列专栏 百度云下载:本文R脚本和数据文件

java 获得 大盘 开盘_教你利用开盘十分钟判定当日大盘强弱(建议收藏!)

深沪两市都可以用通过市场要素快速排序的方法告诉我们市场的真正实质。市场量价要素排序的功能是专业选手快速掌握市场真正情况的窗口,也是专业看盘的标准次序。本文教你利用开盘十分钟判定当日大盘强弱! 1,第一板个股涨幅 深沪两市都可以用通…

涨跌的例题用C语言编辑,涨跌比率指标用法及源代码(ADR)

ADR指标又叫涨跌比率指标或上升下降比指标,其英文全称是“Advance Decline Ratio”。和ADL指标一样,是专门研究股票指数走势的中长期技术分析工具。 涨跌比率ADR指标是将一定时期内上市交易的全部股票中的上涨加数和下跌加数进行比较,得出上涨…

北向资金能预示大盘涨跌?【附Python源码】

01 引言 中国证监会于 2014 年和 2016 年分别批准了沪港通和深港通,建立了大陆和香港股市的互联互通机制,市场通常把沪股通和深股通的合计流入资金称为北向资金。换句话说,北上资金就是指从香港流入大陆股市的资金,而内地流入香港…

利用随机森林预测股票大盘涨跌

本文仅从实战角度去观察,利用机器学习算法中,随机森林模型预测股票市场指数涨跌的准确率。 适合入门玩家 首先,我们导入所需要的模块 import numpy as np import pandas as pd import talib as ta #金融数据计算 import datetime,pickle …

大盘涨跌预测及仓位控制思考

今天分享一篇个人在大盘涨跌上的预测及通过涨跌预测延伸的仓位控制思考。 大盘的择时个人一直认为是股票量化中最重要的部分(普通的策略)。一个好的择时方法,虽然可能会让部分盈利变少,但能够大大的降低回撤。很多策略虽然有很高…

[第七届蓝帽杯全国大学生网络安全技能大赛 蓝帽杯 2023]——Web方向部分题 详细Writeup

Web LovePHP 你真的熟悉PHP吗&#xff1f; 源码如下 <?php class Saferman{public $check True;public function __destruct(){if($this->check True){file($_GET[secret]);}}public function __wakeup(){$this->checkFalse;} } if(isset($_GET[my_secret.flag]…

想要买一款手机!得先用爬虫爬取一下他的评论是否值得买!

1. 网站分析 本文实现的爬虫是抓取京东商城指定苹果手机的评论信息。使用 requests 抓取手机评论 API 信息&#xff0c;然后通过 json 模块的相应 API 将返回的 JSON 格式的字符串转换为 JSON 对象&#xff0c;并提取其中感兴趣的信息。读者可以点击此处打开 京东商城&#xf…

Web前端期末大作业-在线手机商城网站设计(HTML+CSS+JS)

&#x1f34a;作者&#xff1a;计算机编程-吉哥 &#x1f34a;简介&#xff1a;专业从事JavaWeb程序开发&#xff0c;微信小程序开发&#xff0c;定制化项目、源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事&#xff0c;生活就是快乐的。 &#x1f34a;心愿&#xff1a;点…

优秀网站看前端 —— 小米Note介绍页面

刚开始经营博客的时候&#xff0c;我写过不少“扒皮”系列的文章&#xff0c;主要介绍一些知名站点上有趣的交互效果&#xff0c;然后试着实现它们。后来开始把注意力挪到一些新颖的前端技术上&#xff0c;“扒皮”系列便因此封笔多时。今天打算重开“扒皮”的坑&#xff0c;不…

爬取五大平台621款手机,告诉你双十一在哪买最便宜!

↑关注置顶~ 有趣的不像个技术号 今晚0点&#xff0c;相约剁手 大家好&#xff0c;我是朱小五 明天就是双十一了&#xff0c;看了看自己手里的卡的像IE浏览器的手机&#xff0c;感觉可能等不到5G普及了。 我&#xff01;要&#xff01;换&#xff01;手&#xff01;机&#xff…

宁花4000买手机 不花6元买游戏

宁花4000买手机 不花6元买游戏 2012-03-22 09:17 0评论 阅读数&#xff1a;1005 单独窗口打印放大字号缩小字号 千变万变&#xff0c;国情不变。曾经毁了中国PC游戏市场的那些东西&#xff0c;如今又在iOS游戏市场一一重现&#xff1a;盗版、外挂、抄袭、强制消费、恶意竞争………

买手机选择困难症,Python数据分析帮你解决

每年各大品牌旗舰机发布都是一大热点&#xff0c;特别是前几天发布的iPhone Xs Max算是手机界的大新闻了&#xff0c;新款iPhone的价格也再度刷新了手机定价的记录。看完发布会&#xff0c;相信很多人的心情是这样的&#xff08;文末爬虫资料赠送&#xff09; 我一朋友鱼哥之前…

基于JAVA的盛卖手机销售网站的设计

开发工具(eclipse/idea/vscode等)&#xff1a; 数据库(sqlite/mysql/sqlserver等)&#xff1a; 功能模块(请用文字描述&#xff0c;至少200字)&#xff1a;

HTML/CSS/Javascript注册登陆界面全模版(表单验证/验证码生成/敏感词屏蔽/炫酷动画/账号信息储存)

作为前端初学者&#xff0c;我在自学过程中发现了许多自己难以解决的问题&#xff0c;而在搜索相关内容时由于许多资料过于分散&#xff0c;使用起来十分麻烦&#xff0c;所以我在完成相关内容编写后将其整理为一个模块来进行逐个分析。 示例源码&#xff1a;https://download…

小程序如何写一个优美的tab选项卡

小程序如何写一个优美的tab选项卡&#xff1f; 最近有位朋友刚学小程序&#xff0c;于是乎给我传了他写的一个tab选项卡&#xff0c;昨天晚上恰有空闲&#xff0c;于是改了一下 写选项卡的方法有很多&#xff0c;方法也特别简单&#xff0c;本文就介绍一下就客户体验而言如何让…

css html5布局方式_创建新HTML5 / CSS3单页布局–艺术主题

css html5布局方式 HTML5/CSS3 single page layout – Art theme. Today I will like to product new great masterpiece – new template with codename: ‘Art theme’. This will nice HTML5 template with nice gray colors. Hope that you will like new styles and you w…

android popWindow组件微信式实现(较完整版)

效果 PopWinLayout package com.coral3.common_module.components;import android.content.Context; import android.os.Handler; import android.os.Message; import android.util.AttributeSet; import android.view.Gravity; import android.view.LayoutInflater; import a…