量化投资:研报文本挖掘选股策略

核心观点:

●借力研报,打造开放的量化选股模型

传统的多因子量化选股模型是封闭的,缺乏捕捉市场热点的能力,通过大数据技术,从财经媒体和分析师研报中捕捉热点和政策的变化,可以打造开放的量化选股模型。

分析师个股类研报每年大约5万份,相比财经媒体,分析师研报在专业度、可信度、规范度、实时度等方面有明显优势,是大数据量化投资的重要数据来源之一。

●热词库建设是构建量化选股模型的关键

通过对历史研报的统计,我们建立了基本面类、情绪面类、概念主题类三大热词库,其中基本面类和情绪类细分为正面词库和负面词库。我们统计了单个热词在近4年的选股效果,总体胜率比较高,相对沪深300有明显超额收益。

●“基本面+情绪面”热词库选股策略表现稳定

2011-2014年,策略相对沪深300、中证500的年化超额收益为21.29%、14.84%,月度胜率大约70%。

●“概念主题”热词库选股策略令人惊喜

以“油价下跌”和“一带一路”为例,截止12月19日,“油价下跌”热词概念股平均超额收益27.78%,“一带一路”热词概念股平均超额收益21.48%,其中表现最好的是中国交建,超额收益达93.28%、绝对收益达101.55%。

●“银河大数据量化投资”体系

我们将逐步建立起“银河大数据量化投资”体系,数据来源包括财经媒体、分析师研报、行情财务三大部分。我们认为,通过对投资者情绪、行业政策舆论、概念主题舆论和个股舆论进行大数据分析,可以构建择时、行业配置、选股和组合管理等量化投资模型。

传统的多因子量化选股模型是封闭的,缺乏捕捉市场热点的能力,通过大数据技术,从财经媒体和分析师研报中捕捉热点和政策的变化,可以打造开放的量化选股模型。

分析师个股类研报每年大约5万份,相比财经媒体,分析师研报在专业度、可信度、规范度、实时度等方面有明显优势,是大数据量化投资的重要数据来源之一。

一、银河大数据量化投资体系 

近两年来,大数据和互联网金融发展迅猛,各大基金公司和券商纷纷加入大数据量化投资研究行列,甚至一些互联网公司已经布局,未来大数据量化投资研究将精彩纷呈。

国内已经有成功的案例,比如广发基金联合百度公司、中证指数公司开发百发100指数,南方基金则携手新浪财经、深证信息公司推出了i100指数和i300指数。

我们构建了银河大数据量化投资体系。理论上,大数据研究的引入,可以把量化投资各个领域重新建模,包括择时、行业配置、选股和组合管理等。

 

二、分析师研报是重要的数据来源

(一)信息的传导路径

传统的多因子量化选股模型依赖财报数据,其信息是非常滞后的,其封闭性让其无法跟上市场节奏,通过财经媒体和分析师研报,有助于量化选股模型捕捉到更加前沿的信息。

 

(二)分析师研报数量庞大

近4年来,个股类的分析师研报每年大约有5万分,是大数据量化投资的重要数据来源。

 

(三)简单的文本挖掘策略回顾

我们团队对分析师研报的应用有着深厚的积累。2013年我们推出了《事件投资,有效的研报标题关键字130521》。

该策略在 014年总体上还是有效的,但呈现一个特点,基本面相关的关键字效果在下降,而情绪类相关的关键字效果要更好一些。

简单的研报标题信息量非常有限,下文我们将进一步从研报摘要中挖掘更加有效、准确的信息。

三、文本挖掘技术介绍与热词库建设

首先,我们简单介绍一下文本挖掘的技术。

(一)VSM 模型与 LSA 模型

文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘利用智能算法,如神经网络、基于案例的推理、可能性推理等,并结合文字处理技术,分析大量的非结构化文本源,抽取或标记关键字概念、文字间的关系,并按照内容对文档进行分类,获取有用的知识和信息。文本挖掘涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。

语义分析最经典的模型是向量空间模型(VSM:Vector Space Model)由 Salton 等人于20世纪70年代提出。它将文档表示成特征元素(主要是文档中出现的词语)的集合,即D(t1,t2,……tn)。最简单的计算词权重的方式是:如果词出现在文档中,则权值为1;没有出现,则权值为0。这种方法的缺点在于,它没有体现词语在文档中出现的频率。

VSM 模型的基本概念包括:

文档(document): 通常是文章中具有一定规模的字符串。文档通常我们也叫文本。

特征项 (feature term):是VSM中最小的不可分的语言单元,可以是字、词、词组、短语等。一个文档内容可以被看成是它含有的特征项的集合。表示为一个向量:(t1,t2,……tn),其中it是特征项。

特征项权重 (term weight): 对于含有n个特征项的文档(t1,t2,……tn),,每一个特征项ti都依据一定的原则被赋予了一个权重ωi,表示该特征项在文档中的重要程度。这样一个文档D可用它含有的特征项及其特征项所对应的权重所表示:D=(ωi,t2=……ω2,tn=ωn),简记为D(ω1,ω2,……ωn),其中ωi就是特征项it的权重。

1990 年,Deerwester 等人于提出了潜在语义分析(LatentSemanticAnalysis)模型,用于挖掘文档与词语之间隐含的潜在语义关联。LSA的理论基础是数学中的奇异值矩阵分解(SVD)技术。LSA(latentsemantic analysis)潜在语义分析,也被称为 LSI(latent semanticindex)。该方法和传统向量空间模型(vectorspacemodel)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系,不同的是,LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

关于模型更多的细节可以参考专业的学术论文,在此不展开论述。

(二)热词库建设是构建量化选股模型的关键

文本挖掘的技术已经日臻成熟,互联网类的公司有非常成熟的技术,那么在证券领域如何运用呢?热词库的建设是关键,我们认为,无论是财经媒体的文本挖掘还是分析师研报的文本挖掘,都依赖于热词库的积累。

我们把词库建设分成三类:基本面类、情绪面类和概念主题类。

(三)基本面、情绪热词效果分析

研报摘要反应了研报的核心内容,大券商分析师的研报摘要表述清晰、简洁、准确,通过对研报摘要文本挖掘提炼关键信息,可以起到事半功倍的效果。后文的热词挖掘都是针对研报摘要进行。

 

从热词在 2011-2014年的表现来看,单个热词是不稳定的,但热词库整体的胜率和超额是比较好的,因此,我们用整个热词库构建量化选股模型。

四、“基本面+情绪面”热词库选股策略

(一)策略净值

对研报标题和摘要进行文本挖掘,通过基本面热词库、情绪面热词库两个角度进行筛选,成分股持仓30个交易日,每5个交易日滚动调仓一次,双边手续费取千分五,策略净值如图4 所示,可见,策略能够稳定战胜中证500指数和沪深300指数。

策略每年的超额收益是比较稳定的,如表 9 所示。

 

(二)相对优势分析

 

(三)案例分析

  

东华软件在2014年的第一份研究报告是《东华软件-002065-前瞻布局,再创优势-140122》,改报告出现的热词有:并购、龙头、加速、增长、提升等,符合热词库选股条件,之后的一个月内,股价大幅上升。

2014年8月 24日,某分析师发布《浙江众成-002522-公司深度研究:募投项目及新品投放,业绩望迎来拐点-140824》,研报中出现的热词有:翻番、拐点、超预期等,符合热词库选股条件,之后的一个月内,股价大幅上升。

五、“概念主题”热词库选股策略

除了“基本面+情绪面”两个热词库筛选之外,我们增加第三类热词库的筛选——“概念主题”,打破了传统多因子量化选股模型的封闭性,有利于量化模型捕捉市场热点和政策的变化。

以当前最热门的两个概念——“油价下跌”和“一带一路”为例,我们统计了入选成分股的表现。

(一) “油价下跌”概念

截止2014年12月19日,入选成分股相对沪深300平均超额收益为27.78%。

 

(二) “一带一路”概念

截止2014年12月19日,入选成分股相对沪深300平均超额收益为21.48%。

 

六、风险提示

本报告中的所有模型都是根据历史数据建立和测算的,图表中展示的效果亦是基于历史数据,并不必然保证未来有同样好的收益。本报告中的所有模型和结论只供投资者参考,并不能完全排除未来的风险。

推荐阅读:

1.一个量化策略师的自白(好文强烈推荐)

2.股票期货经典的量化交易策略都在这里了!(源码)

3.期货/股票数据大全查询(历史/实时/Tick/财务等)

4.一个完整的量化交易系统都需要哪些功能?

5.学习Python有哪些书籍?这里有一份书单送给你

6.江湖中常说的“网格交易法”到底是什么?

7.10种经典的日内交易策略模型思路

8.干货 | 量化选股策略模型大全

9.量化金融经典理论、重要模型、发展简史大全

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/1380859.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Pytorch源码搜索与分析

PyTorch的的代码主要由C10、ATen、torch三大部分组成的。其中: C10 C10,来自于Caffe Tensor Library的缩写。这里存放的都是最基础的Tensor库的代码,可以运行在服务端和移动端。PyTorch目前正在将代码从ATen/core目录下迁移到C10中。C10的代…

利用Python+Gephi生成刀塔霸业棋子关系图

刀塔霸业版本:2019年7月24日 Gephi下载地址:Download 目录 代码 Gephi效果图 词云图 更新 代码 代码如下: # -*- coding: utf-8 -*- """ author: d0t4 date: 2019/7/29 desc: 生成刀塔霸业中各棋子的关系…

用狼的处世哲学做SOHO 一

分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章。分享知识,造福人民,实现我们中华民族伟大复兴! --创业者要有象狼一…

P450进阶款无人机室内定位功能研测

在以往的Prometheus 450(P450)无人机上,我们搭载的是Intel Realsense T265定位模块,使用USB连接方式挂载到机载计算机allspark上,通过机载上SDK驱动T265运行并输出SLAM信息,以此来实现室内定位功能。 为进…

autocad全国计算机考试试题,2015年职称计算机考试试题:AutoCAD模拟题及答案

1. 画完一幅图后,在保存该图形文件时用_______作为扩展名。 A.cfg B.dwt C.bmp D.dwg 2. 要始终保持物体的颜色与图层的颜色一致,物体的颜色应设置为_______。 A.BYLAYER B.BYBLOCK C.COLOR D.RED 3. 在屏幕上用平移“PAN”命令将某图形沿X方向及Y方向各…

LibreCAD windows 编译

一、安装 VS2019,QT,QT VS 插件 二、boost下载 下载boost_1_71_0-msvc-14.2-64.exe文件(含源码和编译好的库) Boost C Libraries - Browse /boost-binaries/1.71.0 at SourceForge.netFree peer-reviewed portable C source librarieshttps://sourcef…

VBA for AutoCAD

Download the Microsoft Visual Basic for Applications Module (VBA) 2016 Downloads AutoCAD 2016 VBA module 32-bit (exe - 70206Kb)

cad.net开发

最近要做一个cad文件的7参数坐标转换的程序,想基于cad进行二次开发,初次学习。 为了方便快捷开发,基于cad.net进行二次开发,网上查了很多资料,有基于acad等各种,总是遇到这样那样的问题,经过自…

2022年03月 C/C++(一级)真题解析#中国电子学会#全国青少年软件编程等级考试

第1题:双精度浮点数的输入输出 输入一个双精度浮点数,保留8位小数,输出这个浮点数。 时间限制:1000 内存限制:65536 输入 只有一行,一个双精度浮点数。 输出 一行,保留8位小数的浮点数。 样例输…

Michael.W基于Foundry精读Openzeppelin第24期——ERC165Storage.sol

0. 版本 [openzeppelin]:v4.8.3,[forge-std]:v1.5.6 0.1 ERC165Storage.sol Github: https://github.com/OpenZeppelin/openzeppelin-contracts/blob/v4.8.3/contracts/utils/introspection/ERC165Storage.sol ERC165Storage合约是ERC165…

【Java学习】System.Console使用

背景 在自学《Java核心技术卷1》的过程中看到了对System.Console的介绍,编写下列测试代码, public class ConsoleTest {public static void main(String[] args) {Console cs System.console();String name cs.readLine("AccountInfo: ");…

React UI组件库

1 流行的开源React UI组件库 1 material-ui(国外) 官网: Material UI: React components based on Material Design github: GitHub - mui/material-ui: MUI Core: Ready-to-use foundational React components, free forever. It includes Material UI, which implements Go…

【网约车】 网约车管理解决方案

背景 自2014年7月以来,一些互联网企业陆续推出网络预约出租汽车服务,对于满足社会公众多样化、差异性出行需求发挥了积极作用。面对新一代信息技术的发展与相关行业的快速渗透,行业监管部门要顺应新技术和新应用的发展趋势,从促进…

Python实现微信小程序自动约车

目录 一、Fiddler抓取小程序包 二、分析抓到的包 一、获取全部车辆列表 二、获取班车停靠点 三、Python实现预约车辆 一、获取明天的日期 二、获取班车id 三、获取车辆停靠点 四、Server酱实现消息提示 四、利用宝塔面板,进行定时执行脚本,实现自动约…

微信小程序汽车租赁平台+后台管理系统

《微信小程序汽车租赁平台后台管理系统》该项目含有源码、论文等资料、配套开发软件、软件安装教程、项目发布教程等 本系统包含微信小程序做的汽车租赁前台和Java做的后台管理系统: 微信小程序——汽车租赁前台涉及技术:WXML 和 WXSS、JavaScript Ja…

有没有软件支持批量查询官方界面的快递号码

如果你想做好电子商务或物流行业,你一定不能虎头蛇尾。前端效率不够,必须做好后端的及时跟踪和维护。当大量快递以集中方式发出时,必须及时跟踪物流信息,掌握快递的动态。今天,小编将安利一个实用的辅助查询软件&#…

搭上锂电池公司Livent高速增长的顺风车

来源:猛兽财经 作者:猛兽财经 作为世界上为数不多的拥有完整产业链的锂生产商之一,Livent (LTHM)处于可以充分利用锂需求繁荣的位置。该公司正在做出明智的资本分配决策,继续扩大其上游和中游产能&#xf…

微信小程序使用物流查询插件

微信小程序使用物流查询插件 文章目录 微信小程序使用物流查询插件添加插件添加成功使用方式声明使用插件引入插件包 效果图 物流查询插件 添加插件 登录微信公众平台后台—>设置—>第三方设置—>添加插件搜索:物流服务 添加成功 使用方式 根据插件的开发…

顺丰快递单号查询接口物流路由跟踪信息快递鸟api对接教程

目录 1.完成前期准备工作2.API接口3.请求参数(Headers)4.请求参数(Body)5.返回参数(Return)6.请求完整报文(示例)7.成功返回报文(示例)8.失败返回报文&#x…

同时追踪顺心捷达多个单号物流,并分析派件时效

如何在电脑批量查询顺心捷达单号的信息?并分析派件时效,像派件前、派件后时效,可以分析吗?小编的回答当然是可以的,下面一起用快递批量查询高手来操作。 查询顺心捷达物流 进入快递批量查询高手,在“添加单…