使用到的包是RCurl,通过这个包可以做一些网页讯息的抓取
先通过新浪财经的入口,选一只感兴趣的股票,再点击左边行情走势下的历史交易得到历史交易数据
常用的浏览器可以打开网页讯息的源代码:
首先读取包并用,读取该网址的信息,并按行对信息进行切割:
library(RCurl)
temp<-getURL(url)
k=strsplit(temp,"\r\n")[[1]]
可以看到相关的源代码信息,在每一个周期内都有一个<a target='_blank' 格式的脚本,可以以此为匹配的原则用grep函数提取相关的信息,并且在读取该行发现,该行的下行有直接出现日期信息,可以在出现的列表中的采用+1直接读取下一行的时间信息:
date<-k[grep("<a target='_blank'",k)+1]
会读取到类似这样格式的有关时间讯息