目前,获取股票数据的渠道有很多,而且基本上是免费的,比如,行情软件有同花顺、东方财富等,门户网站有新浪财经、腾讯财经、和讯网等。Python也有不少免费的开源api可以获取交易行情数据,如pandas自带的库,tushare和baostock等。由于pandas库不再支持yahoo数据库后变得很不好用,而baostock最早记录的数据是2006年,因此本文主要讲讲如何使用tushare获取股票交易数据和可视化分析,tushare基本上记录了股票自上市之日起所有的日交易数据,是目前分析国内A股(支持其他非股票行情数据,如期货)比较好用的开源接口。
阅读本文之前,建议学习或回顾下【手把手教你】系列文章,熟悉掌握pandas、tushare、numpy和matplotlib等包的使用,不然后面代码阅读起来可能比较吃力。
获取股票数据
01
使用tushare包的get_k_data()函数来获取股票交易数据,具体可以通过命令help(ts.get_k_data)了解函数和参数含义。
#先引入后面可能用到的包(package)import pandas as pd import numpy as npimport matplotlib.pyplot as plt#正常显示画图时出现的中文from pylab import mpl#这里使用微软雅黑字体mpl.rcParams['font.sans-serif']=['SimHei']#画图时显示负号mpl.rcParams['axes.unicode_minus']=Falseimport seaborn as sns #画图用的import tushare as ts#Jupyter Notebook特有的magic命令#直接在行内显示图形%matplotlib inline
02
小试牛刀:获取上证指数自发布以来的数据
sh=ts.get_k_data(code='sh',ktype='D', autype='qfq', start='1990-12-20')#code:股票代码,个股主要使用代码,如‘600000’#ktype:'D':日数据;‘m’:月数据,‘Y’:年数据#autype:复权选择,默认‘qfq’前复权#start:起始时间#end:默认当前时间#查看下数据前5行sh.head(5)
能看到的第一列是索引,对于pandas的数据结构,最后将索引设置为时间序列,方便后面可视化分析。
#将数据列表中的第0列'date'设置为索引sh.index=pd.to_datetime(sh.date) #画出上证指数收盘价的走势sh['close'].plot(figsize=(12,6))plt.title('上证指数1990-2018年走势图')plt.xlabel('日期')plt.show()

上面的指数走势图还是可以清晰看出,股指分别在2007年和2015年有两波大牛市,然后又从高峰跌入谷底,目前处于下跌通道。真是辛辛苦苦28年,一夜回到解放前o(╥﹏╥)o
描述性统计
#pandas的describe()函数提供了数据的描述性统计#count:数据样本,mean:均值,std:标准差sh.describe().round(2)
结果如下表所示:

从上述结果可以看出,上证指数从1990年12月20日至2018年11月7日(最后交易日是当前运行时间),一共有6645个样本,均值为1937.52点,标准差为1079.51点(波动还是比较大的),最大值是6092.06点。
#再查看下每日成交量 #2006年市场容量小,交易量比较小,我们从2007年开始看sh.loc["2007-01-01":]["volume"].plot(figsize=(12,6))plt.title('上证指数2007-2018年日成交量图')plt.xlabel('日期')plt.show()

上图的成交量反映了一个有趣的现象,2014-2015年的大牛市很可能是天量的交易推动起来的,因为这期间实体经济并不景气,央行多次降息降准,货币宽松,资金流入股市,银行理财等影子银行在这期间疯狂扩张,场外加杠杆和配资主导了这一场牛市。感兴趣的朋友可以结合货币供给、实体经济指标、影子银行等数据一起分析,进行交叉验证。
均线分析
#这里的平均线是通过自定义函数,手动设置20,52,252日均线#移动平均线:ma_day = [20,52,252]for ma in ma_day: column_name = "%s日均线" %(str(ma)) sh[column_name] =sh["close"].rolling(ma).mean()#sh.tail(3)#画出2010年以来收盘价和均线图sh.loc['2010-10-8':][["close