股票数据预处理"/>
股票数据预处理
数据导入:
提示:注意是csv,还是xlsx文件,本文导入中证100指数
import pandas as pddata = pd.read_excel("./data/CSI100.xls",dtype={"股票代码_Stkcd":str})
注意设置代码格式为str类型:
dtype={"股票代码_Stkcd":str}
更改指标名称:
`提示:使用split
cols = [i.split("_")[1] for i in data.columns]
data.columns = cols
筛选数据:
提示:将所有的行业名称是非空值的
例如:notnull
data = data[data['Csrciccd1'].notnull()]
data = data[data["Date"]>="2005-01-01"]
统计每个指标的个数:
提示:这里统计学习行业的总量
例如:
all_df.Csrciccd1.value_counts()
缺失值填充:
提示:这里采用均值填充
all_df = all_df.fillna(all_df.mean())
统一日期
使用字典的调用方式
all_df["month"] = all_df["Date"].apply(lambda x: str(x).split("-")[0]+"-"+str(x).split("-")[1])m_d = dict(all_df[["month", "Date"]].values)
all_df["Date"] = all_df["month"].apply(lambda x: m_d[x])
更多推荐
股票数据预处理
发布评论