admin管理员组文章数量:1659341
'''
1、数据清洗 - 去除空值
'''
import numpy as np
import pandas as pd
data = pd.read_csv('C:/Users/HP/Desktop/爱奇艺视频数据.csv',engine = 'python')
def data_cleaning(df):
for col in df.columns:
if df[col].dtype == 'object':
df[col].fillna('缺失数据',inplace = True) #fillna方法填充缺失数据,注意inplace参数
else:
df[col].fillna(0,inplace = True)
return (df)
data_c1 = data_cleaning(data)
data_c1.iloc[20:30]
'''
2、数据清洗 - 时间标签转化
'''
def date_cleaning(df,*cols):
for col in cols:
df[col] = df[col].str.replace('年','.')
df[col] = df[col].str.replace('月','.')
df[col] = df[col].str.replace('日','.')
df[col] = pd.to_datetime(df[col]) # 需要将中文日期转化为非中文日期
return (df)
data_c2 = date_cleaning(data_c1,'数据获取日期')
'''
3、 分析出不同导演电影的好评率,并筛选出TOP20
'''
df_dir = data_c2.groupby('导演').sum()[['好评数','评分人数']] #好评率 = 好评数 / 评分人数
df_dir['好评率'] = df_dir['好评数']/df_dir['评分人数']
df_dir = df_dir.sort_values('好评率',ascending = False)[:20]
print(df_dir)
执行结果:
好评数 评分人数 好评率
导演
王静 5.601448e+06 5.602704e+06 0.999776
萧锋 4.415545e+07 4.416801e+07 0.999716
向灼 3.685386e+06 3.691240e+06 0.998414
乌兰塔娜 1.916524e+07 1.920091e+07 0.998142
徐宗政 3.113422e+06 3.123920e+06 0.996639
欧凡 3.088701e+06 3.100421e+06 0.996220
肖光辉 3.264290e+05 3.284140e+05 0.993956
张国立/罗长安 8.177111e+06 8.230880e+06 0.993467
刘逢声/林峰 3.591638e+06 3.617351e+06 0.992892
林添一 1.049628e+09 1.057556e+09 0.992504
毛尉光 1.747925e+06 1.7
版权声明:本文标题:爱奇艺视频网站数据清洗整理和结论研究 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/xitong/1729833671a1214257.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论