admin管理员组

文章数量:1659341

'''
1、数据清洗 - 去除空值
'''
import numpy as np
import pandas as pd 

data = pd.read_csv('C:/Users/HP/Desktop/爱奇艺视频数据.csv',engine = 'python')

def data_cleaning(df):
    for col in df.columns:
        if df[col].dtype == 'object':
            df[col].fillna('缺失数据',inplace = True) #fillna方法填充缺失数据,注意inplace参数
        else:
            df[col].fillna(0,inplace = True)
    return (df)

data_c1 = data_cleaning(data)
data_c1.iloc[20:30]
'''
2、数据清洗 - 时间标签转化
'''
def date_cleaning(df,*cols):
    for col in cols:
        df[col] = df[col].str.replace('年','.')
        df[col] = df[col].str.replace('月','.')
        df[col] = df[col].str.replace('日','.')
        df[col] = pd.to_datetime(df[col]) # 需要将中文日期转化为非中文日期
    return (df)
data_c2 = date_cleaning(data_c1,'数据获取日期')
'''
3、 分析出不同导演电影的好评率,并筛选出TOP20
'''
df_dir = data_c2.groupby('导演').sum()[['好评数','评分人数']] #好评率 = 好评数 / 评分人数
df_dir['好评率'] = df_dir['好评数']/df_dir['评分人数']
df_dir = df_dir.sort_values('好评率',ascending = False)[:20]
print(df_dir)

执行结果:

                 好评数          评分人数       好评率
导演                                           
王静       5.601448e+06  5.602704e+06  0.999776
萧锋       4.415545e+07  4.416801e+07  0.999716
向灼       3.685386e+06  3.691240e+06  0.998414
乌兰塔娜     1.916524e+07  1.920091e+07  0.998142
徐宗政      3.113422e+06  3.123920e+06  0.996639
欧凡       3.088701e+06  3.100421e+06  0.996220
肖光辉      3.264290e+05  3.284140e+05  0.993956
张国立/罗长安  8.177111e+06  8.230880e+06  0.993467
刘逢声/林峰   3.591638e+06  3.617351e+06  0.992892
林添一      1.049628e+09  1.057556e+09  0.992504
毛尉光      1.747925e+06  1.7

本文标签: 结论数据视频网站爱奇艺