第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）|电子爱好者

admin管理员组
文章数量:1564666

导语：一般的数据预处理中常提及到三类处理：去极值、标准化、中性化。我们将向大家讲述这常见的

三种数据处理操作。

一、去极值

　　在分析上市公司当季净利润同比增长率数据时，我们往往会被其中一些公司的数据干扰，如图中江

西长运，2017 三季度净利润同比增长率高达32836.04% ！而实际上大部分公司的当季净利润同比增长

率的数值都远远达到这个值的百分之一。那么数据去极值操作就显得尤为关键，可以剔除掉数据干扰项，

提高数据结论的准确性。

　　一般去极值的处理方法就是确定该项指标的上下限，然后超过或者低于限值的数据统统即为限值。

其中上下限数值判断标准有三种，分别为 MAD 、 3σ、百分位法。

以沪深300 成分股的pe 值为原始数据，向大家阐述MAD 、 3σ、百分位法。

import numpy as np

import pandas as pd

import math

from statsmodels import regression

import statsmodels.api as sm

import matplotlib.pyplot as plt

date='20180125'

stock=get_index_stocks('000300.SH',date)

q = query(

valuation.symbol,

valuation.pe_ttm,

valuation.current_market_cap

).filter(valuation.symbol.in_(stock))

data = get_fundamentals(q,date=date)

data.columns = [['symbol','pe_ratio','market_cap']]

data = data.set_index(data.symbol.values)

del data['symbol']

data['1/PE'] = 1/data['pe_ratio']

data.head()

pe_ratio market_cap 1/PE

----------------------- Page 165-----------------------

000001.SZ 10.59 2.402355e+11 0.094429

000002.SZ 18.61 3.903084e+11 0.053735

000008.SZ 54.53 1.661121e+10 0.018339

000060.SZ 27.51 2.613508e+10 0.036350

000063.SZ -115.27 1.237605e+11 -0.008675

将1/PE 的数据分布，运用绘图函数展示出来：

fig = plt.figure(figsize = (20, 8))

ax = data['1/PE'].plot.kde(label = 'Original_PE')

ax.legend()

下图是 20180125 的沪深300 指数成分股 1/PE 的数据分布：

1. MAD 法：

　　MAD 又称为绝对值差中位数法，是一种先需计算所有因子与平均值之间的距离总和来检测离群值的

方法，处理的逻辑：

第一步，找出所有因子的中位数 Xmedian

第二步：得到每个因子与中位数的绝对偏差值 Xi−Xmedian

第三步：得到绝对偏差值的中位数 MAD

第四步：确定参数 n ，从而确定合理的范围为 [Xmedian−nMAD,Xmedian nMAD]，并针对超出合理

范围的因子值做如下的调整：

<

本文标签：极值专题第五章数据处理第五篇

版权声明：本文标题：第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dongtai/1726917466a1090291.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化 ）

更多相关文章

【专题】2024端到端自动驾驶行业研究报告合集PDF分享（附原数据表）

IOS菜鸟初学第五篇：跳转到App Store中特定app的下载页面，可用来做提示安装某应用。

【专题】2024购车关注度洞察报告合集PDF分享（附原数据表）

OpenGL萌谷手册(进阶级2018版)-杨振-专题视频课程

OpenGLES萌谷手册(iOS2018版)-杨振-专题视频课程

OpenGL进阶(Mac2018版)-杨振-专题视频课程

第五章、DOS基本命令与批处理（千峰网络安全300课时笔记）

【无线网络技术专题（七）】企业WLAN网络中你必须知道的概念！

红队专题-内网横向-工作组Workgroup与 Domain Active Directory域渗透

互联网行业海外ChatGPT专题：ChatGPT风口已至，商业化落地加速

【python入门到精通专题】1.知识与环境准备

JAVA实现EXCEL公式专题（七）——统计函数

【数据库专题】如何理解数据库的索引？

【无线网络技术专题（五）】Wi-Fi信号满格网速就一定快吗？

ChatGPT在综合数据处理中的应用

【Selenium专题】WebDriver启动Chrome浏览器（一）

【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models

Photoshop基础知识——第五章（色彩调整与校正）

【大数据处理技术】期末复习整理

第五章 业务架构，5.1 内容+：打造不一样的双11(作者：建瓴，神照，随喜，志向，元超)...

发表评论

推荐文章

Element ui 组件库 使用技巧。

android 讯飞语音评测,非同凡响的语音输入法——讯飞Android输入法评测

用python爬取阳光电影的链接

谷歌浏览器代理服务器出现问题怎么办?（最快的解决办法）

两台电脑实现文件传输共享

热门文章

2021年国内应用商店App减少21%，合规分发已成必然

应用商店-华为应用市场

Cognitive Complexity of methods should not be too high

最值得推荐收藏的 7 款 Android 系统修复软件，快速的修复手机异常

如何在手机浏览器上访问在电脑上运行的javaweb项目

讯飞语音输入法解包即用，绿色便携免安装版

深度linux能装在u盘吗,请问Linux可以装在U盘上吗？

谷歌浏览器无法登录网络教育网站，输入用户密码点击无反应，事件

两台电脑连接时，A电脑可以ping通B电脑，而B电脑pingA电脑时出现超时问题，解决：

免费wifi盗网银？3分钟获取账户密码

最新文章

centos7中文输入法

软件发明专利实例_上知案例洞察：搜狗诉百度输入法软件发明专利侵权纠纷案...

Ubuntu设置中文输入法教程（全）

Ubuntu20.04安装中文输入法

用输入法打出希腊字母

Centos7安装输入法

deepin 20.9中文输入法问题

为什么php-fpm会使用内存一直增加_百度输入法重大BUG：内存占用随用户词库增大而暴涨...

Ubuntu 24.04 输入法配置

从万物静默到声情并茂：百度输入法的AI发声计划

android 百度轻量输入法,百度发布Android手机输入法 打造流畅体验

MIUI 13 去除输入法广告

Jmeter与搜狗输入法、百度输入法不兼容问题解决方法

Ubuntu下微信（wechat）经常无故卡死解决方法百度输入法

响应号召自主可控? 10年了, 百度输入法正式登陆Linux

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

第五章：量化研究专题（第五篇：数据处理专题：去极值、标准化、中性化）

第五章业务架构，5.1 内容+：打造不一样的双11(作者：建瓴，神照，随喜，志向，元超)...

Element ui 组件库使用技巧。

android 百度轻量输入法,百度发布Android手机输入法打造流畅体验

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载