admin管理员组

文章数量:1664592

文章目录

    • 第一章 数字、数据、数学
      • 1、数字
      • 2、数据
      • 3、数字与数据
      • 4、数学
    • 第二章 分析、逻辑与思维
      • 1、描述、概括、分析
      • 2、逻辑思维
    • 第三章 大数据到底是什么
    • 第四章 数据分析与数据挖掘
      • 1、分析与挖掘
    • 第五章 如何做好数据分析
      • 1、EXCEL使用
      • 2、MySQL使用
      • 3、项目分析
    • 需掌握的知识技能

真正决定我们的,不是我们的能力,而是我们的选择!

最近刚看完《从1开始数据分析师成长之路-张旭东著》这本书,书中内容非常适合纯小白进阶数据分析师行列。内容浅显易懂,有助于帮助大家把控整体,从而有针对性的去学习。可以作为一本科普性读物来读。有兴趣的朋友可以去读读。

第一章 数字、数据、数学

1、数字

  • 数字具有特殊性。
  • 数字的单调性可以进行大小的排序,其他符号不具有该属性。
  • 数字可以进行映射,用于代表一些特殊的符号。
  • 用量纲对数字进行限制,不同量纲的数字不能讨论单调性。

2、数据

  • 数据是对客观事物的逻辑归纳,用符号、字母等方式对客观事物进行直观描述。
  • 数据作为信息的载体,承载着信息的内容;信息通过数据来表现,让信息变得易于 识别。 一切生产活动产生的信息都可以被称为数据。
  • 数据按照性质来分,可以分为定位的、定性的、定量的、定时的。 数据按照表现形式来分,可以分为数字数据、模拟数据。
  • 数据按照记录方式可以分为地图、表格、影像、磁带、纸带等。

3、数字与数据

数字与数据的核心差距就在于前者是像镰刀斧头一样,是我们生活中的工具,而后者是我们生活工作中所有信息的载体。

4、数学

  • 数学是什么:数学是利用符号语言研究数量、结构、变化及空间等概念的一门学科,从某中角度来看属于形式科学的一种。
  • 数学透过抽象化和逻辑推理的使用,由计数、计算、量度和对物体形状及运动的观察而产生。
  • 数学是一种工具,是一种数字运用的方法。
  • 数学的四要素:符号、联系、变化、思想。
  • 统计学:通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测未来的一门综合性科学。

第二章 分析、逻辑与思维

感性思维与理性思维,思维方式的不同可能会得到不同的结果。

1、描述、概括、分析

  • 描述:就是对事物或是对象的直接描写。描述的意义在于让别人知道这个人的长相,这个数据集的长相。

  • 描述性统计变量如下:
    平均值:数字的平均值,用来展示数据的平均水平。
    众数:数据中出现频率最高的数值。展示数据点主要集中的范围。
    中位数:将数据从小到大排列,位置处于中间的值。与平均值进行对比,判断数据是否平滑。
    方差:每个数据与平均值的差值的平方,再取平均值。用来判断数据波动情况。
    极差:最大数减去最小数。
    上/下四分位点:将数据从大到小排列,位置处于前1/4或是后1/4的数值。

  • 概括:数据上的概括是形成概念的一种过程,可以理解为基于历史的经验,把大脑中所描述的对象中某些的特征特 质抽离出来并形成一种认识。概括的意义在于从整体上对对象有一个进一步的了解和认识。

  • 常见的分布:正太分布、均匀分布、离散分布、泊松分布

  • 分析:是将研究对象的整体分为各个部分、方面、因素和层次,并分别加以考察的认识活动,通俗的讲就是发现隐 藏在细节中的魔鬼。

  • 一切结果都是有原因的。

  • 分析的特点在于为了达成一个目标而对对象进行一步步地探索和挖掘。

2、逻辑思维

  • 感性思维:对一件事物的直观感受。往往伴随着情绪与冲动。
  • 理性思维:罗列出各种原因的逻辑思维。
    逻辑思维往往伴随着理性的思考和决策。
    通过书本描述的几个例子来看,逻辑思维确实非常重要,与人交往中或者是在应付人
    生的重大抉择时,多思考总归是好的,当然不能忽略运气。

第三章 大数据到底是什么

  • big data is like teenage sex
    everyone talks about it
    nobody really knows how to do it
    everyone thinks everyone else is doing it
    so everyone claims they are doing it

    大数据就像青少年性爱
    每个人都在谈论它
    没有人真正知道怎么做
    每个人都认为其他人在做这件事
    所以每个人都声称他们在这么做

  • 大数据与传统数据相比的主要特点:数据量大、数据类型复杂、数据价值无限。

  • 大数据价值的特殊之处就在于它的可挖掘性,同样的一对数据,不同的人能得到不同层次的东西。

第四章 数据分析与数据挖掘

1、分析与挖掘

  • 数据分析:基于公司日常业务的观察、检测、分析与优化。
    对已有对象的全面描述、刻画、梳理后得出结论。
    借助数据来指导决策,而不是拍脑袋。
    达到目的是数据分析的核心目标。
    偏向业务

  • 数据分析模块:明确分析目标、数据收集、数据清理、数据分析、数据报告、执行与反馈。

  • 数据挖掘:基于数据库已有数据使用各种数据挖掘算法进行深度挖掘与讨论,同时机器学习算是数据挖掘的一个分支,隶属于数据挖掘的一部分。
    对对象的解刨、分解、透视,发现不为人知的价值。
    偏向算法

  • 理论基础:
    概率基础:随机变量、数字特征、概率、参数估计、假设检验

  • 算法逻辑:
    聚类分析、决策树、关联算法、贝叶斯、回归分析、神经网络

  • 相似之处:对数据库逻辑的了解,对数据结构的把控,对逻辑思维的要求,二者相辅相成,不可或缺。

第五章 如何做好数据分析

1、EXCEL使用

  • 求和函数:sum()sumif()sumifs()
    计数函数:count()countif()countifs()
    平均值:average()
    中位数:median()
    最大值:max()
    最小值:min()
    方差:var()
    如果把一个数据比作一个三位物体,求和与计数用来衡量它的长、宽、高,平均数用来衡量它的密度
    中位数用来衡量它的几何中心,最大值与最小值用来衡量它的突出、凹陷,方差用来衡量是否均匀。

  • 统计制图
    折线图传递变化趋势的信息。
    饼状图传递组成成分的信息。
    柱状图传递数值大小的信息。
    散点图传递数据集中度的信息。
    面积图传递数值累计的信息。
    图表制作的核心标准:受众能迅速准确地获得你想表达的内容。

2、MySQL使用

基本的查询语句,select、from、group by、left join、right join、where等关键字的理解。

3、项目分析

  • 项目分析:数据分析师的核心工作,是指一系列独特的、复杂的并相互关联的活动,这些活动有着一个明确的目标 或目的,必须在特定的时间、预算、资源限定内,依据规范完成。

  • 项目经理职责:需要从项目发起之后进行方案策划、方案执行、问题处理、流程把控、结果验收等全流程的开展工作。

  • 高级数据分析师很多时候要充当项目经理的角色,从项目的发起开始运用数据的力量驱动整个项目的执行与落地。

  • 项目:被动的项目(日常的项目分析)与主动的项目(自己探索性的分析项目)
    被动项目:
    优化类项目:指在公司已有的业务和流程之上进行优化,可以理解为在别人修建好的框架上进行二次梳理。
    拓展类项目:公司想要投资或者投放一些资源去开展新的业务,需要提供项目数据分析用来评估预期效果,最终来评估项目的ROI,确认是否有必要开展此类活动。
    主动项目:依据公司的实际业务,诸如用户分析、商户分析、A业务前瞻性分析、K地的市场潜力分析等。主要以探索为主,结果往往导向一个新的商机或者发现公司业务潜在的问题,主观性较多。

  • 策略分析:倾向于给出方案和指导意建议,通过邮件或者其他方式给出分析报告和知道建议。

  • 项目推进:用数据知道决策的同时把项目完成和推进。

  • 对被动项目的完成水平决定了分析师能否胜任这份工作,对主动项目的探索成果决定了分析师的上升空间。

  • 如何完成一个数据分析项目?
    凭借丰富的经历和阅历,遇到问题解决问题。
    先搭建框架,再搭建主干、明确细节,然后落地执行,最后遇到问题解决问题。

第六章 数据分析师进阶

  • 数据分析师的进阶:
    站在员工的角度考虑问题
    站在管理者角度考虑问题
    站在公司的角度考虑问题
    站在行业的角度考虑问题
    站在国家的角度考虑问题
    站在历史的角度考虑问题

同比:今年第n月与去年第n月比。为了消除季节变动,说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。
环比:本期与上期进行对比,表明现象逐期的发展速度。

需掌握的知识技能

1、统计学相关知识点
2、Excel熟练使用,包括VBA的学习
3、MySQL的学习
4、十大经典算法
Apriori:最有影响的挖掘布尔关联规则频繁项集的算法。
C4.5:是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。
Naive Bayes:在众多分类方法中,应用最广泛的有决策树模型和朴素贝叶斯。
K-means算法:是一种聚类算法。
SVM:一种监督式学习方法,广泛应用于统计分类以及回归分析中。
CART:分类和回归树,有两个关键的思想,第一个是关于递归地划分自变量空间的想法,第二个是用验证数据进行减枝。
KNN:是一个理论上比较成熟的方法,也是最简单的机器学习方法之一。
Pagerank:是Google算法的重要内容。
adaboost:是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器人后把弱分类器集合起来,构成一个更强的最终分类器。
EM:最大期望值法。
5、推荐书籍
think stats: Probability and Statistics for Programmers
6、scikit-learn库
7、一切为了用户所思即所得;一切为了市场所给即所要。

本文标签: 新手入门数据