admin管理员组文章数量:1621138
数据采集是数据应用的源头,指导企业在产品、运营和业务等多方面决策。本文作者王灼洲从数据采集需求出发,详细解读了如何实现高效、可用的数据采集方案。主要内容如下:
-
数据采集的定义和重要性
-
业内常见的数据采集方案
-
数据采集的原则
-
数据采集案例分析
一、数据采集的定义和重要性
所谓数据采集,即为了满足数据统计、分析和挖掘的需要,搜集和获取各种数据的过程。通常情况下,数据采集指的是采集企业内部的数据。
在当前互联网领域,随着流量红利的衰退,越来越多的企业通过精细化运营,深度挖掘每一位用户的价值。当下流行的数据驱动、精细化运营等方法论和实践方式,也变得越来越重要,并且被越来越多的企业所接受和采纳。而数据驱动、精细化运营都要基于数据来做各种决策。数据采集,正是它们的基础和前提条件。
数据采集,本质上是为了数据应用。如果我们没有任何数据上的应用需求,投入再大的精力,去做好数据采集其实也是没有任何意义的。而数据应用,其实是一个比较大的范畴,包含最简单的统计报表,复杂的交互式在线分析,当下非常热门的个性化推荐等。
不管哪一类数据应用,都可以在大体上分成五个环节,如下图:
在进行数据应用的时候,我们首先要通过各种方式采集数据;然后将采集得到的数据,通过实时或者批量的方式,向后进行传输;对于这些传输过来的数据,选择合适的数据模型进行 ETL 和建模,并且根据后续的应用选择合适的存储方案;在数据完成建模并且存储下来之后,就可以对数据进行统计、分析和挖掘等数据应用;而这些数据应用的结果,一方面,可以通过数据可视化的方式,直接展现,并帮助我们做出各种产品、运营和商业等方面的决策;另一方面,这些数据应用的结果,也可以直接反馈给产品,以类似于「猜你喜欢」的产品形态,直接作用在产品上。
很显然,在一个典型的数据应用上,数据采集是第一个环节,是源头,是一切数据应用的起点。如果数据采集没有做好,影响了整体的数据质量,那么,在后面环节再想进行弥补,其代价会很大,效果也会大打折扣。最终的数据应用,以及基于应用得到的决策与反馈的质量也必然会受到影响。
从这个意义上来讲,无论我们如何强调数据采集的重要性,也都不为过。
正是因为我们意识到了数据采集的重要性,神策数据的愿景随之诞生,即“帮助中国三千万企业重构数据根基,实现数字化经营”,希望通过我们的努力,能够帮助我们的客户和合作伙伴更好、更全面地采集数据,从而最大化地发挥数据的价值。也正是坚守于此,过去五年,不论是在数据采集技术,还是数据治理方案等方面,我们都做了很多的工作,也帮助了很多的客户。比如我们建立强大的数据采集 SDK 研发团队,并将 SDK 全部开源,也维护着近 1500 人的开源讨论社群,同时不断向业界输出我们的积累、经验和沉淀,让数据采集技术不再神秘,更让数据采集技术的生态更好、更健康的向前发展。
二、业内常见的数据采集方案
目前,市面上常见的埋点方式主要有三种:代码埋点、全埋点和可视化埋点。
1.代码埋点
所谓代码埋点,即客户端集成 SDK,在客户端启动的时候初始化 SDK,然后在某个事件(行为)发生时,客户端显示调用 SDK 的接口触发相应的事件。
代码埋点,是最常见的埋点方式,同时也是“最万能”的埋点方式。
其优点如下:
(1)可以精准控制埋点;
(2)可以灵活添加自定义事件和属性;
(3)可以满足更精细化的分析需求。
同时,代码埋点也有一些缺点:
(1) 前期埋点代价比较大;
(2)埋点的变更,需要伴随客户端的发版。
2.全埋点
全埋点,也叫无埋点、无码埋点、无痕埋点、自动埋点等,是指无需开发工程师写代码或者只写少量的代码,就能预先自动采集用户的所有行为数据,然后在数据分析产品上通过点选和配置,来筛选要分析和统计的对象。
全埋点优点如下:
(1)前期埋点成本相对较低;
(2)若分析需求或事件设计发生变化,无需应用程序修改埋点和发版;
(3)可以有效地解决“历史数据回溯”问题。
同时,全埋点也有一些缺点:
(1)由于技术方面的原因,对于一些复杂的操作,比如缩放、滚动等,很难做到全面覆盖;
(2)无法自动采集和业务相关的数据;
(3)无法满足更精细化的分析需求;
(4)各种兼容性方面的问题;
(5)传输的数据量太大、浪费资源。
版权声明:本文标题:神策数据王灼洲:方法论 + 实践,全面解析数据采集方案,必看! 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:https://www.elefans.com/dianzi/1728830770a1175694.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论