admin管理员组

文章数量:1613748

最后更新2022/02/13

google big data services提供了如下五种无服务器服务:

  • Cloud Dataproc, managed hardoop, map reduce,spark,Hive,Pig (俺都不知道是啥,也不敢问…以后自己偷着学吧,都是apache的处理模型)。业务创建飞快,90秒内可生成群集(完整搞一整套infrastructure俺还是知道的,从硬件服务器配置开始,怎么也要几天吧);由于是serverless架构,即使job在运行,可以控制群集启停(都停了job运行还有意义?其实是说能保留运行状态,群集再启动能断点续传)。群集构建在computer engine虚机基础之上,具体虚机配置和数量还是可以控制,并非完全serverless,而且可以使用stackdriver去监视运行状态;还有其它一些好处,例如只按照硬件占有资源收费,可以为batch任务设置抢先参数,而获得更高折扣。这个抢先参数并非优先,而是当别人有空闲时自己才使用资源,其实应该翻译为插空。并非所有任务都可以设置插空参数,因为这种模式可能要求随时启动或者停止当前任务。即使是有状态的服务,如果每次启停都需要过多的前后处理,那么其结果也是得不偿失。
  • Cloud Dataflow, 提供stream和batch处理,主要用于流水作业,适合ETL或orchestration。基于transform模型,这才能说是真正的serverless,已经完全无法看到计算引擎了,由系统自动管理群集规模。写好的执行代码可以自由选择在批处理或流处理模式下执行。示例过程:从bigquery拿数据(source),进行若干处理(map,reduce)transform,最后sink到datastorage。
  • Big Query,数据库数据和流数据分析,提供高达每秒10万行处理,支持几百TB数据量(PB级别),SQL兼容(SQL 2011),不需要维护群集。全球支持,按存储数据量及查询收费(就是计量加计查,两个各收各的,总费用为二者之和,这样如果你授权别人使用这个数据,可以你只付数据存储费,他付查询费。长期保存数据有折扣,而且自动计算,例如超过90天,保存费从每G每月2分钱降为1美分);还支持cost control(具体以后再研究,难道是达量限流?)BigQuery除了query,也支持创建、替换、更新、删除等写操作,但有一些限制及known issue(这个。。。还不赶快去干活修补!)。
  • Cloud Pub/Sub,企业级信息处理(消息总线?),高扩展,例如支持10万/秒(又是10万?难道保存的数据库是bigquery?设置支持100万/秒,单用户最高10万)。消息可以推送,也可以拉取,支持离线用户(代为保存,不知可以保存多久),支持确保发送(但好像不支持仅发送一次,看来要用户自己进行已处理记录)。
  • Cloud Datalab,交互式数据分析,可视化。基于Jupyter(大名是IPython)

下面是google machine learning平台支持。很多其它业务都使用了google machine learning api,例如youtube等。

  • TensorFlow,这是一种神经网络模型
  • Cloud ML,由GCP完全管理的machine learning服务,基于bigquery和google storage
  • Machine Learning API,预先训练好的machine learning模型,包括语音、视觉、翻译、自然语言。这些API都可以通过REST实现。支持80多种语言,实时翻译;

记录几个本节题外的信息,刚才quiz错了若干次:
datastore是sql数据库(有store,但却是数据库)
spanner是巨大的关系数据库
bigtable是nonSQL数据库(有table,但不是RDB)

本文标签: 机器数据gcpDevopscore