#yyds干货盘点# Kubernetes 中也有定时任务吗？(28)

编程入门行业动态更新时间:2024-10-06 22:30:14

#yyds干货盘点# Kubernetes 中<a href=https://www.elefans.com/category/jswz/34/1762446.html style= 也有定时任务吗？(28)"/>

#yyds干货盘点# Kubernetes 中也有定时任务吗？(28)

前面我们学习了 Deployment、Statefulset、Daemonset 这些工作负载，它们可以帮助我们在不同的场景下运行

(Long Running)的服务。
但是有一类业务(一次性作业和定时任务)运行完就结束了，不需要长期运行，如果使用上述的那些工作负载就无法满足我们的要求。比如 Pod 运行结束后，会被 Deployment、Statefulset 控制器重启或者创建新的副本替换掉，而这并不是我们期望的行为。
所以说，对于这类作业任务，我们需要新的工作负载类型来描述。在 Kubernetes 中，我们分别用 Job 和 Cronjob 来描述一次性任务和定时任务。
我们先来看看 Job。

Job

我通过一个官方的例子来带你了解这个工作负载类型：

apiVersion: batch/v1beta1
kind: Job
metadata:
  name: pi
spec:
  template:
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: Never
  backoffLimit: 4

这个 Job 负责计算 π 到小数点后的 2000 位，并将结果打印出来。
我们可以通过 kubectl create 命令将该 Job 创建出来：

$ kubectl create -f .yaml
job.batch/pi created

创建好了以后，我们来看下这个 Job：

kubectl describe jobs/pi
Name:           pi
Namespace:      default
Selector:       controller-uid=4f8027d0-cac1-42ea-b5f8-dbb4d9c9f67a
Labels:         controller-uid=4f8027d0-cac1-42ea-b5f8-dbb4d9c9f67a
                job-name=pi
Annotations:    <none>
Parallelism:    1
Completions:    1
Start Time:     Mon, 02 Dec 2020 15:04:52 +0200
Completed At:   Mon, 02 Dec 2020 15:06:39 +0200
Duration:       65s
Pods Statuses:  0 Running / 1 Succeeded / 0 Failed
Pod Template:
  Labels:  controller-uid=c9948307-e56d-4b5d-8302-ae2d7b7da67c
           job-name=pi
  Containers:
   pi:
    ...
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  4m    job-controller  Created pod: pi-jk2k7

在这段代码中，有几点需要特别注意下。

系统自动给 Job 添加了 Selector，即 controller-uid=4f8027d0-cac1-42ea-b5f8-dbb4d9c9f67a，后面的这个 uid 就是指该 Job 自己的 uid。
Job 上会自动被加上了 Label，即 controller-uid=4f8027d0-cac1-42ea-b5f8-dbb4d9c9f67a 和 job-name=pi。
Job 中 spec.podTemplate 中也被加上了 Label，即 controller-uid=4f8027d0-cac1-42ea-b5f8-dbb4d9c9f67a 和 job-name=pi。这样 Job 就可以通过这些 Label 和 Pod 关联起来，从而控制 Pod 的创建、删除等操作。

我们可以通过这些 Label 来找到对应的 Pod。你可以直接使用 Job 的名字，这个最简洁最方便：

kubectl get pods --selector=job-name=pi

或者你也可以选择使用 Job 的 uid：

kubectl get pods --selector=controller-uid=4f8027d0-cac1-42ea-b5f8-dbb4d9c9f67a

我们可以看到，由 Job 创建出来的 Pod 已经运行结束，为 Completed 状态。

NAME       READY    STATUS       RESTARTS    AGE
pi-jk2k7   0/1      Completed    0           2m

如果说 Pod 运行过程中异常退出了，那就会根据的 Job 中 PodTemplate 定义的重启策略(restart policy)来操作。对于 Job 来说，我们当然不希望一直重启，因此这里的 restartPolicy 只能为 Never 或者 OnFailure。
如果说创建出来的 Pod 一直由于某些原因，导致运行不成功，怎么办呢？这个时候 Job 控制器会根据 spec.backoffLimit 中定义的数值来限制 Pod 失败的次数。默认值是 6，我们在例子中设置为 4。达到这个次数以后，Job controller 便不会再新建 Pod，并直接停止运行这个 Job，将其标记为 Failure。

Job 还支持创建多个 Pod 并发地运行，我们来看另一个官方的例子“使用工作队列进行精细的并行处理”：

apiVersion: batch/v1
kind: Job
metadata:
  name: job-wq-2
spec:
  parallelism: 2
  template:
    metadata:
      name: job-wq-2
    spec:
      containers:
      - name: c
        image: gcr.io/myproject/job-wq-2
      restartPolicy: OnFailure

在 Job 的定义中通过 spec.parallelism 字段，我们可以指定并发运行的 Pod 数目。我们这里指定为 2，也就是会创建 2 个同时运行的 Pod。
例子中的 2 个 Pod 都会不停地从队列中获取数据进行处理，直到队列为空后退出，运行结束。
Job 还支持其他的工作模式，比如通过模板渲染 Job 来支持批量任务的处理等等。你可以参照官方文档来解锁 Job 更多地使用场景，并动手学习实践。

通常来说，Job 运行结束，即状态为 Completed 或 Failure 时，我们并不需要在系统中继续保留该对象，尤其是这种对象较多的时候，会给 kube-apiserver 的 cache 以及系统访问带来很大的压力。
这个时候我们就可以使用TTL 控制器提供的 TTL 能力了。
我们只需要在 Job 的 spec.ttlSecondsAfterFinished 字段设置一下，就可以让该控制器帮我们自动清理掉已经结束的资源，包括 Job 本身及其关联的 Pod 对象。
我们来看下面这个例子：

apiVersion: batch/v1
kind: Job
metadata:
  name: pi-with-ttl
spec:
  ttlSecondsAfterFinished: 100
  template:
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: Never

该 Job 在运行结束 100 秒之后就被自动清理删除了，包括创建出来的 Pod。
目前这种 TTL 的能力还处于 Alpha 阶段，如果你要使用的话，需要手动开启 TTLAfterFinished 这个 feature gate，具体可以参考 TTL 控制器的文档学习如何打开和使用这个功能。
我们再来看看 CronJob。

CronJob

从名字就可以看出来，这个工作负载是用于定时任务的，比如每隔 1 分钟执行 1 次任务。
我们来看一个官方的 CronJob 的例子，这个例子比较简单明了：

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: hello # cronjob 名字
spec:
  schedule: "*/1 * * * *" # job执行的周期，通过 cron 格式来标明
  jobTemplate: # job模板
    spec:
      template:
        spec:
          containers:
          - name: hello
            image: busybox
            imagePullPolicy: IfNotPresent
            args:
            - /bin/sh
            - -c
            - date; echo Hello from the Kubernetes cluster
          restartPolicy: OnFailure

CronJob 通过 spec.schedule 字段来标明 Job 被创建和执行的周期，该字段段用Cron格式编写。Cron 的基本格式为：

<分钟> <小时> <日> <月> <星期>

其中分钟的值从 0 到 59，小时的值从 0 到 23，日的值从 1 到 31，月的值从 1 到 12，星期的值从 0 到 6，0 表示星期日。
Cron 还支持“*,-/”等字符，其中 * 是个通配符，可以匹配任何值；/ 则表示起始时间触发，然后每隔一个固定时间触发一次。例如我们如果在分钟中设置 10/20，则表示第一次触发在第 10 分钟，接下来每隔 20 分钟触发一次，也就是第 30 分钟、第 50 分钟等依次往后的时间点触发一次。
所以我们例子中的"*/1 * * * *"表示每隔一分钟触发一次新 Job 的执行。
例子中的 spec.jobTemplate 指定了 Job 的模板，CronJob 控制器会根据 Cron 设置的时间触发新的 Job 创建。因此，我们修改 CronJob 的 spec，只会影响新 Job 的spec 配置，对于已经创建的 Job spec 不会有任何影响。
CronJob 会帮助我们管理 Job，比如自动清理运行完的 Job；也就是说，由 CronJob 管理的 Job，我们不需要去配置上文提到的 TTL 自动清理，CronJob 控制器会自动帮我们清理。CronJob 通过 spec.successfulJobsHistoryLimit 和 spec.failedJobsHistoryLimit 来限制保留已完成的 Job 数量，确保不会有大量的 Job 残留在系统中。默认值分别为 3 和 1。
当然在 CronJob 被触发，创建新的 Job 的时候，还会出现一种情形：上一次触发的 Job 还未执行完成。如果这个时候触发了另一个新 Job 的创建，势必会导致任务重叠。此时就需要你结合自己的业务来考虑这种行为对业务的影响了。
你可以在 spec.concurrentPolicy 中配置：