# 对工作集群的控制节点扩容 本文将以一个单控制节点的工作集群为例,介绍如何手动为工作集群的控制节点进行扩容,以实现自建工作集群的高可用。 !!! note - 推荐在界面创建工作集群时即开启高可用模式,手动扩容工作集群的控制节点存在一定的操作风险,请谨慎操作。 - 当工作集群的首个控制节点故障或异常时,如果您想替换或重新接入首个控制节点, 请参考[替换工作集群的首个控制节点](../best-practice/replace-first-master-node.md) ## 前提条件 - 已经通过 DCE 5.0 平台创建好一个工作集群,可参考文档[创建工作集群](../user-guide/clusters/create-cluster.md)。 - 工作集群的被纳管集群存在当前平台中,并且状态运行正常。 !!! note 被纳管集群:在界面创建集群时指定的用来管理当前集群,并为当前集群提供 kubernetes 版本升级、节点扩缩容、卸载、操作记录等能力的集群。 ## 修改主机清单文件 1. 登录到容器管理平台,进入需要进行控制节点扩容的集群概览页面,在 **基本信息** 处,找到当前集群的 **被纳管集群** , 点击被纳管集群的名称,进入被纳管集群的概览界面。 ![找到被纳管集群](https://docs.daocloud.io/daocloud-docs-images/docs/zh/docs/kpanda/images/add-master-node01.png) 2. 在被纳管集群的概览界面,点击 **控制台**,打开云终端控制台,并执行如下命令,找到待扩容工作集群的主机清单文件。 ```bash kubectl get cm -n kubean-system ${ClusterName}-hosts-conf -oyaml ``` `${ClusterName}`:为待扩容工作集群的名称。 ![控制台](https://docs.daocloud.io/daocloud-docs-images/docs/zh/docs/kpanda/images/add-master-node02.png) 3. 参考下方示例修改主机清单文件,新增控制节点信息。 === "修改前" ```yaml apiVersion: v1 kind: ConfigMap metadata: name: tanghai-dev-hosts-conf namespace: kubean-system data: hosts.yml: | all: hosts: node1: ip: 10.6.175.10 access_ip: 10.6.175.10 ansible_host: 10.6.175.10 ansible_connection: ssh ansible_user: root ansible_password: password01 children: kube_control_plane: hosts: node1: kube_node: hosts: node1: etcd: hosts: node1: k8s_cluster: children: kube_control_plane: kube_node: calico_rr: hosts: {} ...... ``` === "修改后" ```yaml apiVersion: v1 kind: ConfigMap metadata: name: tanghai-dev-hosts-conf namespace: kubean-system data: hosts.yml: | all: hosts: node1: # 原集群中已存在的主节点 ip: 10.6.175.10 access_ip: 10.6.175.10 ansible_host: 10.6.175.10 ansible_connection: ssh ansible_user: root ansible_password: password01 node2: # 集群扩容待新增的控制节点 ip: 10.6.175.20 access_ip: 10.6.175.20 ansible_host: 10.6.175.20 ansible_connection: ssh ansible_user: root ansible_password: password01 node3: # 集群扩容待新增的控制节点 ip: 10.6.175.30 access_ip: 10.6.175.30 ansible_host: 10.6.175.30 ansible_connection: ssh ansible_user: root ansible_password: password01 children: kube_control_plane: hosts: # 集群中的控制节点组 node1: node2: # 新增控制节点 node2 内容 node3: # 新增控制节点 node3 内容 kube_node: hosts: # 集群中的工作节点组 node1: node2: # 新增控制节点 node2 内容 node3: # 新增控制节点 node3 内容 etcd: hosts: # 集群中的 ETCD 节点组 node1: node2: # 新增控制节点 node2 内容 node3: # 新增控制节点 node3 内容 k8s_cluster: children: kube_control_plane: kube_node: calico_rr: hosts: {} ``` ## 新增 ClusterOperation.yml 扩容任务 使用基于下面的 __ClusterOperation.yml__ 模板,新增一个集群控制节点扩容任务 __scale-master-node-ops.yaml__ 。 ```yaml title="ClusterOperation.yml" apiVersion: kubean.io/v1alpha1 kind: ClusterOperation metadata: name: cluster1-online-install-ops spec: cluster: ${cluster-name} # (1)! image: ghcr.m.daocloud.io/kubean-io/spray-job:v0.4.6 # (2)! backoffLimit: 0 actionType: playbook action: cluster.yml # (3)! extraArgs: --limit=etcd,kube_control_plane -e ignore_assert_errors=yes preHook: - actionType: playbook action: ping.yml - actionType: playbook action: disable-firewalld.yml - actionType: playbook action: enable-repo.yml # (4)! extraArgs: | # 如果是离线环境,需要添加 enable-repo.yml,并且 extraArgs 参数填写相关 OS 的正确 repo_list -e "{repo_list: ['http://172.30.41.0:9000/kubean/centos/\$releasever/os/\$basearch','http://172.30.41.0:9000/kubean/centos-iso/\$releasever/os/\$basearch']}" postHook: - actionType: playbook action: upgrade-cluster.yml extraArgs: --limit=etcd,kube_control_plane -e ignore_assert_errors=yes - actionType: playbook action: kubeconfig.yml - actionType: playbook action: cluster-info.yml ``` 1. 指定 cluster name 2. 指定 kubean 任务运行的镜像,镜像地址要与之前执行部署时的 job 其内镜像保持一致 3. 如果一次性添加 Master(etcd)节点超过(包含)三个,需在 cluster.yaml 追加额外参数 `-e etcd_retries=10` 以增大 etcd node join 重试次数 4. 离线环境下需要添加此 yaml,并且设置正确的 repo-list(安装操作系统软件包),以下参数值仅供参考 然后创建并部署 scale-master-node-ops.yaml。 ```bash vi cale-master-node-ops.yaml kubectl apply -f cale-master-node-ops.yaml -n kubean-system ``` 执行完上述步骤,执行如下命令进行验证: ```bash kubectl get node ```