--- source: rss source_url: https://aws.amazon.com/cn/blogs/china/ai-eks-kiro-cli-agent-recognition ingested: 2026-07-03 feed_name: AWS China Blog source_published: 2026-07-03 sha256: 1bfcf9b19fe5ac7501be47b90b8a69899f0cf3ea1124a2c2af9cf9f84bd6f3a7 --- # AI 时代的 EKS 升级范式:用 Kiro-cli 让 Agent 接管识别、升级与排障 摘要:本文以真实集群从 EKS 1.32 升级到 1.35 为例,展示如何将风险识别、路径规划、升级执行和故障定位交给 Kiro agent。我们在同一集群做对照实验——唯一变量是否加载 Skill 知识库:无 Skill 时工程师需全程介入,耗时约 6 小时;加载 Skill 后 agent 自主执行,耗时约 2.5 小时,节省 60%。两组共享同一工具链,差距主要来自 Skill。更值得关注的是,agent 在实战中主动发现新隐性约束并补充回 Skill,说明知识库具备随实战增长的潜力。 ## 一、引言:传统运维的三个痛点 EKS 升级长期面临三个反复出现的痛点: ### 1.1 风险识别靠"经验记忆" 一个典型的中等规模 EKS 集群运行:14 个 EKS 官方 Add-on + 6-10 个自管理 Helm 组件。升级前需要手工回答:每个组件当前版本是否兼容目标 K8s 版本?哪些必须升级、哪些可滞后?新版本引入的硬变更(cgroup v1 移除、AL2 EOL、containerd 2.x、Endpoints API 弃用、IPVS 弃用)是否影响当前集群?这些信息分散在 K8s 上游 release notes、AWS 文档、各 Helm 项目 GitHub README 中,经验随人员流动而流失。 ### 1.2 执行靠"runbook 翻页" 一次跨 3 个大版本的 EKS 升级(1.32 → 1.35)涉及:3 次控制面升级、3 轮 Add-on 同步升级、3 轮节点组滚动、每轮之间的稳定性观察。每一步需要工程师对照 runbook 抄命令、核对输出。任何一处漏掉 sanity check 都可能触发难以排查的失败。 ### 1.3 故障排查靠"再 google 一遍" 当 EKS managed nodegroup 在升级中报出 PodEvictionFailure 时,重试同一个 update、加 --force、再重试都不会成功。实际真因(PDB 反模式 / PVC AZ 锁 / EKS 驱逐 API 严格性)分散在多个文档中。跨层关联的知识大多记录在踩过坑的人的记里。 ## 二、Kiro-cli 解决方案架构 Kiro-cli 是 AWS Kiro IDE 的命令行版本,结合 Arm MCP Server(嵌入 Arm 架构知识)和 Kiro Powers(专用工具包),提供: - migrate_ease_scan:扫描代码兼容性问题 - knowledge_base_search:搜索 Arm 文档获取迁移指导 - 无需开发者具备提示工程能力,结构化工作流由 AI 代理执行 ### 对照实验 在同一集群做对照实验,唯一变量是否加载 Skill 知识库: - 无 Skill:工程师需全程介入,耗时约 6 小时 - 加载 Skill:agent 自主执行,耗时约 2.5 小时,节省 60% 更关键的是,agent 在实战中主动发现新隐性约束并补充回 Skill,说明知识库具备随实战增长的潜力。 ## 三、三个核心场景 ### 场景一:AI 驱动的风险识别 Kiro agent 自动扫描当前集群配置(Add-on 版本、Helm 组件、节点配置),对比目标 K8s 版本的兼容矩阵,输出风险评级报告。 ### 场景二:AI 驱动的升级执行 从控制面升级到 Add-on 同步到节点组滚动,agent 按 Skill 定义的步骤自主执行,每一步执行后自动验证,失败时自动回滚或暂停征询。 ### 场景三:AI 驱动的故障排查 当遇到 PodEvictionFailure 等典型故障时,agent 基于 Skill 中沉淀的故障诊断树,自动执行分级排查:先检查 PDB 反模式、再确认 PVC AZ 锁、最后验证驱逐 API 兼容性。 ## 四、对运维范式的启示 核心启示:Kiro 系统将 Kubernetes 运维中的三大痛点(风险识别、runbook 执行、故障排查)从"人工记忆 + 手动执行"升级为"Skill 知识库 + Agent 自主执行"。Skill 知识库不仅是静态文档,而是随实战自动演化的执行指南——agent 在升级过程中发现的新约束会自动补回 Skill,形成"执行 → 发现 → 沉淀 → 复用"的正向循环。