--- hide: - toc --- # 功能列表 本页列出了可观测性 Insight 的功能特性,欢迎使用。 ## 社区版 - 可观测性 DCE 5.0 社区版提供了以下可观测功能。 | 类别 | 子类 | 描述 | | -------- | ------------------------------------------------- | ------------------------------------------------- | | 资源监控 | 多集群监控 | 提供多集群业务集中可观测
管理员统一管理多集群告警,且满足集群、租户管理员数据隔离
支持持久化集群的指标、日志数据。 | | | 场景监控 | 提供对单个集群的监控概览,可查看该集群的运行状态、了解集群的资源使用情况,以及当前集群正在发生的告警 | | | 节点监控 | 支持查看节点运行状态等,并了解该节点的 CPU、内存、网络等资源变化情况 | | | 容器监控 | 支持对无状态负载、守护进程、容器组等资源进行监控,可以监控该工作负载的运行状态,可查看正在告警的数量以及 CPU、内存等资源消耗的变化趋势图 | | 仪表盘 | 平台组件监控 | 通过原生 Grafana 提供开源精选仪表盘,提供内置仪表盘支持对 etcd、APIServer 等组件进行监控 | | | 集群资源监控 | 对集群、节点、命名空间等多维度提供监控。Grafana 使用的数据源支持查看多集群的数据。 | | 数据查询 | 指标查询 | 普通查询预订了基础指标,选择集群、类型、节点、指标名称等查询条件后可查询资源的变化趋势
支持通过原生 PromQL 语句,查询指标图表及数据详情 | | | 日志查询 | 可查询 Node、Pod、Depoyment 、Statefulset 等日志,可查询单条日志的上下文内容
支持按照关键字进行搜索
默认按照时间排序,通过直方图可查询日志数量的变化趋势
支持查询单条日志的详细信息及上下文 | | | 日志下载 | 支持根据搜索条件下载一段时间内的日志
支持导出单条日志上下文的内容 | | 告警中心 | 活动告警 | 提供直方图查看告警时间的变化趋势
支持查看所有正在告警的规则及详情 | | | 历史告警 | 可查询自动恢复或手动被解决后的所有告警 | | | 告警规则 | 内置 100+ 告警规则,对集群组件、容器资源等提供预定义的告警规则
管理员可创建全局告警规则,对已安装 insight-agent 的集群进行统一告警
支持通过预定义指标创建告警规则
支持通过编写 PromQL 语句创建告警规则
支持自定义阈值、持续时间及通知方式
可自定义告警的级别,支持紧急、警告、提示三个等级 | | | 通知配置 | 在通知配置页面,可以配置通过邮件组、企业微信、钉钉、Webhook 等方式向用户发送消息
支持同时通知到多个告警对象 | | | 消息模板 | 消息模板功能支持自定义消息模板的内容,并可邮件、企业微信、钉钉、Webhook 的形式通知指定的对象 | | 日志采集和查询 | 统一日志采集 | 统一采集节点、容器、容器内、k8s 事件的日志数据
采集全局管理平台的审计操作,默认不开启采集 k8s 审计日志 | | | 日志持久化存储 | 日志可标注输出到 Elasticsearch等中间件进行持久化 | | 指标采集 | 指标数据采集 | 支持通过使用 ServiceMonitor 自行定义 Pod 发现的 Namespace 范围以及通过 matchLabel 来选择监听的 Service | | 系统配置 | 系统配置 | 系统配置展示指标、日志、链路默认的保存时长以及默认的 Apdex 阈值
支持自定义修改指标、日志、链路数据的存储时间 | | | 系统组件 | 提供对可观测组件的统一监控,实时检测系统组件的健康状态 | ## 商业版 - 可观测性 在社区版的基础上,DCE 5.0 商业版提供了更加丰富和可定制的可观测功能。 | 类别 | 子类 | 描述 | | -------------- | -------------- | ------------------------------------------------------------ | | 资源监控 | 多集群监控 | 提供多集群业务集中可观测
管理员统一管理多集群告警,且满足集群、租户管理员数据隔离
支持持久化集群的指标、日志数据。 | | | 集群监控 | 提供对单个集群的监控概览,可查看该集群的运行状态、了解集群的资源使用情况,以及当前集群正在发生的告警 | | | 节点监控 | 支持查看节点运行状态等,并了解该节点的 CPU、内存、网络等资源变化情况 | | | 容器监控 | 支持对无状态负载、守护进程、容器组等资源进行监控,可以监控该工作负载的运行状态,可查看正在告警的数量以及 CPU、内存等资源消耗的变化趋势图 | | 场景监控 | 服务监控[^1] | 可查看服务的实时吞吐量、请求数、请求延时和错误率等关键指标,以及一段时间的变化趋势
可查看该服务一段时间内的请求,以及单个请求的实时吞吐量、请求数、请求延时和错误率的变化趋势 | | | 拓扑图[^1] | 管理员可查看接入观测平台和链路采集的服务间的调用关系、健康状态,快速的故障定位
可查看服务间请求的流量方向和关键指标
可快速查看单个服务的实时吞吐量、请求数、请求延时和错误率 | | 仪表盘 | 平台组件监控 | 通过原生 Grafana 提供开源精选仪表盘,提供内置仪表盘支持对 etcd、APIServer 等组件进行监控 | | | 集群资源监控 | 对集群、节点、命名空间等多维度提供监控。Grafana 使用的数据源支持查看多集群的数据。 | | 数据查询 | 指标查询 | 普通查询预订了基础指标,选择集群、类型、节点、指标名称等查询条件后可查询资源的变化趋势
支持通过原生 PromQL 语句,查询指标图表及数据详情 | | | 日志查询 | 可查询 Node、Pod、Depoyment 、Statefulset 等日志,可查询单条日志的上下文内容
支持按照关键字进行搜索
默认按照时间排序,通过直方图可查询日志数量的变化趋势
支持查询单条日志的详细信息及上下文 | | | 日志下载 | 支持根据搜索条件下载一段时间内的日志
支持导出单条日志上下文的内容 | | | 链路查询[^1] | 通过链路查询可查看服务在一段时间内的所有请求,支持配置集群、命名空间、服务、操作、标签后点击搜索进行精准搜索
支持查看单个请求的聚合链路图,实现快速的故障定位 | | 告警中心 | 活动告警 | 提供直方图查看告警时间的变化趋势
支持查看所有正在告警的规则及详情 | | | 历史告警 | 可查询自动恢复或手动被解决后的所有告警 | | | 告警规则 | 内置 100+ 告警规则,对集群组件、容器资源等提供预定义的告警规则
管理员可创建全局告警规则,对已安装 insight-agent 的集群进行统一告警
支持通过预定义指标创建告警规则
支持通过编写 PromQL 语句创建告警规则
支持自定义阈值、持续时间及通知方式
可自定义告警的级别,支持紧急、警告、提示三个等级 | | | 通知配置 | 在通知配置页面,可以配置通过邮件组、企业微信、钉钉、Webhook 等方式向用户发送消息
支持同时通知到多个告警对象 | | | 消息模板 | 消息模板功能支持自定义消息模板的内容,并可邮件、企业微信、钉钉、Webhook 的形式通知指定的对象 | | 日志采集和查询 | 统一日志采集 | 统一采集节点、容器、容器内、k8s 事件的日志数据
采集全局管理平台的审计操作,默认不开启采集 k8s 审计日志 | | | 日志持久化存储 | 日志可标注输出到 Elasticsearch 等中间件进行持久化 | | 指标采集 | 指标数据采集 | 支持通过使用 ServiceMonitor 自行定义 Pod 发现的 Namespace 范围以及通过 matchLabel 来选择监听的 Service | | | 组件状态[^1] | 支持查看采集组件的容器组的状态,并跳转到对应的容器组详情 | | 链路采集[^1] | 链路数据采集 | 支持通过使用 OTEL SDK 非侵入或者少侵入的方式实现链路数据的采集
支持通过在网格应用中注入 Sidecar 的方式采集链路数据 | | 系统配置 | 系统配置 | 系统配置展示指标、日志、链路默认的保存时长以及默认的 Apdex 阈值
支持自定义修改指标、日志、链路数据的存储时间 | | | 系统组件 | 提供对可观测组件的统一监控,实时检测系统组件的健康状态 | [^1]: 这是商业版才提供的功能。