--- name: data-analysis description: 数据分析流程,从数据探索到洞察报告的完整工作流 version: 1.1.0 author: AI Mine tags: - data - analysis - visualization - statistics enabled: true tools: - bash - file_read - file_write - rag_search --- # 数据分析技能 结构化的数据分析工作流程,从原始数据到可执行洞察。 ## 适用场景 - CSV/Excel 数据集分析 - 业务指标分析 - 趋势和模式识别 - 数据质量评估 ## 分析流程 ### Phase 1: 数据加载与探索 ```python import pandas as pd # 加载数据 df = pd.read_csv('data.csv') # 基本信息 print(f"数据形状: {df.shape}") print(f"列信息:\n{df.dtypes}") print(f"缺失值:\n{df.isnull().sum()}") print(f"基本统计:\n{df.describe()}") ``` ### Phase 2: 数据清洗 1. 处理缺失值(删除/填充) 2. 处理异常值(识别/修正) 3. 数据类型转换 4. 重复值处理 ### Phase 3: 描述性分析 1. 单变量分析(分布、集中趋势) 2. 双变量分析(相关性、对比) 3. 分组聚合统计 4. 时间序列趋势 ### Phase 4: 可视化 ```python import matplotlib.pyplot as plt import seaborn as sns # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei', 'Arial Unicode MS'] plt.rcParams['axes.unicode_minus'] = False # 常用图表 fig, axes = plt.subplots(2, 2, figsize=(12, 10)) # ... 绑定到 axes plt.tight_layout() plt.savefig('analysis.png', dpi=150) ``` ### Phase 5: 洞察提取 1. 识别关键发现 2. 建立因果假设 3. 提出行动建议 ## 输出模板 ```markdown # 📊 数据分析报告 ## 1. 数据概览 ### 数据集信息 | 属性 | 值 | |------|------| | 记录数 | X | | 字段数 | Y | | 时间范围 | YYYY-MM-DD ~ YYYY-MM-DD | | 数据质量 | 缺失率 X% | ### 字段说明 | 字段 | 类型 | 描述 | 示例值 | |------|------|------|--------| | field1 | int | ... | ... | ## 2. 数据质量 ### 缺失值 | 字段 | 缺失数 | 缺失率 | 处理方式 | |------|--------|--------|----------| | ... | ... | ...% | 删除/填充均值 | ### 异常值 - [字段]: 发现 X 个异常值,处理方式: [...] ## 3. 统计分析 ### 数值字段统计 | 字段 | 均值 | 中位数 | 标准差 | 最小值 | 最大值 | |------|------|--------|--------|--------|--------| | ... | ... | ... | ... | ... | ... | ### 分类字段分布 | 字段 | 类别数 | Top 3 类别 | |------|--------|-----------| | ... | ... | A(X%), B(Y%), C(Z%) | ### 相关性分析 [热力图或相关系数表] ## 4. 关键发现 ### 发现 1: [标题] - **现象**: [描述观察到的现象] - **数据支撑**: [具体数字] - **可能原因**: [假设] ### 发现 2: [标题] ... ## 5. 可视化 [图表] ## 6. 建议与行动 ### 短期行动 - [ ] [具体可执行的建议] ### 长期优化 - [ ] [需要进一步分析的方向] ## 附录: 代码 [关键分析代码] ``` ## 分析原则 1. **数据先行**: 先看数据,再下结论 2. **质量第一**: 数据清洗是基础 3. **可视说话**: 用图表支撑发现 4. **行动导向**: 分析要指向决策