🧪 社区测试指南

欢迎来自各个领域的你，一起测试全球首个全自动学术论文生成 Pipeline。

⭐ Star 项目 · 🚀 快速开始 · 📋 反馈模板 · 🇬🇧 English · 🇯🇵 日本語テストガイド

--- ## 👋 你好，测试者！ **AutoResearchClaw** 是一个全自动学术论文生成 Pipeline。你只需提供一个研究 idea，系统就会自动完成文献检索、实验设计、代码生成、实验执行、论文撰写、同行评审到最终交付的全部 **23 个阶段**——无需任何人工干预。我们正在寻找来自**各个学科和领域**的测试者——机器学习、NLP、计算机视觉、强化学习、生物信息学、物理学、社会科学……领域越多样，Pipeline 就能变得越好。 **你的任务：** 用你自己的研究 idea 运行一次完整的 Pipeline，检查输出质量，然后向我们提交一份详细的反馈报告。就这么简单——你的每一条反馈都会直接推动下一个版本的改进。 --- ## 📋 目录 1. [环境要求](#-环境要求) 2. [安装与配置](#-安装与配置) 3. [运行测试](#-运行测试) 4. [查看交付结果](#-查看交付结果) 5. [反馈报告要求](#-反馈报告要求) 6. [反馈报告模板](#-反馈报告模板) 7. [常见问题](#-常见问题) --- ## 📦 环境要求 | 项目 | 最低要求 | 推荐配置 | |------|---------|---------| | 操作系统 | macOS / Linux / WSL2 | Linux (Ubuntu 22.04+) | | Python | 3.11+ | 3.11 或 3.12 | | 磁盘空间 | 500 MB | 2 GB+ | | 内存 | 8 GB | 16 GB+ | | GPU | 非必须（sandbox 模式） | NVIDIA GPU + CUDA 12.x（docker 模式） | | 网络 | 需要（调用 LLM API + 文献检索） | 稳定的网络连接 | | LLM API Key | **必须** | OpenAI 或 Anthropic | ### 🔑 关于 API Key Pipeline 在每个阶段都会调用大语言模型（LLM）来完成写作、编码、评审等任务。你需要准备一个 **OpenAI** 或 **Anthropic** 的 API Key。 > **强烈建议使用最新、最强的模型以获得最佳效果：** > > | 提供商 | 推荐模型 | 备选 | > |--------|---------|------| > | **OpenAI** | **GPT-5.4**（首选） | GPT-5.1 或 GPT-4.1 | > | **Anthropic** | **Claude Opus 4.6**（首选） | Claude Sonnet 4.6 | > > 使用顶级模型会显著提升论文写作质量、代码生成准确性和实验设计合理性。较低版本的模型（如 gpt-4o）可能导致输出质量明显下降。 --- ## 🛠 安装与配置 ### ⚠️ 请务必使用最新版本 > **本项目处于快速迭代阶段，** 代码更新频繁，不同版本之间的生成效果可能存在较大差异。 > > **每次测试前，请务必拉取最新代码：** > > ```bash > cd AutoResearchClaw > git pull origin main > pip install -e . # 重新安装以确保更新生效 > ``` > > 记录你的版本号，方便填写反馈报告： > ```bash > git log --oneline -1 > ``` --- ### 方式 A：使用 Claude Code（最快 ⚡ 推荐）如果你正在使用 [Claude Code](https://claude.ai/claude-code)（Anthropic 的 CLI 工具），直接粘贴以下内容即可： ``` 请帮我克隆并安装 AutoResearchClaw 项目： https://github.com/aiming-lab/AutoResearchClaw.git 如果已经克隆过，请先 git pull origin main 更新到最新版本。安装完成后，帮我创建一个配置文件，使用以下参数： - LLM: OpenAI，模型选择 gpt-5.4（或 Anthropic Claude Opus 4.6） - 实验模式: sandbox（本地沙盒执行） - 研究主题: "<在这里填入你的研究 idea>" - 自动审批所有 gate stage 我的 API Key 是: sk-xxxx（请设为环境变量，不要写在配置文件里） ``` Claude Code 会自动完成克隆、安装依赖、创建配置文件、运行 Pipeline 的全部步骤。 ### 方式 B：手动安装 ```bash # 1. 克隆项目 git clone https://github.com/aiming-lab/AutoResearchClaw.git cd AutoResearchClaw # ⚠️ 如果已经克隆过，务必先更新！ # git pull origin main # 2. 创建 Python 虚拟环境 python3 -m venv .venv source .venv/bin/activate # macOS / Linux # .venv\Scripts\activate # Windows（推荐使用 WSL2） # 3. 安装项目 pip install -e . # 4. 验证安装成功 researchclaw --help ``` ### ⚙️ 配置文件 ```bash cp config.researchclaw.example.yaml config.yaml ``` 编辑 `config.yaml`，修改以下关键字段： ```yaml # === 项目设置 === project: name: "my-test" mode: "full-auto" # === 研究主题——用英文描述你的 idea === research: topic: "你的研究 idea，用英文描述，一两句话即可" domains: - "machine-learning" # 可选: nlp, cv, rl, graph-learning, etc. # === LLM 配置——请使用最强模型！ === # # 方案一：OpenAI（推荐 GPT-5.4） llm: provider: "openai-compatible" base_url: "https://api.openai.com/v1" api_key_env: "OPENAI_API_KEY" primary_model: "gpt-5.4" # 首选最强模型 fallback_models: - "gpt-5.1" - "gpt-4.1" # 方案二：Anthropic Claude（推荐 Claude Opus 4.6） # llm: # provider: "openai-compatible" # base_url: "https://api.anthropic.com/v1" # api_key_env: "ANTHROPIC_API_KEY" # primary_model: "claude-opus-4-6" # fallback_models: # - "claude-sonnet-4-6" # === 实验模式 === experiment: mode: "sandbox" # sandbox = 本地执行（推荐） time_budget_sec: 600 # 每次实验最长运行时间（秒） max_iterations: 10 metric_key: "primary_metric" metric_direction: "minimize" # 或 "maximize" ``` ### 🔐 设置 API Key ```bash # OpenAI 用户： export OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxxx" # Anthropic 用户： export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxxxxxxxxxxxxxxxx" # 可选：Semantic Scholar API Key（可加快文献检索） export S2_API_KEY="your-s2-key" ``` > **🔒 安全提醒：** 请勿将 API Key 硬编码在任何文件中。使用 `api_key_env` 指定环境变量名即可。 --- ## 🚀 运行测试 ### 快速开始 ```bash source .venv/bin/activate export OPENAI_API_KEY="sk-xxxx" # 或 ANTHROPIC_API_KEY researchclaw run --config config.yaml --auto-approve ``` ### 指定研究主题运行 ```bash researchclaw run \ --config config.yaml \ --topic "Investigating the effect of curriculum learning on image classification with adaptive difficulty scheduling" \ --auto-approve ``` ### ⏱ 预估运行时间 | 实验模式 | 预估时间 | 说明 | |---------|---------|------| | sandbox | 30 分钟 ~ 2 小时 | 取决于实验复杂度和 API 响应速度 | | docker (GPU) | 1 ~ 4 小时 | 可运行更复杂的深度学习实验 | 运行过程中终端会实时显示当前阶段和进度。**无需任何手动操作**，安心等待即可。 ### ✅ 如何知道运行结束当看到类似以下输出时，表示 Pipeline 已成功完成： ``` [Stage 23/23] ✓ Deliverables packaged Pipeline complete — deliverables at: artifacts/rc-20260315-XXXXXX-YYYY/deliverables/ ``` ### 🔄 如果运行中断 Pipeline 支持断点续跑： ```bash researchclaw run --config config.yaml --resume ``` --- ## 🔍 查看交付结果运行结束后，输出文件位于 `artifacts/rc-YYYYMMDD-HHMMSS-/deliverables/` 目录下。 ### 📂 交付物清单 | 文件/目录 | 内容 | |----------|------| | `paper_final.md` | 最终论文（Markdown 格式，5,000–6,500 词） | | `paper.tex` | 会议格式 LaTeX 源文件（可直接编译为 PDF） | | `references.bib` | BibTeX 参考文献（经过引用验证） | | `code/main.py` | 自动生成的实验代码 | | `code/requirements.txt` | 实验代码的 Python 依赖 | | `charts/` | 实验结果可视化图表（PNG 格式） | | `verification_report.json` | 引用完整性验证报告 | | `manifest.json` | 交付物清单及元信息 | ### 🔎 重点检查项 1. **论文内容**（`paper_final.md` 或 `paper.tex`） - 标题是否合理、与主题相关 - 摘要是否清晰概述了问题、方法、结果 - 相关工作是否引用了该领域的关键文献 - 方法描述是否清晰、技术上正确 - 实验设计是否合理（数据集、baselines、评估指标） - 结果是否有意义（不是全零、不是 NaN） - 结论是否与实验结果一致 2. **实验代码**（`code/main.py`） - 代码是否能独立运行 - 是否使用了真实数据集（而非随机生成的假数据） - 是否实现了论文中描述的方法 - 是否包含合理的超参数设置 3. **图表**（`charts/`） - 图表是否清晰可读 - 坐标轴标签是否正确 - 数据是否与论文描述一致 4. **引用**（`references.bib`） - 引用的论文是否真实存在 - 引用是否与论文讨论的内容相关 ### 📊 自动质量评估报告 Pipeline 会自动生成一份质量评估报告，位于 `stage-20/quality_report.json`，其中包含： - `score_1_to_10` — 自动评分 - `verdict` — 接收/拒绝建议 - `strengths` — 优点列表 - `weaknesses` — 缺点列表 - `required_actions` — 建议的改进事项请在你的反馈报告中参考此评估，并补充你自己的专业判断。 --- ## 📝 反馈报告要求 **你的反馈是本项目改进的核心依据。** 无论是批评还是肯定，对我们都同样重要——请务必认真、详细地填写。 ### 需要提交的内容 | # | 提交内容 | 说明 | |---|---------|------| | F1 | **反馈报告**（按下方模板填写） | Markdown 格式，命名为 `feedback_<你的名字>.md` | | F2 | **完整输出目录** | 将整个 `artifacts/rc-XXXXXX/` 目录打包提交（`.zip` 或 `.tar.gz`） | | F3 | **配置文件** | 你使用的 `config.yaml`（**删除 API Key 后**提交） | | F4 | **终端日志**（可选但推荐） | 运行时的终端输出，便于我们排查问题 | ### 反馈的四个维度 #### 🎯 (a) 质量评价请从你的专业领域角度评价产出论文的质量： - 如果这是你所在领域的论文，它能达到什么水平？（顶会 / 一般会议 / 无法发表） - 与你读过的该领域论文相比，写作质量如何？ - 方法的技术正确性如何？有无明显错误？ - 实验设计的合理性如何？ #### 💡 (b) 优化建议请指出你认为可以改进的地方： - 哪个阶段的输出质量最差？（文献检索 / 实验设计 / 代码生成 / 论文撰写） - 代码中有没有明显写错或不合理的地方？ - 论文结构或表述有什么具体的改进建议？ #### ⚖️ (c) 合理性评估请评估 Pipeline 流程的合理性： - 23 个阶段的设计是否合理？有没有多余或缺失的步骤？ - 实验迭代优化的过程是否有效？ - LLM 生成内容的引导方式是否合理？ #### 🐛 (d) Bug 报告请尽可能详细地报告你发现的任何问题： - **写作 Bug**：语法错误、重复段落、前后矛盾、引用不存在的图表 - **代码 Bug**：运行报错、逻辑错误、数据处理问题 - **结果 Bug**：全零结果、NaN 值、指标不合理 - **流程 Bug**：阶段卡住、异常中断、资源耗尽 --- ## 📋 反馈报告模板请复制以下模板，填写后保存为 `feedback_<你的名字>.md`： ````markdown # AutoResearchClaw 测试反馈报告 ## 基本信息 - **测试人员**： - **所属领域**：（例如：计算机视觉 / 自然语言处理 / 强化学习 / 生物信息 / ...） - **测试日期**： - **代码版本**：（运行 `git log --oneline -1` 的输出，例如：`44151b1 fix: Phase 3 regression test findings`） - **研究主题（英文）**： - **使用的 LLM 模型**：（例如：gpt-5.4 / gpt-5.1 / claude-opus-4-6 / claude-sonnet-4-6） - **实验模式**：（sandbox / docker） - **运行总时长**：（约 X 分钟） - **是否成功完成 23 个阶段**：是 / 否（如否，请说明卡在哪个阶段） --- ## 一、质量评价（总分 1-10） **我的评分**：X / 10 ### 1.1 论文整体质量 - 相当于什么级别的论文？（顶会 / 一般会议 / workshop / 无法发表） - 简要说明评分理由： ### 1.2 各部分质量评价 | 部分 | 评分 (1-10) | 评价说明 | |------|-----------|---------| | 标题 | | | | 摘要 | | | | 引言 | | | | 相关工作 | | | | 方法 | | | | 实验设计 | | | | 结果与分析 | | | | 结论 | | | | 参考文献 | | | | 图表质量 | | | | 代码质量 | | | ### 1.3 与人工撰写论文的对比 - 与你平时阅读/撰写的论文相比，差距在哪里？ - 有哪些方面出乎意料地好？ --- ## 二、优化建议 ### 2.1 最需要改进的环节（请列出 3-5 个最需要改进的具体问题，按优先级排序） 1. 2. 3. ### 2.2 代码问题 - 代码是否能独立运行？ - 是否使用了真实数据集和基线方法？ - 具体代码问题（如有）： ### 2.3 写作问题 - 论文结构是否合理？ - 技术描述是否准确？ - 具体写作问题（如有）： --- ## 三、合理性评估 ### 3.1 Pipeline 流程评价 - 23 个阶段的流程设计是否合理？ - 有没有你认为多余或缺失的步骤？ ### 3.2 实验执行评价 - 实验设计是否合理？（数据集选择、对比方法、评估指标） - 迭代优化过程是否有效？ ### 3.3 LLM 使用评价 - LLM 在各阶段的表现如何？ - 有没有明显的"幻觉"或不合理的生成内容？ --- ## 四、Bug 报告 ### 4.1 写作 Bug | 编号 | 位置（章节/段落） | 描述 | 严重程度 (高/中/低) | |------|-----------------|------|-------------------| | W1 | | | | | W2 | | | | ### 4.2 代码 Bug | 编号 | 文件/行号 | 描述 | 严重程度 (高/中/低) | |------|----------|------|-------------------| | C1 | | | | | C2 | | | | ### 4.3 结果 Bug | 编号 | 描述 | 涉及指标/图表 | 严重程度 (高/中/低) | |------|------|-------------|-------------------| | R1 | | | | | R2 | | | | ### 4.4 流程 Bug | 编号 | 阶段 | 描述 | 严重程度 (高/中/低) | |------|------|------|-------------------| | P1 | | | | | P2 | | | | --- ## 五、其他建议（自由发挥：任何你觉得有价值的观察、建议或想法） --- ## 附件清单 - [ ] 反馈报告 (`feedback_<名字>.md`) - [ ] 完整输出目录 (`artifacts/rc-XXXXXX.zip`) - [ ] 配置文件 (`config.yaml`，已删除 API Key) - [ ] 终端日志（可选） ```` --- ## ❓ 常见问题 ### Q1: 没有 GPU 能测试吗？ **当然可以！** 使用 `experiment.mode: "sandbox"` 模式，Pipeline 会在本地 CPU 上运行实验。虽然实验规模会受限，但足以完成一次完整的端到端测试。 ### Q2: API 调用大概要花多少钱？一次完整的 Pipeline 运行约消耗 **$5–15** 的 API 费用，取决于所选模型、论文修订次数和实验复杂度。顶级模型（GPT-5.4、Claude Opus 4.6）费用稍高，但产出质量显著更好，推荐优先使用。 ### Q3: Pipeline 运行中断了怎么办？从断点继续即可： ```bash researchclaw run --config config.yaml --resume ``` ### Q4: 可以用中文主题吗？建议使用 **英文** 描述你的研究主题。Pipeline 的提示词、文献检索和论文生成均以英文为主。如果你的 idea 原始语言是中文，请先翻译成英文。 ### Q5: 我应该选什么样的研究主题？选择你**熟悉的领域内的一个具体研究问题**——这样你才能有效评估论文的技术正确性。建议： - ✅ 选择有明确实验验证方法的主题（分类、回归、强化学习任务等） - ❌ 避免过于宏大或抽象的主题（如 "AGI" 或 "通用人工智能"） - ✅ 描述要具体，例如：*"Investigating the effect of data augmentation strategies on few-shot learning for medical image classification"* ### Q6: 如何使用 Docker 模式？（进阶）如果你有 NVIDIA GPU 并安装了 Docker + NVIDIA Container Toolkit： ```bash # 1. 构建实验镜像 docker build -t researchclaw/experiment:latest researchclaw/docker/ # 2. 修改 config.yaml: # experiment: # mode: "docker" # docker: # gpu_enabled: true # memory_limit_mb: 8192 # network_policy: "setup_only" # 推荐默认值 # 3. 运行 researchclaw run --config config.yaml --auto-approve ``` Docker 模式采用三阶段执行：pip install（联网）→ setup.py（联网）→ 实验代码（断网）。镜像已预缓存常用数据集（CIFAR-10/100、MNIST、FashionMNIST、STL-10、SVHN），标准基准测试无需网络。 ### Q7: 我之前已经测试过了，再次测试需要注意什么？ **每次测试前务必拉取最新代码：** ```bash cd AutoResearchClaw git pull origin main pip install -e . ``` 然后确认版本号： ```bash git log --oneline -1 ``` 不同版本的生成效果可能差异很大，请在反馈报告中注明你使用的 commit hash。 ### Q8: 反馈提交到哪里？你可以通过以下任一渠道提交反馈： - **GitHub Issues：** [提交 Issue](https://github.com/aiming-lab/AutoResearchClaw/issues)，添加 `feedback` 标签 - **Pull Request：** 将 `feedback_<名字>.md` 提交到 `community-feedback/` 目录 - **邮件：** 联系项目维护者（详见仓库主页） --- ## 🌍 我们需要来自各个领域的测试者目前 Pipeline 主要在机器学习领域进行了测试，我们特别欢迎来自以下领域的测试者： - 🧬 **生物信息学与计算生物学** - 🧪 **化学与材料科学** - 📊 **统计学与应用数学** - 🤖 **机器人学与控制系统** - 🗣️ **NLP 与计算语言学** - 👁️ **计算机视觉与图形学** - 🎮 **强化学习与博弈论** - 🏥 **医学 AI 与医疗健康** - 🌐 **图学习与网络科学** - 💹 **金融 ML 与计量经济学** - 🛰️ **遥感与地理空间 AI** ……以及任何涉及计算实验的领域！ --- ## 🙏 感谢你的参与你的每一条反馈——无论大小——都在直接推动 AutoResearchClaw 变得更好。感谢你成为这段旅程的一部分。

⭐ 如果你觉得这个项目有趣，请在 GitHub 上给我们一颗 Star！