AutoResearchClaw Logo

🧪 社区测试指南

欢迎来自各个领域的你,一起测试全球首个全自动学术论文生成 Pipeline。

⭐ Star 项目 · 🚀 快速开始 · 📋 反馈模板 · 🇬🇧 English · 🇯🇵 日本語テストガイド

--- ## 👋 你好,测试者! **AutoResearchClaw** 是一个全自动学术论文生成 Pipeline。你只需提供一个研究 idea,系统就会自动完成文献检索、实验设计、代码生成、实验执行、论文撰写、同行评审到最终交付的全部 **23 个阶段**——无需任何人工干预。 我们正在寻找来自**各个学科和领域**的测试者——机器学习、NLP、计算机视觉、强化学习、生物信息学、物理学、社会科学……领域越多样,Pipeline 就能变得越好。 **你的任务:** 用你自己的研究 idea 运行一次完整的 Pipeline,检查输出质量,然后向我们提交一份详细的反馈报告。就这么简单——你的每一条反馈都会直接推动下一个版本的改进。 --- ## 📋 目录 1. [环境要求](#-环境要求) 2. [安装与配置](#-安装与配置) 3. [运行测试](#-运行测试) 4. [查看交付结果](#-查看交付结果) 5. [反馈报告要求](#-反馈报告要求) 6. [反馈报告模板](#-反馈报告模板) 7. [常见问题](#-常见问题) --- ## 📦 环境要求 | 项目 | 最低要求 | 推荐配置 | |------|---------|---------| | 操作系统 | macOS / Linux / WSL2 | Linux (Ubuntu 22.04+) | | Python | 3.11+ | 3.11 或 3.12 | | 磁盘空间 | 500 MB | 2 GB+ | | 内存 | 8 GB | 16 GB+ | | GPU | 非必须(sandbox 模式) | NVIDIA GPU + CUDA 12.x(docker 模式) | | 网络 | 需要(调用 LLM API + 文献检索) | 稳定的网络连接 | | LLM API Key | **必须** | OpenAI 或 Anthropic | ### 🔑 关于 API Key Pipeline 在每个阶段都会调用大语言模型(LLM)来完成写作、编码、评审等任务。你需要准备一个 **OpenAI** 或 **Anthropic** 的 API Key。 > **强烈建议使用最新、最强的模型以获得最佳效果:** > > | 提供商 | 推荐模型 | 备选 | > |--------|---------|------| > | **OpenAI** | **GPT-5.4**(首选) | GPT-5.1 或 GPT-4.1 | > | **Anthropic** | **Claude Opus 4.6**(首选) | Claude Sonnet 4.6 | > > 使用顶级模型会显著提升论文写作质量、代码生成准确性和实验设计合理性。较低版本的模型(如 gpt-4o)可能导致输出质量明显下降。 --- ## 🛠 安装与配置 ### ⚠️ 请务必使用最新版本 > **本项目处于快速迭代阶段,** 代码更新频繁,不同版本之间的生成效果可能存在较大差异。 > > **每次测试前,请务必拉取最新代码:** > > ```bash > cd AutoResearchClaw > git pull origin main > pip install -e . # 重新安装以确保更新生效 > ``` > > 记录你的版本号,方便填写反馈报告: > ```bash > git log --oneline -1 > ``` --- ### 方式 A:使用 Claude Code(最快 ⚡ 推荐) 如果你正在使用 [Claude Code](https://claude.ai/claude-code)(Anthropic 的 CLI 工具),直接粘贴以下内容即可: ``` 请帮我克隆并安装 AutoResearchClaw 项目: https://github.com/aiming-lab/AutoResearchClaw.git 如果已经克隆过,请先 git pull origin main 更新到最新版本。 安装完成后,帮我创建一个配置文件,使用以下参数: - LLM: OpenAI,模型选择 gpt-5.4(或 Anthropic Claude Opus 4.6) - 实验模式: sandbox(本地沙盒执行) - 研究主题: "<在这里填入你的研究 idea>" - 自动审批所有 gate stage 我的 API Key 是: sk-xxxx(请设为环境变量,不要写在配置文件里) ``` Claude Code 会自动完成克隆、安装依赖、创建配置文件、运行 Pipeline 的全部步骤。 ### 方式 B:手动安装 ```bash # 1. 克隆项目 git clone https://github.com/aiming-lab/AutoResearchClaw.git cd AutoResearchClaw # ⚠️ 如果已经克隆过,务必先更新! # git pull origin main # 2. 创建 Python 虚拟环境 python3 -m venv .venv source .venv/bin/activate # macOS / Linux # .venv\Scripts\activate # Windows(推荐使用 WSL2) # 3. 安装项目 pip install -e . # 4. 验证安装成功 researchclaw --help ``` ### ⚙️ 配置文件 ```bash cp config.researchclaw.example.yaml config.yaml ``` 编辑 `config.yaml`,修改以下关键字段: ```yaml # === 项目设置 === project: name: "my-test" mode: "full-auto" # === 研究主题——用英文描述你的 idea === research: topic: "你的研究 idea,用英文描述,一两句话即可" domains: - "machine-learning" # 可选: nlp, cv, rl, graph-learning, etc. # === LLM 配置——请使用最强模型! === # # 方案一:OpenAI(推荐 GPT-5.4) llm: provider: "openai-compatible" base_url: "https://api.openai.com/v1" api_key_env: "OPENAI_API_KEY" primary_model: "gpt-5.4" # 首选最强模型 fallback_models: - "gpt-5.1" - "gpt-4.1" # 方案二:Anthropic Claude(推荐 Claude Opus 4.6) # llm: # provider: "openai-compatible" # base_url: "https://api.anthropic.com/v1" # api_key_env: "ANTHROPIC_API_KEY" # primary_model: "claude-opus-4-6" # fallback_models: # - "claude-sonnet-4-6" # === 实验模式 === experiment: mode: "sandbox" # sandbox = 本地执行(推荐) time_budget_sec: 600 # 每次实验最长运行时间(秒) max_iterations: 10 metric_key: "primary_metric" metric_direction: "minimize" # 或 "maximize" ``` ### 🔐 设置 API Key ```bash # OpenAI 用户: export OPENAI_API_KEY="sk-xxxxxxxxxxxxxxxxxxxxxxxx" # Anthropic 用户: export ANTHROPIC_API_KEY="sk-ant-xxxxxxxxxxxxxxxxxxxxxxxx" # 可选:Semantic Scholar API Key(可加快文献检索) export S2_API_KEY="your-s2-key" ``` > **🔒 安全提醒:** 请勿将 API Key 硬编码在任何文件中。使用 `api_key_env` 指定环境变量名即可。 --- ## 🚀 运行测试 ### 快速开始 ```bash source .venv/bin/activate export OPENAI_API_KEY="sk-xxxx" # 或 ANTHROPIC_API_KEY researchclaw run --config config.yaml --auto-approve ``` ### 指定研究主题运行 ```bash researchclaw run \ --config config.yaml \ --topic "Investigating the effect of curriculum learning on image classification with adaptive difficulty scheduling" \ --auto-approve ``` ### ⏱ 预估运行时间 | 实验模式 | 预估时间 | 说明 | |---------|---------|------| | sandbox | 30 分钟 ~ 2 小时 | 取决于实验复杂度和 API 响应速度 | | docker (GPU) | 1 ~ 4 小时 | 可运行更复杂的深度学习实验 | 运行过程中终端会实时显示当前阶段和进度。**无需任何手动操作**,安心等待即可。 ### ✅ 如何知道运行结束 当看到类似以下输出时,表示 Pipeline 已成功完成: ``` [Stage 23/23] ✓ Deliverables packaged Pipeline complete — deliverables at: artifacts/rc-20260315-XXXXXX-YYYY/deliverables/ ``` ### 🔄 如果运行中断 Pipeline 支持断点续跑: ```bash researchclaw run --config config.yaml --resume ``` --- ## 🔍 查看交付结果 运行结束后,输出文件位于 `artifacts/rc-YYYYMMDD-HHMMSS-/deliverables/` 目录下。 ### 📂 交付物清单 | 文件/目录 | 内容 | |----------|------| | `paper_final.md` | 最终论文(Markdown 格式,5,000–6,500 词) | | `paper.tex` | 会议格式 LaTeX 源文件(可直接编译为 PDF) | | `references.bib` | BibTeX 参考文献(经过引用验证) | | `code/main.py` | 自动生成的实验代码 | | `code/requirements.txt` | 实验代码的 Python 依赖 | | `charts/` | 实验结果可视化图表(PNG 格式) | | `verification_report.json` | 引用完整性验证报告 | | `manifest.json` | 交付物清单及元信息 | ### 🔎 重点检查项 1. **论文内容**(`paper_final.md` 或 `paper.tex`) - 标题是否合理、与主题相关 - 摘要是否清晰概述了问题、方法、结果 - 相关工作是否引用了该领域的关键文献 - 方法描述是否清晰、技术上正确 - 实验设计是否合理(数据集、baselines、评估指标) - 结果是否有意义(不是全零、不是 NaN) - 结论是否与实验结果一致 2. **实验代码**(`code/main.py`) - 代码是否能独立运行 - 是否使用了真实数据集(而非随机生成的假数据) - 是否实现了论文中描述的方法 - 是否包含合理的超参数设置 3. **图表**(`charts/`) - 图表是否清晰可读 - 坐标轴标签是否正确 - 数据是否与论文描述一致 4. **引用**(`references.bib`) - 引用的论文是否真实存在 - 引用是否与论文讨论的内容相关 ### 📊 自动质量评估报告 Pipeline 会自动生成一份质量评估报告,位于 `stage-20/quality_report.json`,其中包含: - `score_1_to_10` — 自动评分 - `verdict` — 接收/拒绝建议 - `strengths` — 优点列表 - `weaknesses` — 缺点列表 - `required_actions` — 建议的改进事项 请在你的反馈报告中参考此评估,并补充你自己的专业判断。 --- ## 📝 反馈报告要求 **你的反馈是本项目改进的核心依据。** 无论是批评还是肯定,对我们都同样重要——请务必认真、详细地填写。 ### 需要提交的内容 | # | 提交内容 | 说明 | |---|---------|------| | F1 | **反馈报告**(按下方模板填写) | Markdown 格式,命名为 `feedback_<你的名字>.md` | | F2 | **完整输出目录** | 将整个 `artifacts/rc-XXXXXX/` 目录打包提交(`.zip` 或 `.tar.gz`) | | F3 | **配置文件** | 你使用的 `config.yaml`(**删除 API Key 后**提交) | | F4 | **终端日志**(可选但推荐) | 运行时的终端输出,便于我们排查问题 | ### 反馈的四个维度 #### 🎯 (a) 质量评价 请从你的专业领域角度评价产出论文的质量: - 如果这是你所在领域的论文,它能达到什么水平?(顶会 / 一般会议 / 无法发表) - 与你读过的该领域论文相比,写作质量如何? - 方法的技术正确性如何?有无明显错误? - 实验设计的合理性如何? #### 💡 (b) 优化建议 请指出你认为可以改进的地方: - 哪个阶段的输出质量最差?(文献检索 / 实验设计 / 代码生成 / 论文撰写) - 代码中有没有明显写错或不合理的地方? - 论文结构或表述有什么具体的改进建议? #### ⚖️ (c) 合理性评估 请评估 Pipeline 流程的合理性: - 23 个阶段的设计是否合理?有没有多余或缺失的步骤? - 实验迭代优化的过程是否有效? - LLM 生成内容的引导方式是否合理? #### 🐛 (d) Bug 报告 请尽可能详细地报告你发现的任何问题: - **写作 Bug**:语法错误、重复段落、前后矛盾、引用不存在的图表 - **代码 Bug**:运行报错、逻辑错误、数据处理问题 - **结果 Bug**:全零结果、NaN 值、指标不合理 - **流程 Bug**:阶段卡住、异常中断、资源耗尽 --- ## 📋 反馈报告模板 请复制以下模板,填写后保存为 `feedback_<你的名字>.md`: ````markdown # AutoResearchClaw 测试反馈报告 ## 基本信息 - **测试人员**: - **所属领域**:(例如:计算机视觉 / 自然语言处理 / 强化学习 / 生物信息 / ...) - **测试日期**: - **代码版本**:(运行 `git log --oneline -1` 的输出,例如:`44151b1 fix: Phase 3 regression test findings`) - **研究主题(英文)**: - **使用的 LLM 模型**:(例如:gpt-5.4 / gpt-5.1 / claude-opus-4-6 / claude-sonnet-4-6) - **实验模式**:(sandbox / docker) - **运行总时长**:(约 X 分钟) - **是否成功完成 23 个阶段**:是 / 否(如否,请说明卡在哪个阶段) --- ## 一、质量评价(总分 1-10) **我的评分**:X / 10 ### 1.1 论文整体质量 - 相当于什么级别的论文?(顶会 / 一般会议 / workshop / 无法发表) - 简要说明评分理由: ### 1.2 各部分质量评价 | 部分 | 评分 (1-10) | 评价说明 | |------|-----------|---------| | 标题 | | | | 摘要 | | | | 引言 | | | | 相关工作 | | | | 方法 | | | | 实验设计 | | | | 结果与分析 | | | | 结论 | | | | 参考文献 | | | | 图表质量 | | | | 代码质量 | | | ### 1.3 与人工撰写论文的对比 - 与你平时阅读/撰写的论文相比,差距在哪里? - 有哪些方面出乎意料地好? --- ## 二、优化建议 ### 2.1 最需要改进的环节 (请列出 3-5 个最需要改进的具体问题,按优先级排序) 1. 2. 3. ### 2.2 代码问题 - 代码是否能独立运行? - 是否使用了真实数据集和基线方法? - 具体代码问题(如有): ### 2.3 写作问题 - 论文结构是否合理? - 技术描述是否准确? - 具体写作问题(如有): --- ## 三、合理性评估 ### 3.1 Pipeline 流程评价 - 23 个阶段的流程设计是否合理? - 有没有你认为多余或缺失的步骤? ### 3.2 实验执行评价 - 实验设计是否合理?(数据集选择、对比方法、评估指标) - 迭代优化过程是否有效? ### 3.3 LLM 使用评价 - LLM 在各阶段的表现如何? - 有没有明显的"幻觉"或不合理的生成内容? --- ## 四、Bug 报告 ### 4.1 写作 Bug | 编号 | 位置(章节/段落) | 描述 | 严重程度 (高/中/低) | |------|-----------------|------|-------------------| | W1 | | | | | W2 | | | | ### 4.2 代码 Bug | 编号 | 文件/行号 | 描述 | 严重程度 (高/中/低) | |------|----------|------|-------------------| | C1 | | | | | C2 | | | | ### 4.3 结果 Bug | 编号 | 描述 | 涉及指标/图表 | 严重程度 (高/中/低) | |------|------|-------------|-------------------| | R1 | | | | | R2 | | | | ### 4.4 流程 Bug | 编号 | 阶段 | 描述 | 严重程度 (高/中/低) | |------|------|------|-------------------| | P1 | | | | | P2 | | | | --- ## 五、其他建议 (自由发挥:任何你觉得有价值的观察、建议或想法) --- ## 附件清单 - [ ] 反馈报告 (`feedback_<名字>.md`) - [ ] 完整输出目录 (`artifacts/rc-XXXXXX.zip`) - [ ] 配置文件 (`config.yaml`,已删除 API Key) - [ ] 终端日志(可选) ```` --- ## ❓ 常见问题 ### Q1: 没有 GPU 能测试吗? **当然可以!** 使用 `experiment.mode: "sandbox"` 模式,Pipeline 会在本地 CPU 上运行实验。虽然实验规模会受限,但足以完成一次完整的端到端测试。 ### Q2: API 调用大概要花多少钱? 一次完整的 Pipeline 运行约消耗 **$5–15** 的 API 费用,取决于所选模型、论文修订次数和实验复杂度。顶级模型(GPT-5.4、Claude Opus 4.6)费用稍高,但产出质量显著更好,推荐优先使用。 ### Q3: Pipeline 运行中断了怎么办? 从断点继续即可: ```bash researchclaw run --config config.yaml --resume ``` ### Q4: 可以用中文主题吗? 建议使用 **英文** 描述你的研究主题。Pipeline 的提示词、文献检索和论文生成均以英文为主。如果你的 idea 原始语言是中文,请先翻译成英文。 ### Q5: 我应该选什么样的研究主题? 选择你**熟悉的领域内的一个具体研究问题**——这样你才能有效评估论文的技术正确性。建议: - ✅ 选择有明确实验验证方法的主题(分类、回归、强化学习任务等) - ❌ 避免过于宏大或抽象的主题(如 "AGI" 或 "通用人工智能") - ✅ 描述要具体,例如:*"Investigating the effect of data augmentation strategies on few-shot learning for medical image classification"* ### Q6: 如何使用 Docker 模式?(进阶) 如果你有 NVIDIA GPU 并安装了 Docker + NVIDIA Container Toolkit: ```bash # 1. 构建实验镜像 docker build -t researchclaw/experiment:latest researchclaw/docker/ # 2. 修改 config.yaml: # experiment: # mode: "docker" # docker: # gpu_enabled: true # memory_limit_mb: 8192 # network_policy: "setup_only" # 推荐默认值 # 3. 运行 researchclaw run --config config.yaml --auto-approve ``` Docker 模式采用三阶段执行:pip install(联网)→ setup.py(联网)→ 实验代码(断网)。镜像已预缓存常用数据集(CIFAR-10/100、MNIST、FashionMNIST、STL-10、SVHN),标准基准测试无需网络。 ### Q7: 我之前已经测试过了,再次测试需要注意什么? **每次测试前务必拉取最新代码:** ```bash cd AutoResearchClaw git pull origin main pip install -e . ``` 然后确认版本号: ```bash git log --oneline -1 ``` 不同版本的生成效果可能差异很大,请在反馈报告中注明你使用的 commit hash。 ### Q8: 反馈提交到哪里? 你可以通过以下任一渠道提交反馈: - **GitHub Issues:** [提交 Issue](https://github.com/aiming-lab/AutoResearchClaw/issues),添加 `feedback` 标签 - **Pull Request:** 将 `feedback_<名字>.md` 提交到 `community-feedback/` 目录 - **邮件:** 联系项目维护者(详见仓库主页) --- ## 🌍 我们需要来自各个领域的测试者 目前 Pipeline 主要在机器学习领域进行了测试,我们特别欢迎来自以下领域的测试者: - 🧬 **生物信息学与计算生物学** - 🧪 **化学与材料科学** - 📊 **统计学与应用数学** - 🤖 **机器人学与控制系统** - 🗣️ **NLP 与计算语言学** - 👁️ **计算机视觉与图形学** - 🎮 **强化学习与博弈论** - 🏥 **医学 AI 与医疗健康** - 🌐 **图学习与网络科学** - 💹 **金融 ML 与计量经济学** - 🛰️ **遥感与地理空间 AI** ……以及任何涉及计算实验的领域! --- ## 🙏 感谢你的参与 你的每一条反馈——无论大小——都在直接推动 AutoResearchClaw 变得更好。感谢你成为这段旅程的一部分。

⭐ 如果你觉得这个项目有趣,请在 GitHub 上给我们一颗 Star!