Converse uma ideia. Receba um artigo. Autônomo, Colaborativo & Auto-evolutivo.

Converse com o OpenClaw: "Pesquise X" → pronto.

📄 Nosso artigo está no arXiv — venha ler! AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration

AutoResearchClaw Framework

🇺🇸 English · 🇨🇳 中文 · 🇯🇵 日本語 · 🇰🇷 한국어 · 🇫🇷 Français · 🇩🇪 Deutsch · 🇪🇸 Español · 🇧🇷 Português · 🇷🇺 Русский · 🇸🇦 العربية

🏆 Galeria de Artigos · 🧑‍✈️ Guia do Co-Piloto · 📖 Guia de Integração · 💬 Comunidade Discord

---

🏆 Galeria de Artigos Gerados

8 artigos em 8 domínios — matemática, estatística, biologia, computação, NLP, RL, visão, robustez — gerados de forma totalmente autônoma ou com orientação de co-piloto Human-in-the-Loop.

--- > **🧪 Estamos procurando testadores!** Experimente o pipeline com sua própria ideia de pesquisa — de qualquer área — e [diga-nos o que achou](TESTER_GUIDE.md). Seu feedback molda diretamente a próxima versão. **[→ Testing Guide](TESTER_GUIDE.md)** | **[→ 中文测试指南](TESTER_GUIDE_CN.md)** | **[→ 日本語テストガイド](TESTER_GUIDE_JA.md)** --- ## 🔥 News - **[05/19/2026]** **v0.5.0** — **Agentes de Experimento Multidomínio + ARC-Bench** — Duas atualizações principais. **(1) Agentes de execução especializados por domínio:** o estágio de experimentos (estágios 10–13) agora vai além do sandbox de ML padrão e roteia para agentes especializados por área — **física de altas energias** (ColliderAgent: FeynRules → MadGraph5 → Delphes via nuvem Magnus), **biologia** (modelagem metabólica em escala genômica com COBRApy) e **estatística** (agente de estudos de simulação), com um executor Docker genérico para química/materiais. O pipeline seleciona automaticamente o executor certo conforme o domínio. **(2) ARC-Bench:** um benchmark de pesquisa autônoma aberta com **55 tópicos** cobrindo **ML (25), física de altas energias (10), quântica (10), biologia (7) e estatística (3)**, cada um com um manifesto e uma rubrica de avaliação (`experiments/arc_bench/`, e também no [🤗 Hugging Face](https://huggingface.co/datasets/AIMING-Lab-UNC/ARC-Bench)). **[→ Guia de Integração de Domínios](DOMAIN_INTEGRATION_GUIDE.md)** - **[04/01/2026]** **v0.4.0** — **Sistema Co-Piloto Human-in-the-Loop** — O AutoResearchClaw não é mais puramente autônomo. O novo sistema HITL adiciona 6 modos de intervenção (`full-auto`, `gate-only`, `checkpoint`, `step-by-step`, `co-pilot`, `custom`), políticas por estágio e colaboração profunda humano-IA. Inclui: Idea Workshop para co-criação de hipóteses, Baseline Navigator para revisão de design experimental, Paper Co-Writer para redação colaborativa, SmartPause (intervenção dinâmica baseada em confiança), aprendizado de intervenção ALHF, verificação de afirmações anti-alucinação, guardrails de orçamento de custo, ramificação de pipeline para exploração paralela de hipóteses e comandos CLI (`attach`/`status`/`approve`/`reject`/`guide`). **[→ Guia Completo HITL](HITL_GUIDE.md)** - **[03/30/2026]** **Carregamento Flexível de Skills** — O AutoResearchClaw agora suporta o carregamento de skills open-source e customizadas de qualquer disciplina para aprimorar ainda mais sua experiência de pesquisa. 20 skills pré-carregadas estão incluídas como referências prontas para uso, cobrindo escrita científica, design experimental, química, biologia e mais — incluindo uma skill de evolução agêntica [A-Evolve](https://github.com/A-EVO-Lab/a-evolve) contribuída pela comunidade. Carregue as suas via `researchclaw skills install` ou coloque um `SKILL.md` em `.claude/skills/`. Veja [Biblioteca de Skills](#-biblioteca-de-skills). - **[03/22/2026]** [v0.3.2](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.3.2) — **Suporte multiplataforma + grande estabilidade** — O AutoResearchClaw agora funciona com qualquer agente compativel com ACP (Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI) e suporta plataformas de mensagens (Discord, Telegram, Lark, WeChat) via ponte OpenClaw. Novo backend de geracao de codigo CLI-agent que delega os Stages 10 e 13 a agentes CLI externos com controle de orcamento e gerenciamento de timeout. Inclui sistema anti-fabricacao (VerifiedRegistry + loop de diagnostico e reparo), 100+ correcoes de bugs, refatoracao modular do executor, auto-deteccao de `--resume`, endurecimento de retries LLM e correcoes da comunidade.

Versões anteriores

- **[03/18/2026]** [v0.3.1](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.3.1) — **OpenCode Beast Mode + Community Contributions** — New "Beast Mode" routes complex code generation to [OpenCode](https://github.com/anomalyco/opencode) with automatic complexity scoring and graceful fallback. Added Novita AI provider support, thread-safety hardening, improved LLM output parsing robustness, and 20+ bug fixes from community PRs and internal audit. - **[03/17/2026]** [v0.3.0](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.3.0) — **MetaClaw Integration** — AutoResearchClaw now supports [MetaClaw](https://github.com/aiming-lab/MetaClaw) cross-run learning: pipeline failures → structured lessons → reusable skills, injected into all 23 stages. **+18.3%** robustness in controlled experiments. Opt-in (`metaclaw_bridge.enabled: true`), fully backward-compatible. See [Integration Guide](#-metaclaw-integration). - **[03/16/2026]** [v0.2.0](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.2.0) — Three multi-agent subsystems (CodeAgent, BenchmarkAgent, FigureAgent), hardened Docker sandbox with network-policy-aware execution, 4-round paper quality audit (AI-slop detection, 7-dim review scoring, NeurIPS checklist), and 15+ bug fixes from production runs. - **[03/15/2026]** [v0.1.0](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.1.0) — We release AutoResearchClaw: a fully autonomous 23-stage research pipeline that turns a single research idea into a conference-ready paper. No human intervention required.

--- ## ⚡ Um Comando. Um Artigo. ```bash # Totalmente autônomo — sem intervenção humana pip install -e . && researchclaw setup && researchclaw init && researchclaw run --topic "Your research idea here" --auto-approve # Modo Co-Piloto — colabore com a IA em pontos de decisão chave researchclaw run --topic "Your research idea here" --mode co-pilot ``` --- ## 🤔 O Que É Isto? **Você pensa. AutoResearchClaw escreve. Você guia as decisões-chave.** Forneça um tópico de pesquisa — receba de volta um artigo acadêmico completo com literatura real do OpenAlex, Semantic Scholar & arXiv, experimentos em sandbox com detecção automática de hardware (GPU/MPS/CPU), análise estatística, revisão por pares multi-agente, e LaTeX pronto para conferência mirando NeurIPS/ICML/ICLR. Execute de forma totalmente autônoma, ou use o **modo Co-Piloto** para guiar a IA em pontos de decisão críticos — escolha direções de pesquisa, revise designs experimentais e co-escreva o artigo. Sem referências alucinadas.

📄	`paper_draft.md`	Artigo acadêmico completo (Introdução, Trabalhos Relacionados, Método, Experimentos, Resultados, Conclusão)
📐	`paper.tex`	LaTeX pronto para conferência (templates NeurIPS / ICLR / ICML)
📚	`references.bib`	Referências BibTeX reais do OpenAlex, Semantic Scholar e arXiv — auto-podadas para corresponder às citações inline
🔍	`verification_report.json`	Verificação de integridade + relevância de citações em 4 camadas (arXiv, CrossRef, DataCite, LLM)
🧪	`experiment runs/`	Código gerado + resultados do sandbox + métricas JSON estruturadas
📊	`charts/`	Gráficos de comparação de condições gerados automaticamente com barras de erro e intervalos de confiança
📝	`reviews.md`	Revisão por pares multi-agente com verificações de consistência metodologia-evidência
🧬	`evolution/`	Lições de autoaprendizagem extraídas de cada execução
📦	`deliverables/`	Todas as saídas finais em uma pasta — pronto para compilar no Overleaf

O pipeline roda **de ponta a ponta** — totalmente autônomo ou com colaboração human-in-the-loop. Quando experimentos falham, ele se auto-repara. Quando hipóteses não se sustentam, ele pivota. Quando citações são falsas, ele as elimina. Quando você quer direcionar, ele pausa e escuta. 🌍 **Execute em qualquer lugar.** O AutoResearchClaw não está preso a uma única plataforma. Use-o de forma independente via CLI, conecte-o ao [OpenClaw](https://github.com/openclaw/openclaw), ou integre-o com qualquer agente compatível com ACP — 🤖 Claude Code, 💻 Codex CLI, 🐙 Copilot CLI, ♊ Gemini CLI, 🌙 Kimi CLI, e muito mais. Graças à ponte de mensagens do OpenClaw, você pode iniciar uma pesquisa completa pelo 💬 Discord, ✈️ Telegram, 🐦 Lark (飞书), 💚 WeChat, ou qualquer plataforma que sua equipe já utiliza. Um tópico na entrada, um artigo na saída — não importa de onde você digita. --- ## 🚀 Início Rápido ```bash # 1. Clone & instale git clone https://github.com/aiming-lab/AutoResearchClaw.git cd AutoResearchClaw python3 -m venv .venv && source .venv/bin/activate pip install -e . # 2. Setup (interativo — instala OpenCode beast mode, verifica Docker/LaTeX) researchclaw setup # 3. Configure researchclaw init # Interativo: escolha provedor LLM, cria config.arc.yaml # Ou manualmente: cp config.researchclaw.example.yaml config.arc.yaml # 4. Execute export OPENAI_API_KEY="sk-..." researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve ``` Saída → `artifacts/rc-YYYYMMDD-HHMMSS-/deliverables/` — LaTeX, BibTeX, código de experimentos, gráficos prontos para compilação.

📝 Configuração mínima necessária

```yaml project: name: "my-research" research: topic: "Your research topic here" llm: base_url: "https://api.openai.com/v1" api_key_env: "OPENAI_API_KEY" primary_model: "gpt-4o" fallback_models: ["gpt-4o-mini"] experiment: mode: "sandbox" sandbox: python_path: ".venv/bin/python" ```

--- ## 🧠 O Que o Torna Diferente | Capacidade | Como Funciona | |-----------|-------------| | **🧑‍✈️ Modo Co-Piloto** | 6 modos de intervenção — de totalmente autônomo a passo a passo. Guie a IA em decisões críticas (hipóteses, baselines, escrita do artigo) ou deixe-a executar livremente. SmartPause detecta automaticamente quando a contribuição humana ajudaria. | | **🔄 Loop PIVOT / REFINE** | O Estágio 15 decide autonomamente: PROCEED, REFINE (ajustar parâmetros) ou PIVOT (nova direção). Artefatos versionados automaticamente. | | **🤖 Debate Multi-Agente** | Geração de hipóteses, análise de resultados e revisão por pares usam debate estruturado com múltiplas perspectivas. | | **🧬 Autoaprendizagem** | Lições extraídas por execução (justificativa de decisões, avisos de runtime, anomalias em métricas) com decaimento temporal de 30 dias. Execuções futuras aprendem com erros passados. | | **📚 Base de Conhecimento** | Cada execução constrói uma KB estruturada com 6 categorias (decisões, experimentos, descobertas, literatura, questões, revisões). | | **🛡️ Sentinel Watchdog** | Monitor de qualidade em segundo plano: detecção de NaN/Inf, consistência artigo-evidência, pontuação de relevância de citações, guarda anti-fabricação. | | **🔍 Verificação de Afirmações** | Verificação de fatos inline: extrai afirmações do texto gerado por IA e cruza referências com a literatura coletada. Sinaliza citações infundadas e números fabricados. | | **🌿 Exploração de Ramificações** | Bifurque o pipeline para explorar múltiplas direções de pesquisa simultaneamente, compare resultados lado a lado e mescle o melhor caminho. | --- ## 🦞 Integração OpenClaw **AutoResearchClaw é um serviço compatível com [OpenClaw](https://github.com/openclaw/openclaw).** Instale-o no OpenClaw e inicie pesquisa autônoma com uma única mensagem — ou use-o de forma independente via CLI, Claude Code ou qualquer assistente de codificação IA.

### 🚀 Usar com OpenClaw (Recomendado) Se você já usa o [OpenClaw](https://github.com/openclaw/openclaw) como seu assistente de IA: ``` 1️⃣ Compartilhe a URL do repositório GitHub com o OpenClaw 2️⃣ O OpenClaw lê automaticamente RESEARCHCLAW_AGENTS.MD → entende o pipeline 3️⃣ Diga: "Pesquise [seu tópico]" 4️⃣ Pronto — o OpenClaw clona, instala, configura, executa e retorna os resultados ``` **É isso.** O OpenClaw gerencia `git clone`, `pip install`, configuração e execução do pipeline automaticamente. Você apenas conversa.

💡 O que acontece por baixo dos panos

1. O OpenClaw lê `RESEARCHCLAW_AGENTS.md` → aprende o papel de orquestrador de pesquisa 2. O OpenClaw lê `README.md` → entende a instalação e estrutura do pipeline 3. O OpenClaw copia `config.researchclaw.example.yaml` → `config.yaml` 4. Solicita sua chave de API do LLM (ou usa sua variável de ambiente) 5. Executa `pip install -e .` + `researchclaw run --topic "..." --auto-approve` 6. Retorna o artigo, LaTeX, experimentos e citações

### 🔌 Bridge OpenClaw (Avançado) Para integração mais profunda, o AutoResearchClaw inclui um **sistema de adaptadores bridge** com 6 capacidades opcionais: ```yaml # config.arc.yaml openclaw_bridge: use_cron: true # ⏰ Execuções de pesquisa agendadas use_message: true # 💬 Notificações de progresso (Discord/Slack/Telegram) use_memory: true # 🧠 Persistência de conhecimento entre sessões use_sessions_spawn: true # 🔀 Criar sub-sessões paralelas para estágios concorrentes use_web_fetch: true # 🌐 Busca web ao vivo durante revisão de literatura use_browser: false # 🖥️ Coleta de artigos baseada em navegador ``` Cada flag ativa um protocolo de adaptador tipado. Quando o OpenClaw fornece essas capacidades, os adaptadores as consomem sem alterações no código. Consulte [`integration-guide.md`](integration-guide.md) para detalhes completos. ### ACP (Agent Client Protocol) O AutoResearchClaw pode usar **qualquer agente de codificação compatível com ACP** como seu backend LLM — sem necessidade de chaves de API. O agente se comunica via [acpx](https://github.com/openclaw/acpx), mantendo uma única sessão persistente ao longo de todos os 23 estágios do pipeline. | Agente | Comando | Notas | |-------|---------|-------| | Claude Code | `claude` | Anthropic | | Codex CLI | `codex` | OpenAI | | Copilot CLI | `gh` | GitHub | | Gemini CLI | `gemini` | Google | | OpenCode | `opencode` | SST | | Kimi CLI | `kimi` | Moonshot | ```yaml # config.yaml — exemplo ACP llm: provider: "acp" acp: agent: "claude" # Qualquer comando CLI de agente compatível com ACP cwd: "." # Diretório de trabalho para o agente # Sem base_url ou api_key necessários — o agente gerencia sua própria autenticação. ``` ```bash # Basta executar — o agente usa suas próprias credenciais researchclaw run --config config.yaml --topic "Your research idea" --auto-approve ``` ### 🛠️ Outras Formas de Executar | Método | Como | |--------|------| | **CLI Independente** | `researchclaw run --topic "..." --auto-approve` (autônomo) ou `--mode co-pilot` (colaborativo) | | **API Python** | `from researchclaw.pipeline import Runner; Runner(config).run()` | | **Claude Code** | Lê `RESEARCHCLAW_CLAUDE.md` — basta dizer *"Execute pesquisa sobre [tópico]"* | | **Copilot CLI** | `researchclaw run --topic "..."` com `llm.acp.agent: "gh"` | | **OpenCode** | Lê `.claude/skills/` — mesma interface em linguagem natural | | **Qualquer CLI de IA** | Forneça `RESEARCHCLAW_AGENTS.md` como contexto → o agente faz bootstrap automaticamente | --- ## 🔬 Pipeline: 23 Estágios, 8 Fases ``` Fase A: Escopo da Pesquisa Fase E: Execução de Experimentos 1. TOPIC_INIT 12. EXPERIMENT_RUN 2. PROBLEM_DECOMPOSE 13. ITERATIVE_REFINE ← auto-reparo Fase B: Descoberta de Literatura Fase F: Análise & Decisão 3. SEARCH_STRATEGY 14. RESULT_ANALYSIS ← multi-agente 4. LITERATURE_COLLECT ← API real 15. RESEARCH_DECISION ← PIVOT/REFINE 5. LITERATURE_SCREEN [gate] 6. KNOWLEDGE_EXTRACT Fase G: Escrita do Artigo 16. PAPER_OUTLINE Fase C: Síntese de Conhecimento 17. PAPER_DRAFT 7. SYNTHESIS 18. PEER_REVIEW ← verif. evidência 8. HYPOTHESIS_GEN ← debate 19. PAPER_REVISION Fase D: Design de Experimentos Fase H: Finalização 9. EXPERIMENT_DESIGN [gate] 20. QUALITY_GATE [gate] 10. CODE_GENERATION 21. KNOWLEDGE_ARCHIVE 11. RESOURCE_PLANNING 22. EXPORT_PUBLISH ← LaTeX 23. CITATION_VERIFY ← verif. relevância ``` > **Estágios gate** (5, 9, 20) pausam para aprovação humana ou aprovam automaticamente com `--auto-approve`. Em caso de rejeição, o pipeline faz rollback. > **Modo Co-Piloto** (`--mode co-pilot`): Colaboração profunda humano-IA nos Estágios 7-8 (Idea Workshop), Estágio 9 (Baseline Navigator) e Estágios 16-17 (Paper Co-Writer). Os outros estágios executam automaticamente com monitoramento SmartPause. > **Loops de decisão**: O Estágio 15 pode acionar REFINE (→ Estágio 13) ou PIVOT (→ Estágio 8), com versionamento automático de artefatos.

📋 O Que Cada Fase Faz

| Fase | O Que Acontece | |------|----------------| | **A: Escopo** | O LLM decompõe o tópico em uma árvore de problemas estruturada com questões de pesquisa | | **A+: Hardware** | Detecta automaticamente GPU (NVIDIA CUDA / Apple MPS / apenas CPU), avisa se o hardware local é limitado, adapta a geração de código adequadamente | | **B: Literatura** | Busca multi-fonte (OpenAlex → Semantic Scholar → arXiv) por artigos reais, triagem por relevância, extração de fichas de conhecimento | | **C: Síntese** | Agrupa descobertas, identifica lacunas de pesquisa, gera hipóteses testáveis via debate multi-agente | | **D: Design** | Projeta plano de experimento, gera Python executável com consciência de hardware (tier de GPU → seleção de pacotes), estima necessidades de recursos | | **E: Execução** | Executa experimentos em sandbox, detecta NaN/Inf e bugs de runtime, auto-repara código via reparo direcionado por LLM | | **F: Análise** | Análise multi-agente dos resultados; decisão autônoma PROCEED / REFINE / PIVOT com justificativa | | **G: Escrita** | Outline → redação seção por seção (5.000-6.500 palavras) → revisão por pares (com consistência metodologia-evidência) → revisão com guarda de tamanho | | **H: Finalização** | Quality gate, arquivamento de conhecimento, exportação LaTeX com template de conferência, verificação de integridade + relevância de citações |

--- ## ✨ Funcionalidades Principais | Funcionalidade | Descrição | |---------|------------| | **📚 Literatura Multi-Fonte** | Artigos reais do OpenAlex, Semantic Scholar & arXiv — expansão de consultas, deduplicação, circuit breaker com degradação graciosa | | **🔍 Verificação de Citações em 4 Camadas** | Verificação de arXiv ID → CrossRef/DataCite DOI → correspondência de título no Semantic Scholar → pontuação de relevância por LLM. Referências alucinadas removidas automaticamente. | | **🖥️ Execução com Consciência de Hardware** | Detecta automaticamente GPU (NVIDIA CUDA / Apple MPS / apenas CPU) e adapta geração de código, imports e escala de experimentos | | **🦾 OpenCode Beast Mode** | Experimentos complexos roteados automaticamente para o [OpenCode](https://github.com/anomalyco/opencode) — gera projetos multi-arquivo com arquiteturas customizadas, loops de treinamento e estudos de ablação. Instale via `researchclaw setup`. | | **🧪 Experimentos em Sandbox** | Código validado por AST, harness imutável, fast-fail para NaN/Inf, reparo auto-reparável, refinamento iterativo (até 10 rodadas), captura de resultados parciais | | **📝 Escrita com Qualidade de Conferência** | Templates NeurIPS/ICML/ICLR, redação seção por seção (5.000-6.500 palavras), guarda anti-fabricação, guarda de tamanho na revisão, imposição anti-disclaimer | | **📐 Troca de Template** | `neurips_2025`, `iclr_2026`, `icml_2026` — Markdown → LaTeX com matemática, tabelas, figuras, referências cruzadas, `\cite{}` | | **🛡️ Anti-Fabricação** | VerifiedRegistry impõe dados experimentais reais nos artigos. Diagnostica automaticamente experimentos falhados e os repara antes da escrita. Números não verificados são sanitizados. | | **🚦 Quality Gates** | 3 gates com human-in-the-loop (Estágios 5, 9, 20) com rollback. Pule com `--auto-approve`. | | **🧑‍✈️ Co-Piloto HITL** | 6 modos de intervenção com políticas por estágio. Idea Workshop, Baseline Navigator, Paper Co-Writer para colaboração profunda. SmartPause, guardrails de custo, políticas de escalação e aprendizado de intervenção para segurança em produção. Adaptadores CLI/WebSocket/MCP. | | **💰 Guardrails de Custo** | Monitoramento de orçamento com alertas de limite configuráveis (50%/80%/100%). O pipeline pausa automaticamente quando o custo excede o orçamento. | | **🔐 Reprodutibilidade** | Checksums SHA256 para todos os artefatos de estágio. Manifestos imutáveis para verificação. Undo multi-nível com snapshots versionados. | --- ## 🧑‍✈️ Co-Piloto Human-in-the-Loop **O AutoResearchClaw v0.4.0 introduz um sistema Human-in-the-Loop (HITL) completo** que transforma o pipeline de puramente autônomo para um motor de pesquisa colaborativa humano-IA. Escolha seu nível de envolvimento: ### Modos de Intervenção | Modo | Comando | O Que Faz | |------|---------|-----------| | **Full Auto** | `--auto-approve` | Comportamento original — sem intervenção humana | | **Gate Only** | `--mode gate-only` | Pausa nos 3 estágios gate (5, 9, 20) para aprovação | | **Checkpoint** | `--mode checkpoint` | Pausa em cada fronteira de fase (8 checkpoints) | | **Co-Pilot** | `--mode co-pilot` | Colaboração profunda em estágios críticos, automático nos demais | | **Step-by-Step** | `--mode step-by-step` | Pausa após cada estágio — aprenda o pipeline | | **Express** | `--mode express` | Revisão rápida — apenas os 3 gates mais críticos | ### Fluxo de Trabalho do Co-Piloto ``` Você: researchclaw run --topic "Ruído quântico como regularização de redes neurais" --mode co-pilot Pipeline executa Estágios 1-7 automaticamente... ┌─────────────────────────────────────────────────────────────┐ │ HITL | Estágio 08: HYPOTHESIS_GEN │ │ Revisão pós-estágio │ │ │ │ Hipóteses mencionadas: 3 │ │ Pontuação de novidade: 0.72 (moderada) │ │ │ │ [a] Aprovar [r] Rejeitar [e] Editar [c] Colaborar │ │ [i] Injetar orientação [v] Ver saída [q] Abortar │ └─────────────────────────────────────────────────────────────┘ Você: c (iniciar chat colaborativo) Você: Hipótese 3 é interessante mas precisa de Dropout/Label Smoothing como baselines IA: Atualizado — adicionei Dropout, Label Smoothing, MixUp, CutMix como baselines... Você: approve Pipeline continua com sua hipótese refinada... ``` ### Comandos CLI ```bash # Iniciar com modo HITL researchclaw run --topic "..." --mode co-pilot # Anexar a um pipeline pausado (de outro terminal) researchclaw attach artifacts/rc-2026-xxx # Verificar status do pipeline e HITL researchclaw status artifacts/rc-2026-xxx # Aprovar/rejeitar de outro terminal ou script researchclaw approve artifacts/rc-2026-xxx --message "LGTM" researchclaw reject artifacts/rc-2026-xxx --reason "Baseline chave faltando" # Injetar orientação para um estágio (mesmo antes de ele executar) researchclaw guide artifacts/rc-2026-xxx --stage 9 --message "Usar ResNet-50 como baseline principal" ``` ### Capacidades Principais | Funcionalidade | Descrição | |---------|------------| | **Idea Workshop** | Brainstorm, avalie e refine hipóteses de forma colaborativa (Estágio 7-8) | | **Baseline Navigator** | IA sugere baselines + humano adiciona/remove + checklist de reprodutibilidade (Estágio 9) | | **Paper Co-Writer** | Redação seção por seção com edição humana e polimento por IA (Estágio 16-19) | | **SmartPause** | Pausa dinâmica baseada em confiança — detecta automaticamente quando a contribuição humana ajudaria | | **Verificação de Afirmações** | Verificação de fatos inline contra a literatura coletada — sinaliza afirmações infundadas | | **Guardrails de Custo** | Monitoramento de orçamento com alertas de limite 50%/80%/100% | | **Aprendizado de Intervenção** | ALHF — aprende com seus padrões de revisão para otimizar futuras decisões de pausa | | **Exploração de Ramificações** | Bifurque o pipeline para explorar múltiplas hipóteses, compare e mescle a melhor | | **Política de Escalação** | Notificação em camadas (terminal → Slack → email → auto-halt) quando desacompanhado | | **3 Adaptadores** | CLI (terminal), WebSocket (dashboard web), MCP (agentes externos) | ### Configuração ```yaml # config.arc.yaml hitl: enabled: true mode: co-pilot # full-auto | gate-only | checkpoint | co-pilot | custom cost_budget_usd: 50.0 # Pausar quando custo exceder orçamento (0 = sem limite) notifications: on_pause: true on_quality_drop: true channels: ["terminal"] # terminal | slack | webhook timeouts: default_human_timeout_sec: 86400 # Espera padrão de 24h auto_proceed_on_timeout: false collaboration: max_chat_turns: 50 save_chat_history: true # Políticas customizadas por estágio (opcional, para modo 'custom') stage_policies: 8: { require_approval: true, enable_collaboration: true } 9: { require_approval: true, allow_edit_output: true } ``` ### Compatibilidade Retroativa - **Padrão: DESATIVADO.** Sem `hitl.enabled: true` ou `--mode`, o pipeline funciona exatamente como antes. - **`--auto-approve` ainda funciona.** Ele sobrescreve o modo HITL. - **Todos os 2.699 testes existentes passam** com o código HITL presente. --- ## 🧠 Integração MetaClaw **AutoResearchClaw + [MetaClaw](https://github.com/aiming-lab/MetaClaw) = Um pipeline que aprende com cada execução.** MetaClaw adiciona **transferência de conhecimento entre execuções** ao AutoResearchClaw. Quando ativado, o pipeline captura automaticamente lições de falhas e avisos, converte-as em habilidades reutilizáveis e injeta essas habilidades em todos os 23 estágios do pipeline em execuções subsequentes — para que os mesmos erros nunca se repitam. ### Como Funciona ``` Run N executa → falhas/avisos capturados como Lessons ↓ MetaClaw Lesson → conversão em Skill ↓ Arquivos arc-* Skill armazenados em ~/.metaclaw/skills/ ↓ Run N+1 → build_overlay() injeta skills em cada prompt LLM ↓ LLM evita armadilhas conhecidas → maior qualidade, menos retentativas ``` ### Configuração Rápida ```bash # 1. Instale o MetaClaw (se ainda não tiver) pip install metaclaw # 2. Ative na sua configuração ``` ```yaml # config.arc.yaml metaclaw_bridge: enabled: true proxy_url: "http://localhost:30000" # Proxy MetaClaw (opcional) skills_dir: "~/.metaclaw/skills" # Onde as skills são armazenadas fallback_url: "https://api.openai.com/v1" # Fallback direto para LLM fallback_api_key: "" # Chave de API para URL de fallback lesson_to_skill: enabled: true min_severity: "warning" # Converte warnings + errors max_skills_per_run: 3 ``` ```bash # 3. Execute normalmente — MetaClaw funciona de forma transparente researchclaw run --config config.arc.yaml --topic "Your idea" --auto-approve ``` Após cada execução, verifique `~/.metaclaw/skills/arc-*/SKILL.md` para ver as skills que seu pipeline aprendeu. ### Resultados dos Experimentos Em experimentos A/B controlados (mesmo tópico, mesmo LLM, mesma configuração): | Métrica | Baseline | Com MetaClaw | Melhoria | |---------|----------|---------------|----------| | Taxa de retentativa por estágio | 10.5% | 7.9% | **-24.8%** | | Contagem de ciclos REFINE | 2.0 | 1.2 | **-40.0%** | | Conclusão de estágios do pipeline | 18/19 | 19/19 | **+5.3%** | | Pontuação de robustez geral (composta) | 0.714 | 0.845 | **+18.3%** | > A pontuação composta de robustez é uma média ponderada da taxa de conclusão de estágios (40%), redução de retentativas (30%) e eficiência de ciclos REFINE (30%). ### Compatibilidade Retroativa - **Padrão: DESATIVADO.** Se `metaclaw_bridge` estiver ausente ou `enabled: false`, o pipeline funciona exatamente como antes. - **Sem novas dependências.** MetaClaw é opcional — o pipeline principal funciona sem ele. - **Todos os 2.699 testes existentes passam** com o código de integração presente. --- ## 🧩 Biblioteca de Skills O AutoResearchClaw agora suporta o carregamento de **skills open-source e customizadas** para aprimorar ainda mais sua experiência de pesquisa. Também incluímos **20 skills integradas pré-carregadas** (escrita científica, busca de literatura, química, biologia e mais) como referências prontas para uso, oferecendo um alto grau de flexibilidade desde o início. Desabilite qualquer skill adicionando `enabled: false` ao seu frontmatter. **Exemplos de skills integradas:** | Categoria | Skill | Descrição | |-----------|-------|-----------| | **Escrita** | `scientific-writing` | Estrutura IMRAD, formatação de citações, diretrizes de relatórios | | **Domínio** | `chemistry-rdkit` | Análise molecular, SMILES, fingerprints, descoberta de fármacos | | **Experimento** | `literature-search` | Revisão sistemática, metodologia PRISMA | > Veja todas as 20 skills com `researchclaw skills list`. ### Carregue Suas Próprias Skills ```bash # Opção 1: Instalar uma skill (persiste entre projetos) researchclaw skills install /path/to/my-skill/ # Opção 2: Coloque um SKILL.md no projeto mkdir -p .claude/skills/my-custom-skill # Depois crie um SKILL.md com frontmatter YAML (name, description, trigger-keywords, applicable-stages) # Opção 3: Configure diretórios compartilhados de skills no config.arc.yaml # skills: # custom_dirs: # - /path/to/team-shared-skills ``` ### Usando Skills Skills são carregadas e injetadas nos prompts LLM automaticamente — sem ativação manual necessária. Use o CLI para inspecionar: ```bash researchclaw skills list # Mostra todas as skills carregadas com fontes researchclaw skills validate ./my-skill # Verifica formato do SKILL.md ``` Explore skills da comunidade: [K-Dense-AI/claude-scientific-skills](https://github.com/K-Dense-AI/claude-scientific-skills) (150+ skills científicas em múltiplas disciplinas). --- ## ⚙️ Referência de Configuração

Clique para expandir a referência completa de configuração

```yaml # === Projeto === project: name: "my-research" # Identificador do projeto mode: "docs-first" # docs-first | semi-auto | full-auto # === Pesquisa === research: topic: "..." # Tópico de pesquisa (obrigatório) domains: ["ml", "nlp"] # Domínios de pesquisa para busca de literatura daily_paper_count: 8 # Artigos alvo por consulta de busca quality_threshold: 4.0 # Pontuação mínima de qualidade para artigos # === Runtime === runtime: timezone: "America/New_York" # Para timestamps max_parallel_tasks: 3 # Limite de experimentos concorrentes approval_timeout_hours: 12 # Timeout de estágios gate retry_limit: 2 # Contagem de retentativas em falha de estágio # === LLM === llm: provider: "openai-compatible" # openai | openrouter | deepseek | minimax | acp | openai-compatible base_url: "https://..." # Endpoint da API (obrigatório para openai-compatible) api_key_env: "OPENAI_API_KEY" # Variável de ambiente para chave da API (obrigatório para openai-compatible) api_key: "" # Ou insira a chave diretamente aqui primary_model: "gpt-4o" # Modelo primário fallback_models: ["gpt-4o-mini"] # Cadeia de fallback s2_api_key: "" # Chave API do Semantic Scholar (opcional, limites de taxa maiores) acp: # Usado apenas quando provider: "acp" agent: "claude" # Comando CLI do agente ACP (claude, codex, gemini, etc.) cwd: "." # Diretório de trabalho para o agente # === Experimento === experiment: mode: "sandbox" # simulated | sandbox | docker | ssh_remote time_budget_sec: 300 # Tempo máximo de execução por run (padrão: 300s) max_iterations: 10 # Máximo de iterações de otimização metric_key: "val_loss" # Nome da métrica primária metric_direction: "minimize" # minimize | maximize sandbox: python_path: ".venv/bin/python" gpu_required: false allowed_imports: [math, random, json, csv, numpy, torch, sklearn] max_memory_mb: 4096 docker: image: "researchclaw/experiment:latest" network_policy: "setup_only" # none | setup_only | pip_only | full gpu_enabled: true memory_limit_mb: 8192 auto_install_deps: true # Detecção automática de imports → requirements.txt ssh_remote: host: "" # Hostname do servidor GPU gpu_ids: [] # IDs de GPU disponíveis remote_workdir: "/tmp/researchclaw_experiments" opencode: # OpenCode Beast Mode (auto-instalado via `researchclaw setup`) enabled: true # Interruptor principal (padrão: true) auto: true # Acionamento automático sem confirmação (padrão: true) complexity_threshold: 0.2 # 0.0-1.0 — maior = só aciona em experimentos complexos model: "" # Modelo override (vazio = usa llm.primary_model) timeout_sec: 600 # Máximo de segundos para geração OpenCode max_retries: 1 # Contagem de retentativas em falha workspace_cleanup: true # Remove workspace temporário após coleta code_agent: # CodeAgent v2 — geração de código multi-fase enabled: true # Usar CodeAgent em vez da geração legada de prompt único architecture_planning: true # Gerar blueprint detalhado de implementação antes de codificar sequential_generation: true # Gerar arquivos um a um seguindo o DAG de dependências hard_validation: true # Validação baseada em AST (bloqueia ablações idênticas, métricas hardcoded) hard_validation_max_repairs: 2 # Máximo de tentativas de reparo quando validação falha exec_fix_max_iterations: 3 # Tentativas de correção na execução exec_fix_timeout_sec: 60 # Timeout por tentativa de correção benchmark_agent: # BenchmarkAgent — seleção automatizada de datasets e baselines enabled: true # Ativar pipeline de 4 agentes (Surveyor→Selector→Acquirer→Validator) enable_hf_search: true # Buscar em HuggingFace Datasets enable_web_search: true # Buscar benchmarks no Google Scholar tier_limit: 2 # Filtragem de tier de datasets (1=pequeno/cache, 2=médio, 3=grande) min_benchmarks: 1 # Mínimo de datasets necessários min_baselines: 2 # Mínimo de métodos baseline necessários figure_agent: # FigureAgent — geração de figuras acadêmicas enabled: true # Ativar pipeline de 5 agentes (Planner→CodeGen→Renderer→Critic→Integrator) min_figures: 3 # Mínimo de figuras a gerar max_figures: 8 # Máximo de figuras max_iterations: 3 # Iterações de refinamento via Critic dpi: 300 # Resolução de saída strict_mode: false # Falhar pipeline se geração de figuras falhar repair: # Anti-fabricação — reparo de experimentos enabled: true # Auto-diagnosticar e reparar experimentos falhados max_cycles: 3 # Ciclos de reparo min_completion_rate: 0.5 # >=50% das condições devem completar para prosseguir min_conditions: 2 # Mínimo de 2 condições para experimento válido use_opencode: true # Rotear reparos pelo OpenCode Beast Mode # === Busca Web (Opcional) === web_search: enabled: true # Ativar busca de literatura com web tavily_api_key_env: "TAVILY_API_KEY" # Variável de ambiente para chave Tavily API (opcional) enable_scholar: true # Busca no Google Scholar enable_pdf_extraction: true # Extrair texto de PDFs max_web_results: 10 # Máximo de resultados web por consulta # === Exportação === export: target_conference: "neurips_2025" # neurips_2025 | iclr_2026 | icml_2026 authors: "Anonymous" bib_file: "references" # === Prompts === prompts: custom_file: "" # Caminho para YAML de prompts customizados (vazio = padrões) # === Co-Piloto HITL (NOVO no v0.4.0) === hitl: enabled: false # Defina como true para ativar HITL mode: co-pilot # full-auto | gate-only | checkpoint | step-by-step | co-pilot | custom cost_budget_usd: 0.0 # Limite de custo em USD (0 = sem limite) notifications: on_pause: true # Notificar quando o pipeline pausar on_quality_drop: true # Notificar em problemas de qualidade channels: ["terminal"] # terminal | slack | webhook timeouts: default_human_timeout_sec: 86400 # Esperar até 24h por entrada humana auto_proceed_on_timeout: false # Se true, auto-aprovar no timeout collaboration: max_chat_turns: 50 # Máximo de turnos por sessão de colaboração save_chat_history: true # Persistir logs de chat stage_policies: {} # Overrides por estágio (para modo 'custom') # === Segurança === security: hitl_required_stages: [5, 9, 20] # Estágios que requerem aprovação humana allow_publish_without_approval: false redact_sensitive_logs: true # === Base de Conhecimento === knowledge_base: backend: "markdown" # markdown | obsidian root: "docs/kb" # === Notificações === notifications: channel: "console" # console | discord | slack target: "" # === MetaClaw Bridge (Opcional) === metaclaw_bridge: enabled: false # Defina como true para ativar aprendizado entre execuções proxy_url: "http://localhost:30000" # URL do proxy MetaClaw skills_dir: "~/.metaclaw/skills" # Onde as skills arc-* são armazenadas fallback_url: "" # Fallback direto para LLM quando o proxy está fora fallback_api_key: "" # Chave de API para endpoint de fallback lesson_to_skill: enabled: true # Auto-converter lições em skills min_severity: "warning" # Severidade mínima para converter max_skills_per_run: 3 # Máximo de novas skills por execução do pipeline prm: # Process Reward Model quality gate (opcional) enabled: false # Usar LLM-as-judge para pontuar saídas de estágio model: "gpt-5.4" # Modelo juiz PRM votes: 3 # Contagem de votos por maioria gate_stages: [5, 9, 15, 20] # Estágios onde aplicar gates PRM # === Bridge OpenClaw === openclaw_bridge: use_cron: false # Execuções de pesquisa agendadas use_message: false # Notificações de progresso use_memory: false # Persistência de conhecimento entre sessões use_sessions_spawn: false # Criar sub-sessões paralelas use_web_fetch: false # Busca web ao vivo use_browser: false # Coleta de artigos baseada em navegador ```

--- ## 🙏 Agradecimentos Inspirado por: - 🔬 [AI Scientist](https://github.com/SakanaAI/AI-Scientist) (Sakana AI) — Pioneiro em pesquisa automatizada - 🧠 [AutoResearch](https://github.com/karpathy/autoresearch) (Andrej Karpathy) — Automação de pesquisa de ponta a ponta - 🌐 [FARS](https://analemma.ai/blog/introducing-fars/) (Analemma) — Fully Automated Research System --- ## 📄 Licença MIT — veja [LICENSE](../LICENSE) para detalhes. --- ## 📌 Citação Se você achar o AutoResearchClaw útil, por favor cite: ```bibtex @misc{liu2026autoresearchclawselfreinforcingautonomousresearch, title={AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration}, author={Jiaqi Liu and Shi Qiu and Mairui Li and Bingzhou Li and Haonian Ji and Siwei Han and Xinyu Ye and Peng Xia and Zihan Dong and Congyu Zhang and Letian Zhang and Guiming Chen and Haoqin Tu and Xinyu Yang and Lu Feng and Xujiang Zhao and Haifeng Chen and Jiawei Zhou and Xiao Wang and Weitong Zhang and Hongtu Zhu and Yun Li and Jieru Mei and Hongliang Fei and Jiaheng Zhang and Linjie Li and Linjun Zhang and Yuyin Zhou and Sheng Wang and Caiming Xiong and James Zou and Zeyu Zheng and Cihang Xie and Mingyu Ding and Huaxiu Yao}, year={2026}, eprint={2605.20025}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2605.20025}, } ```

_{Construído com 🦞 pela equipe AutoResearchClaw}