Discutez une idee. Obtenez un article. Autonome, Collaboratif & Auto-evolutif.
Discutez avec OpenClaw : "Recherche X" β termine.
π Notre article est sur arXiv β venez le lire ! AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration
πΊπΈ English Β·
π¨π³ δΈζ Β·
π―π΅ ζ₯ζ¬θͺ Β·
π°π· νκ΅μ΄ Β·
π«π· FranΓ§ais Β·
π©πͺ Deutsch Β·
πͺπΈ EspaΓ±ol Β·
π§π· PortuguΓͺs Β·
π·πΊ Π ΡΡΡΠΊΠΈΠΉ Β·
πΈπ¦ Ψ§ΩΨΉΨ±Ψ¨ΩΨ©
π Vitrine des articles Β· π§ββοΈ Guide Co-Pilote Β· π Guide d'integration Β· π¬ Communaute Discord
---
|
π Vitrine des articles generes
8 articles couvrant 8 domaines β mathematiques, statistiques, biologie, informatique, NLP, RL, vision, robustesse β generes de maniere entierement autonome ou avec guidage co-pilote Human-in-the-Loop.
|
---
> **π§ͺ Nous recherchons des testeurs !** Essayez le pipeline avec votre propre idee de recherche β dans n'importe quel domaine β et [dites-nous ce que vous en pensez](TESTER_GUIDE.md). Vos retours faconnent directement la prochaine version. **[β Testing Guide](TESTER_GUIDE.md)** | **[β δΈζζ΅θ―ζε](TESTER_GUIDE_CN.md)** | **[β ζ₯ζ¬θͺγγΉγγ¬γ€γ](TESTER_GUIDE_JA.md)**
---
## π₯ News
- **[05/19/2026]** **v0.5.0** β **Agents d'experience multi-domaines + ARC-Bench** β Deux mises a jour majeures. **(1) Agents d'execution specialises par domaine :** l'etape d'experience (etapes 10 a 13) ne se limite plus au bac a sable ML par defaut et s'oriente vers des agents specialises selon le domaine β **physique des hautes energies** (ColliderAgent : FeynRules β MadGraph5 β Delphes via le cloud Magnus), **biologie** (modelisation metabolique a l'echelle du genome avec COBRApy) et **statistiques** (agent d'etudes de simulation), avec un executeur Docker generique pour la chimie/les materiaux. Le pipeline selectionne automatiquement le bon executeur selon le domaine. **(2) ARC-Bench :** un benchmark de recherche autonome ouvert de **55 sujets** couvrant **ML (25), physique des hautes energies (10), quantique (10), biologie (7) et statistiques (3)**, chacun fourni avec un manifeste et une grille de notation (`experiments/arc_bench/`, et aussi sur [π€ Hugging Face](https://huggingface.co/datasets/AIMING-Lab-UNC/ARC-Bench)). **[β Guide d'integration des domaines](DOMAIN_INTEGRATION_GUIDE.md)**
- **[04/01/2026]** **v0.4.0** β **Systeme Co-Pilote Human-in-the-Loop** β AutoResearchClaw n'est plus purement autonome. Le nouveau systeme HITL ajoute 6 modes d'intervention (`full-auto`, `gate-only`, `checkpoint`, `step-by-step`, `co-pilot`, `custom`), des politiques par etape, et une collaboration profonde humain-IA. Inclut : Atelier d'Idees pour la co-creation d'hypotheses, Navigateur de References pour la revue de conception experimentale, Co-Redacteur d'Article pour la redaction collaborative, SmartPause (intervention dynamique guidee par la confiance), apprentissage d'intervention ALHF, verification anti-hallucination des affirmations, garde-fous de budget, ramification du pipeline pour l'exploration parallele d'hypotheses, et commandes CLI (`attach`/`status`/`approve`/`reject`/`guide`). **[β Guide HITL complet](HITL_GUIDE.md)**
- **[03/30/2026]** **Chargement flexible de competences** β AutoResearchClaw supporte desormais le chargement de competences open-source et personnalisees depuis n'importe quelle discipline pour enrichir votre experience de recherche. 20 competences pre-chargees sont incluses comme references pretes a l'emploi, couvrant la redaction scientifique, la conception experimentale, la chimie, la biologie, et plus encore β incluant une competence d'evolution agentique [A-Evolve](https://github.com/A-EVO-Lab/a-evolve) contribuee par la communaute. Chargez les votres via `researchclaw skills install` ou deposez un `SKILL.md` dans `.claude/skills/`. Voir [Bibliotheque de competences](#-bibliotheque-de-competences).
- **[03/22/2026]** [v0.3.2](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.3.2) β **Support multiplateforme + stabilite majeure** β AutoResearchClaw fonctionne desormais avec tout agent compatible ACP (Claude Code, Codex CLI, Copilot CLI, Gemini CLI, Kimi CLI) et supporte les plateformes de messagerie (Discord, Telegram, Lark, WeChat) via le pont OpenClaw. Nouveau backend de generation de code CLI-agent qui delegue les Stages 10 et 13 a des agents CLI externes avec controle de budget et gestion des timeouts. Inclut le systeme anti-fabrication (VerifiedRegistry + boucle diagnostic/reparation), 100+ corrections de bugs, refactoring modulaire de l'executor, auto-detection `--resume`, renforcement des retries LLM, et corrections communautaires.
Versions antΓ©rieures
- **[03/18/2026]** [v0.3.1](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.3.1) β **OpenCode Beast Mode + Community Contributions** β New "Beast Mode" routes complex code generation to [OpenCode](https://github.com/anomalyco/opencode) with automatic complexity scoring and graceful fallback. Added Novita AI provider support, thread-safety hardening, improved LLM output parsing robustness, and 20+ bug fixes from community PRs and internal audit.
- **[03/17/2026]** [v0.3.0](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.3.0) β **MetaClaw Integration** β AutoResearchClaw now supports [MetaClaw](https://github.com/aiming-lab/MetaClaw) cross-run learning: pipeline failures β structured lessons β reusable skills, injected into all 23 stages. **+18.3%** robustness in controlled experiments. Opt-in (`metaclaw_bridge.enabled: true`), fully backward-compatible. See [Integration Guide](#-integration-metaclaw).
- **[03/16/2026]** [v0.2.0](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.2.0) β Three multi-agent subsystems (CodeAgent, BenchmarkAgent, FigureAgent), hardened Docker sandbox with network-policy-aware execution, 4-round paper quality audit (AI-slop detection, 7-dim review scoring, NeurIPS checklist), and 15+ bug fixes from production runs.
- **[03/15/2026]** [v0.1.0](https://github.com/aiming-lab/AutoResearchClaw/releases/tag/v0.1.0) β We release AutoResearchClaw: a fully autonomous 23-stage research pipeline that turns a single research idea into a conference-ready paper. No human intervention required.
---
## β‘ Une commande. Un article.
```bash
# Entierement autonome β aucune intervention humaine
pip install -e . && researchclaw setup && researchclaw init && researchclaw run --topic "Your research idea here" --auto-approve
# Mode Co-Pilote β collaborez avec l'IA aux points de decision cles
researchclaw run --topic "Your research idea here" --mode co-pilot
```
---
## π€ De quoi s'agit-il ?
**Vous y pensez. AutoResearchClaw l'ecrit. Vous guidez les decisions cles.**
Donnez un sujet de recherche β recevez un article academique complet avec de la vraie litterature provenant d'OpenAlex, Semantic Scholar et arXiv, des experiences en sandbox adaptees au materiel (detection automatique GPU/MPS/CPU), une analyse statistique, une relecture multi-agents, et du LaTeX pret pour les conferences ciblant NeurIPS/ICML/ICLR. Executez-le en mode entierement autonome, ou utilisez le **mode Co-Pilote** pour guider l'IA aux points de decision critiques β choisissez les directions de recherche, revisez les conceptions experimentales, et co-redigez l'article. Aucune reference hallucinee.
| π | paper_draft.md | Article academique complet (Introduction, Travaux connexes, Methode, Experiences, Resultats, Conclusion) |
| π | paper.tex | LaTeX pret pour les conferences (templates NeurIPS / ICLR / ICML) |
| π | references.bib | References BibTeX reelles provenant d'OpenAlex, Semantic Scholar et arXiv β auto-elaguees pour correspondre aux citations dans le texte |
| π | verification_report.json | Verification d'integrite et de pertinence des citations sur 4 couches (arXiv, CrossRef, DataCite, LLM) |
| π§ͺ | experiment runs/ | Code genere + resultats sandbox + metriques JSON structurees |
| π | charts/ | Graphiques de comparaison de conditions auto-generes avec barres d'erreur et intervalles de confiance |
| π | reviews.md | Relecture multi-agents avec verification de coherence methodologie-preuves |
| 𧬠| evolution/ | Lecons d'auto-apprentissage extraites de chaque execution |
| π¦ | deliverables/ | Tous les livrables finaux dans un seul dossier β pret a compiler pour Overleaf |
Le pipeline s'execute **de bout en bout** β entierement autonome ou avec collaboration human-in-the-loop. Quand les experiences echouent, il s'auto-repare. Quand les hypotheses ne tiennent pas, il pivote. Quand les citations sont fausses, il les supprime. Quand vous voulez intervenir, il se met en pause et ecoute.
π **Utilisable partout.** AutoResearchClaw n'est pas verrouille sur une seule plateforme. Utilisez-le en CLI autonome, connectez-le a [OpenClaw](https://github.com/openclaw/openclaw), ou integrez-le avec n'importe quel agent compatible ACP β π€ Claude Code, π» Codex CLI, π Copilot CLI, β Gemini CLI, π Kimi CLI, et bien d'autres. Grace au pont de messagerie d'OpenClaw, vous pouvez lancer une recherche complete depuis π¬ Discord, βοΈ Telegram, π¦ Lark (ι£δΉ¦), π WeChat, ou la plateforme que votre equipe utilise deja. Un sujet en entree, un article en sortie β peu importe d'ou vous l'envoyez.
---
## π Demarrage rapide
```bash
# 1. Cloner & installer
git clone https://github.com/aiming-lab/AutoResearchClaw.git
cd AutoResearchClaw
python3 -m venv .venv && source .venv/bin/activate
pip install -e .
# 2. Setup (interactif β installe OpenCode beast mode, verifie Docker/LaTeX)
researchclaw setup
# 3. Configurer
researchclaw init # Interactif : choisir le fournisseur LLM, cree config.arc.yaml
# Ou manuellement : cp config.researchclaw.example.yaml config.arc.yaml
# 4. Executer
export OPENAI_API_KEY="sk-..."
researchclaw run --config config.arc.yaml --topic "Your research idea" --auto-approve
```
Sortie β `artifacts/rc-YYYYMMDD-HHMMSS-/deliverables/` β LaTeX pret a compiler, BibTeX, code d'experience, graphiques.
π Configuration minimale requise
```yaml
project:
name: "my-research"
research:
topic: "Your research topic here"
llm:
base_url: "https://api.openai.com/v1"
api_key_env: "OPENAI_API_KEY"
primary_model: "gpt-4o"
fallback_models: ["gpt-4o-mini"]
experiment:
mode: "sandbox"
sandbox:
python_path: ".venv/bin/python"
```
---
## π§ Ce qui le distingue
| Capacite | Fonctionnement |
|----------|---------------|
| **π§ββοΈ Mode Co-Pilote** | 6 modes d'intervention β du mode entierement autonome au pas-a-pas. Guidez l'IA aux decisions critiques (hypotheses, references, redaction) ou laissez-la faire. SmartPause detecte automatiquement quand une intervention humaine serait utile. |
| **π Boucle PIVOT / REFINE** | L'etape 15 decide de maniere autonome : PROCEED, REFINE (ajuster les parametres) ou PIVOT (nouvelle direction). Artefacts auto-versionnes. |
| **π€ Debat multi-agents** | La generation d'hypotheses, l'analyse de resultats et la relecture par les pairs utilisent chacune un debat structure multi-perspectives. |
| **𧬠Auto-apprentissage** | Lecons extraites a chaque execution (justification des decisions, avertissements d'execution, anomalies de metriques) avec decroissance temporelle a 30 jours. Les executions futures apprennent des erreurs passees. |
| **π Base de connaissances** | Chaque execution construit une KB structuree couvrant 6 categories (decisions, experiences, resultats, litterature, questions, relectures). |
| **π‘οΈ Sentinel Watchdog** | Moniteur de qualite en arriere-plan : detection NaN/Inf, coherence article-preuves, score de pertinence des citations, protection anti-fabrication. |
| **π Verification des affirmations** | Verification factuelle en ligne : extrait les affirmations du texte genere par l'IA et les recoupe avec la litterature collectee. Signale les citations non fondees et les chiffres fabriques. |
| **πΏ Exploration par ramification** | Dupliquez le pipeline pour explorer plusieurs directions de recherche simultanement, comparez les resultats cote a cote, et fusionnez le meilleur chemin. |
---
## π¦ Integration OpenClaw
**AutoResearchClaw est un service compatible [OpenClaw](https://github.com/openclaw/openclaw).** Installez-le dans OpenClaw et lancez une recherche autonome avec un seul message β ou utilisez-le de maniere autonome via CLI, Claude Code, ou tout assistant de codage IA.
### π Utilisation avec OpenClaw (recommande)
Si vous utilisez deja [OpenClaw](https://github.com/openclaw/openclaw) comme assistant IA :
```
1οΈβ£ Partagez l'URL du depot GitHub avec OpenClaw
2οΈβ£ OpenClaw lit automatiquement RESEARCHCLAW_AGENTS.md β comprend le pipeline
3οΈβ£ Dites : "Research [votre sujet]"
4οΈβ£ C'est fait β OpenClaw clone, installe, configure, execute et renvoie les resultats
```
**C'est tout.** OpenClaw gere `git clone`, `pip install`, la configuration et l'execution du pipeline automatiquement. Vous n'avez qu'a discuter.
π‘ Ce qui se passe en coulisses
1. OpenClaw lit `RESEARCHCLAW_AGENTS.md` β apprend le role d'orchestrateur de recherche
2. OpenClaw lit `README.md` β comprend l'installation et la structure du pipeline
3. OpenClaw copie `config.researchclaw.example.yaml` β `config.yaml`
4. Demande votre cle API LLM (ou utilise votre variable d'environnement)
5. Execute `pip install -e .` + `researchclaw run --topic "..." --auto-approve`
6. Renvoie l'article, le LaTeX, les experiences et les citations
### π Pont OpenClaw (avance)
Pour une integration plus poussee, AutoResearchClaw inclut un **systeme d'adaptateurs pont** avec 6 fonctionnalites optionnelles :
```yaml
# config.arc.yaml
openclaw_bridge:
use_cron: true # β° Executions de recherche planifiees
use_message: true # π¬ Notifications de progression (Discord/Slack/Telegram)
use_memory: true # π§ Persistance des connaissances inter-sessions
use_sessions_spawn: true # π Lancement de sous-sessions paralleles pour les etapes concurrentes
use_web_fetch: true # π Recherche web en direct pendant la revue de litterature
use_browser: false # π₯οΈ Collecte d'articles via navigateur
```
Chaque option active un protocole d'adaptateur type. Quand OpenClaw fournit ces fonctionnalites, les adaptateurs les consomment sans modification de code. Voir [`integration-guide.md`](integration-guide.md) pour tous les details.
### ACP (Agent Client Protocol)
AutoResearchClaw peut utiliser **n'importe quel agent de codage compatible ACP** comme backend LLM β sans cle API requise. L'agent communique via [acpx](https://github.com/openclaw/acpx), en maintenant une session persistante unique a travers les 23 etapes du pipeline.
| Agent | Commande | Notes |
|-------|----------|-------|
| Claude Code | `claude` | Anthropic |
| Codex CLI | `codex` | OpenAI |
| Copilot CLI | `gh` | GitHub |
| Gemini CLI | `gemini` | Google |
| OpenCode | `opencode` | SST |
| Kimi CLI | `kimi` | Moonshot |
```yaml
# config.yaml β exemple ACP
llm:
provider: "acp"
acp:
agent: "claude" # N'importe quel agent CLI compatible ACP
cwd: "." # Repertoire de travail pour l'agent
# Pas besoin de base_url ou api_key β l'agent gere sa propre authentification.
```
```bash
# Executez simplement β l'agent utilise ses propres identifiants
researchclaw run --config config.yaml --topic "Your research idea" --auto-approve
```
### π οΈ Autres methodes d'execution
| Methode | Comment |
|---------|---------|
| **CLI autonome** | `researchclaw run --topic "..." --auto-approve` (autonome) ou `--mode co-pilot` (collaboratif) |
| **API Python** | `from researchclaw.pipeline import Runner; Runner(config).run()` |
| **Claude Code** | Lit `RESEARCHCLAW_CLAUDE.md` β dites simplement *"Run research on [sujet]"* |
| **Copilot CLI** | `researchclaw run --topic "..."` avec `llm.acp.agent: "gh"` |
| **OpenCode** | Lit `.claude/skills/` β meme interface en langage naturel |
| **Tout CLI IA** | Fournissez `RESEARCHCLAW_AGENTS.md` comme contexte β l'agent s'auto-initialise |
---
## π¬ Pipeline : 23 etapes, 8 phases
```
Phase A : Cadrage de la recherche Phase E : Execution des experiences
1. TOPIC_INIT 12. EXPERIMENT_RUN
2. PROBLEM_DECOMPOSE 13. ITERATIVE_REFINE β auto-reparation
Phase B : Decouverte de litterature Phase F : Analyse et decision
3. SEARCH_STRATEGY 14. RESULT_ANALYSIS β multi-agents
4. LITERATURE_COLLECT β API reelle 15. RESEARCH_DECISION β PIVOT/REFINE
5. LITERATURE_SCREEN [porte]
6. KNOWLEDGE_EXTRACT Phase G : Redaction de l'article
16. PAPER_OUTLINE
Phase C : Synthese des connaissances 17. PAPER_DRAFT
7. SYNTHESIS 18. PEER_REVIEW β verif. preuves
8. HYPOTHESIS_GEN β debat 19. PAPER_REVISION
Phase D : Conception experimentale Phase H : Finalisation
9. EXPERIMENT_DESIGN [porte] 20. QUALITY_GATE [porte]
10. CODE_GENERATION 21. KNOWLEDGE_ARCHIVE
11. RESOURCE_PLANNING 22. EXPORT_PUBLISH β LaTeX
23. CITATION_VERIFY β verif. pertinence
```
> **Etapes de validation** (5, 9, 20) : pause pour approbation humaine ou approbation automatique avec `--auto-approve`. En cas de rejet, le pipeline revient en arriere.
> **Mode Co-Pilote** (`--mode co-pilot`) : Collaboration profonde humain-IA aux etapes 7-8 (Atelier d'Idees), etape 9 (Navigateur de References), et etapes 16-17 (Co-Redacteur d'Article). Les autres etapes s'executent automatiquement avec surveillance SmartPause.
> **Boucles de decision** : l'etape 15 peut declencher REFINE (β etape 13) ou PIVOT (β etape 8), avec versionnement automatique des artefacts.
π Ce que fait chaque phase
| Phase | Ce qui se passe |
|-------|-----------------|
| **A : Cadrage** | Le LLM decompose le sujet en un arbre de problemes structure avec des questions de recherche |
| **A+ : Materiel** | Detection automatique du GPU (NVIDIA CUDA / Apple MPS / CPU uniquement), avertissement si le materiel local est limite, adaptation de la generation de code en consequence |
| **B : Litterature** | Recherche multi-sources (OpenAlex β Semantic Scholar β arXiv) de vrais articles, filtrage par pertinence, extraction de fiches de connaissances |
| **C : Synthese** | Regroupement des resultats, identification des lacunes de recherche, generation d'hypotheses testables via debat multi-agents |
| **D : Conception** | Conception du plan experimental, generation de Python executable adapte au materiel (niveau GPU β selection de packages), estimation des besoins en ressources |
| **E : Execution** | Execution des experiences en sandbox, detection de NaN/Inf et bugs d'execution, auto-reparation du code via reparation ciblee par LLM |
| **F : Analyse** | Analyse multi-agents des resultats ; decision autonome PROCEED / REFINE / PIVOT avec justification |
| **G : Redaction** | Plan β redaction section par section (5 000-6 500 mots) β relecture (avec verification de coherence methodologie-preuves) β revision avec controle de longueur |
| **H : Finalisation** | Porte qualite, archivage des connaissances, export LaTeX avec template de conference, verification d'integrite et de pertinence des citations |
---
## β¨ Fonctionnalites cles
| Fonctionnalite | Description |
|----------------|------------|
| **π Litterature multi-sources** | Vrais articles depuis OpenAlex, Semantic Scholar et arXiv β expansion de requetes, deduplication, disjoncteur avec degradation gracieuse |
| **π Verification des citations en 4 couches** | Verification arXiv ID β DOI CrossRef/DataCite β correspondance de titre Semantic Scholar β score de pertinence LLM. References hallucinΓ©es auto-supprimees. |
| **π₯οΈ Execution adaptee au materiel** | Detection automatique du GPU (NVIDIA CUDA / Apple MPS / CPU uniquement) et adaptation de la generation de code, des imports et de l'echelle experimentale |
| **π¦Ύ OpenCode Beast Mode** | Les experiences complexes sont automatiquement dirigees vers [OpenCode](https://github.com/anomalyco/opencode) β genere des projets multi-fichiers avec architectures personnalisees, boucles d'entrainement et etudes d'ablation. Installation via `researchclaw setup`. |
| **π§ͺ Experiences en sandbox** | Code valide par AST, harnais immuable, echec rapide NaN/Inf, reparation auto-guerison, raffinement iteratif (jusqu'a 10 tours), capture de resultats partiels |
| **π Redaction de qualite conference** | Templates NeurIPS/ICML/ICLR, redaction section par section (5 000-6 500 mots), protection anti-fabrication, controle de longueur en revision, application anti-clause de non-responsabilite |
| **π Changement de template** | `neurips_2025`, `iclr_2026`, `icml_2026` β Markdown β LaTeX avec formules, tableaux, figures, references croisees, `\cite{}` |
| **π‘οΈ Anti-fabrication** | VerifiedRegistry impose les donnees experimentales de verite terrain dans les articles. Diagnostic automatique des experiences echouees et reparation avant la redaction. Chiffres non verifies assainis. |
| **π¦ Portes qualite** | 3 portes human-in-the-loop (etapes 5, 9, 20) avec retour en arriere. A passer avec `--auto-approve`. |
| **π§ββοΈ Co-Pilote HITL** | 6 modes d'intervention avec politiques par etape. Atelier d'Idees, Navigateur de References, Co-Redacteur d'Article pour une collaboration approfondie. SmartPause, garde-fous de budget, politiques d'escalade et apprentissage d'intervention pour la securite en production. Adaptateurs CLI/WebSocket/MCP. |
| **π° Garde-fous de budget** | Surveillance des couts avec alertes a seuils configurables (50%/80%/100%). Le pipeline se met automatiquement en pause lorsque le cout depasse le budget. |
| **π Reproductibilite** | Checksums SHA256 pour tous les artefacts d'etape. Manifestes immuables pour la verification. Annulation multi-niveaux avec snapshots versionnes. |
---
## π§ββοΈ Co-Pilote Human-in-the-Loop
**AutoResearchClaw v0.4.0 introduit un systeme complet Human-in-the-Loop (HITL)** qui transforme le pipeline d'un mode purement autonome en un moteur de recherche collaboratif humain-IA. Choisissez votre niveau d'implication :
### Modes d'intervention
| Mode | Commande | Description |
|------|----------|------------|
| **Full Auto** | `--auto-approve` | Comportement original β aucune intervention humaine |
| **Gate Only** | `--mode gate-only` | Pause aux 3 etapes de validation (5, 9, 20) pour approbation |
| **Checkpoint** | `--mode checkpoint` | Pause a chaque frontiere de phase (8 checkpoints) |
| **Co-Pilot** | `--mode co-pilot` | Collaboration approfondie aux etapes critiques, auto ailleurs |
| **Step-by-Step** | `--mode step-by-step` | Pause apres chaque etape β pour decouvrir le pipeline |
| **Express** | `--mode express` | Revue rapide β seulement les 3 portes les plus critiques |
### Flux de travail Co-Pilote
```
You: researchclaw run --topic "Quantum noise as neural network regularization" --mode co-pilot
Le pipeline execute les etapes 1-7 automatiquement...
βββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββ
β HITL | Stage 08: HYPOTHESIS_GEN β
β Revue post-etape β
β β
β Hypotheses mentionnees : 3 β
β Score de nouveaute : 0.72 (modere) β
β β
β [a] Approuver [r] Rejeter [e] Editer [c] Collaborer β
β [i] Injecter un guidage [v] Voir la sortie [q] Annuler β
βββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββββ
You: c (demarrer un chat collaboratif)
You: L'hypothese 3 est interessante mais il faut Dropout/Label Smoothing comme references
AI: Mis a jour β ajout de Dropout, Label Smoothing, MixUp, CutMix comme references...
You: approve
Le pipeline continue avec votre hypothese affinee...
```
### Commandes CLI
```bash
# Demarrer en mode HITL
researchclaw run --topic "..." --mode co-pilot
# S'attacher a un pipeline en pause (depuis un autre terminal)
researchclaw attach artifacts/rc-2026-xxx
# Verifier l'etat du pipeline et du HITL
researchclaw status artifacts/rc-2026-xxx
# Approuver/rejeter depuis un autre terminal ou script
researchclaw approve artifacts/rc-2026-xxx --message "LGTM"
researchclaw reject artifacts/rc-2026-xxx --reason "Reference cle manquante"
# Injecter un guidage pour une etape (meme avant son execution)
researchclaw guide artifacts/rc-2026-xxx --stage 9 --message "Utiliser ResNet-50 comme reference principale"
```
### Capacites cles
| Fonctionnalite | Description |
|----------------|------------|
| **Atelier d'Idees** | Brainstorming, evaluation et affinement collaboratif des hypotheses (etapes 7-8) |
| **Navigateur de References** | L'IA suggere des references + l'humain ajoute/supprime + checklist de reproductibilite (etape 9) |
| **Co-Redacteur d'Article** | Redaction section par section avec edition humaine et polissage IA (etapes 16-19) |
| **SmartPause** | Pause dynamique guidee par la confiance β detecte automatiquement quand une intervention humaine serait utile |
| **Verification des affirmations** | Verification factuelle en ligne contre la litterature collectee β signale les affirmations non fondees |
| **Garde-fous de budget** | Surveillance des couts avec alertes a seuils 50%/80%/100% |
| **Apprentissage d'intervention** | ALHF β apprend de vos habitudes de revision pour optimiser les futures decisions de pause |
| **Exploration par ramification** | Dupliquer le pipeline pour explorer plusieurs hypotheses, comparer, fusionner la meilleure |
| **Politique d'escalade** | Notification a niveaux (terminal β Slack β email β arret auto) en cas d'absence |
| **3 adaptateurs** | CLI (terminal), WebSocket (tableau de bord web), MCP (agents externes) |
### Configuration
```yaml
# config.arc.yaml
hitl:
enabled: true
mode: co-pilot # full-auto | gate-only | checkpoint | co-pilot | custom
cost_budget_usd: 50.0 # Pause quand le cout depasse le budget (0 = pas de limite)
notifications:
on_pause: true
on_quality_drop: true
channels: ["terminal"] # terminal | slack | webhook
timeouts:
default_human_timeout_sec: 86400 # 24h d'attente par defaut
auto_proceed_on_timeout: false
collaboration:
max_chat_turns: 50
save_chat_history: true
# Politiques personnalisees par etape (optionnel, pour le mode 'custom')
stage_policies:
8: { require_approval: true, enable_collaboration: true }
9: { require_approval: true, allow_edit_output: true }
```
### Retrocompatibilite
- **Par defaut : DESACTIVE.** Sans `hitl.enabled: true` ou `--mode`, le pipeline se comporte exactement comme avant.
- **`--auto-approve` fonctionne toujours.** Il prend le pas sur le mode HITL.
- **Les 2 699 tests existants passent** avec le code HITL present.
---
## π§ Integration MetaClaw
**AutoResearchClaw + [MetaClaw](https://github.com/aiming-lab/MetaClaw) = Un pipeline qui apprend de chaque execution.**
MetaClaw ajoute le **transfert de connaissances inter-executions** a AutoResearchClaw. Lorsqu'il est active, le pipeline capture automatiquement les lecons des echecs et avertissements, les convertit en competences reutilisables, et injecte ces competences dans les 23 etapes du pipeline lors des executions suivantes β pour ne jamais repeter les memes erreurs.
### Fonctionnement
```
Execution N s'execute β echecs/avertissements captures comme Lecons
β
MetaClaw Lecon β conversion en Competence
β
Fichiers de competences arc-* stockes dans ~/.metaclaw/skills/
β
Execution N+1 β build_overlay() injecte les competences dans chaque prompt LLM
β
Le LLM evite les pieges connus β meilleure qualite, moins de tentatives
```
### Configuration rapide
```bash
# 1. Installer MetaClaw (si ce n'est pas deja fait)
pip install metaclaw
# 2. Activer dans votre configuration
```
```yaml
# config.arc.yaml
metaclaw_bridge:
enabled: true
proxy_url: "http://localhost:30000" # Proxy MetaClaw (optionnel)
skills_dir: "~/.metaclaw/skills" # Ou les competences sont stockees
fallback_url: "https://api.openai.com/v1" # Repli direct vers le LLM
fallback_api_key: "" # Cle API pour l'URL de repli
lesson_to_skill:
enabled: true
min_severity: "warning" # Convertir avertissements + erreurs
max_skills_per_run: 3
```
```bash
# 3. Executez comme d'habitude β MetaClaw fonctionne de maniere transparente
researchclaw run --config config.arc.yaml --topic "Your idea" --auto-approve
```
Apres chaque execution, verifiez `~/.metaclaw/skills/arc-*/SKILL.md` pour voir les competences que votre pipeline a apprises.
### Resultats experimentaux
Dans des experiences controlees A/B (meme sujet, meme LLM, meme configuration) :
| Metrique | Reference | Avec MetaClaw | Amelioration |
|----------|-----------|---------------|--------------|
| Taux de relance des etapes | 10.5% | 7.9% | **-24.8%** |
| Nombre de cycles REFINE | 2.0 | 1.2 | **-40.0%** |
| Completion des etapes du pipeline | 18/19 | 19/19 | **+5.3%** |
| Score de robustesse global (composite) | 0.714 | 0.845 | **+18.3%** |
> Le score de robustesse composite est une moyenne ponderee du taux de completion des etapes (40%), de la reduction des tentatives (30%) et de l'efficacite des cycles REFINE (30%).
### Retrocompatibilite
- **Par defaut : DESACTIVE.** Si `metaclaw_bridge` est absent ou `enabled: false`, le pipeline se comporte exactement comme avant.
- **Aucune nouvelle dependance.** MetaClaw est optionnel β le pipeline de base fonctionne sans.
- **Les 2 699 tests existants passent** avec le code d'integration present.
---
## π§© Bibliotheque de competences
AutoResearchClaw supporte desormais le chargement de **competences open-source et personnalisees** pour enrichir votre experience de recherche. Nous livrons egalement **20 competences integrees pre-chargees** (redaction scientifique, recherche documentaire, chimie, biologie, et plus) comme references pretes a l'emploi, offrant un haut degre de flexibilite des l'installation. Desactivez n'importe quelle competence en ajoutant `enabled: false` a son frontmatter.
**Exemples de competences integrees :**
| Categorie | Competence | Description |
|-----------|------------|------------|
| **Redaction** | `scientific-writing` | Structure IMRAD, formatage des citations, directives de rapport |
| **Domaine** | `chemistry-rdkit` | Analyse moleculaire, SMILES, empreintes digitales, decouverte de medicaments |
| **Experience** | `literature-search` | Revue systematique, methodologie PRISMA |
> Voir les 20 competences avec `researchclaw skills list`.
### Charger vos propres competences
```bash
# Option 1 : Installer une competence (persiste entre les projets)
researchclaw skills install /path/to/my-skill/
# Option 2 : Deposer un SKILL.md dans le projet
mkdir -p .claude/skills/my-custom-skill
# Puis creer un SKILL.md avec frontmatter YAML (name, description, trigger-keywords, applicable-stages)
# Option 3 : Configurer des repertoires de competences partages dans config.arc.yaml
# skills:
# custom_dirs:
# - /path/to/team-shared-skills
```
### Utilisation des competences
Les competences sont chargees et injectees dans les prompts LLM automatiquement β aucune activation manuelle necessaire. Utilisez le CLI pour inspecter :
```bash
researchclaw skills list # Afficher toutes les competences chargees avec leurs sources
researchclaw skills validate ./my-skill # Verifier le format du SKILL.md
```
Parcourir les competences communautaires : [K-Dense-AI/claude-scientific-skills](https://github.com/K-Dense-AI/claude-scientific-skills) (150+ competences scientifiques couvrant plusieurs disciplines).
---
## βοΈ Reference de configuration
Cliquez pour afficher la reference complete de configuration
```yaml
# === Projet ===
project:
name: "my-research" # Identifiant du projet
mode: "docs-first" # docs-first | semi-auto | full-auto
# === Recherche ===
research:
topic: "..." # Sujet de recherche (requis)
domains: ["ml", "nlp"] # Domaines de recherche pour la revue de litterature
daily_paper_count: 8 # Nombre cible d'articles par requete de recherche
quality_threshold: 4.0 # Score qualite minimum pour les articles
# === Execution ===
runtime:
timezone: "America/New_York" # Pour les horodatages
max_parallel_tasks: 3 # Limite d'experiences concurrentes
approval_timeout_hours: 12 # Timeout des etapes de validation
retry_limit: 2 # Nombre de tentatives en cas d'echec d'etape
# === LLM ===
llm:
provider: "openai-compatible" # openai | openrouter | deepseek | minimax | acp | openai-compatible
base_url: "https://..." # Point d'acces API (requis pour openai-compatible)
api_key_env: "OPENAI_API_KEY" # Variable d'env pour la cle API (requis pour openai-compatible)
api_key: "" # Ou cle en dur ici
primary_model: "gpt-4o" # Modele principal
fallback_models: ["gpt-4o-mini"] # Chaine de repli
s2_api_key: "" # Cle API Semantic Scholar (optionnel, limites de debit plus elevees)
acp: # Utilise uniquement quand provider: "acp"
agent: "claude" # Commande CLI de l'agent ACP (claude, codex, gemini, etc.)
cwd: "." # Repertoire de travail pour l'agent
# === Experience ===
experiment:
mode: "sandbox" # simulated | sandbox | docker | ssh_remote
time_budget_sec: 300 # Temps d'execution max par lancement (defaut : 300s)
max_iterations: 10 # Iterations d'optimisation max
metric_key: "val_loss" # Nom de la metrique principale
metric_direction: "minimize" # minimize | maximize
sandbox:
python_path: ".venv/bin/python"
gpu_required: false
allowed_imports: [math, random, json, csv, numpy, torch, sklearn]
max_memory_mb: 4096
docker:
image: "researchclaw/experiment:latest"
network_policy: "setup_only" # none | setup_only | pip_only | full
gpu_enabled: true
memory_limit_mb: 8192
auto_install_deps: true # Detection auto des imports β requirements.txt
ssh_remote:
host: "" # Nom d'hote du serveur GPU
gpu_ids: [] # Identifiants GPU disponibles
remote_workdir: "/tmp/researchclaw_experiments"
opencode: # OpenCode Beast Mode (auto-installe via `researchclaw setup`)
enabled: true # Interrupteur principal (defaut : true)
auto: true # Declenchement auto sans confirmation (defaut : true)
complexity_threshold: 0.2 # 0.0-1.0 β plus eleve = ne se declenche que pour les experiences complexes
model: "" # Modele a forcer (vide = utilise llm.primary_model)
timeout_sec: 600 # Duree max en secondes pour la generation OpenCode
max_retries: 1 # Nombre de tentatives en cas d'echec
workspace_cleanup: true # Supprimer l'espace de travail temporaire apres collecte
code_agent: # CodeAgent v2 β generation de code multi-phases
enabled: true # Utiliser CodeAgent au lieu de la generation mono-prompt heritee
architecture_planning: true # Generer un plan d'implementation detaille avant le codage
sequential_generation: true # Generer les fichiers un par un selon le DAG de dependances
hard_validation: true # Portes de validation basees sur AST (bloque les ablations identiques, metriques codees en dur)
hard_validation_max_repairs: 2 # Tentatives de reparation max en cas d'echec de validation
exec_fix_max_iterations: 3 # Tentatives de correction dans la boucle d'execution
exec_fix_timeout_sec: 60 # Timeout par tentative de correction d'execution
benchmark_agent: # BenchmarkAgent β selection automatisee de jeux de donnees et references
enabled: true # Activer le pipeline de benchmark a 4 agents (SurveyorβSelectorβAcquirerβValidator)
enable_hf_search: true # Rechercher dans HuggingFace Datasets
enable_web_search: true # Rechercher des benchmarks sur Google Scholar
tier_limit: 2 # Filtrage par niveau de jeu de donnees (1=petit/cache, 2=moyen, 3=grand)
min_benchmarks: 1 # Nombre minimum de jeux de donnees requis
min_baselines: 2 # Nombre minimum de methodes de reference requises
figure_agent: # FigureAgent β generation de figures academiques
enabled: true # Activer le pipeline de figures a 5 agents (PlannerβCodeGenβRendererβCriticβIntegrator)
min_figures: 3 # Nombre minimum de figures a generer
max_figures: 8 # Nombre maximum de figures
max_iterations: 3 # Iterations de raffinement guidees par le Critic
dpi: 300 # Resolution de sortie
strict_mode: false # Echouer le pipeline si la generation de figures echoue
repair: # Reparation d'experiences anti-fabrication
enabled: true # Diagnostiquer et reparer automatiquement les experiences echouees
max_cycles: 3 # Boucles de reparation
min_completion_rate: 0.5 # >=50% des conditions doivent etre completees pour continuer
min_conditions: 2 # Au moins 2 conditions pour une experience valide
use_opencode: true # Acheminer les reparations via OpenCode Beast Mode
# === Recherche Web (Optionnel) ===
web_search:
enabled: true # Activer la recherche de litterature augmentee par le web
tavily_api_key_env: "TAVILY_API_KEY" # Variable d'env pour la cle API Tavily (optionnel)
enable_scholar: true # Recherche Google Scholar
enable_pdf_extraction: true # Extraire le texte des PDF
max_web_results: 10 # Resultats web max par requete
# === Export ===
export:
target_conference: "neurips_2025" # neurips_2025 | iclr_2026 | icml_2026
authors: "Anonymous"
bib_file: "references"
# === Prompts ===
prompts:
custom_file: "" # Chemin vers un YAML de prompts personnalises (vide = defauts)
# === Co-Pilote HITL (NOUVEAU dans v0.4.0) ===
hitl:
enabled: false # Mettre a true pour activer le HITL
mode: co-pilot # full-auto | gate-only | checkpoint | step-by-step | co-pilot | custom
cost_budget_usd: 0.0 # Limite de cout en USD (0 = pas de limite)
notifications:
on_pause: true # Notifier quand le pipeline se met en pause
on_quality_drop: true # Notifier en cas de baisse de qualite
channels: ["terminal"] # terminal | slack | webhook
timeouts:
default_human_timeout_sec: 86400 # Attendre jusqu'a 24h pour une reponse humaine
auto_proceed_on_timeout: false # Si true, approuver automatiquement au timeout
collaboration:
max_chat_turns: 50 # Max de tours par session de collaboration
save_chat_history: true # Persister les logs de chat
stage_policies: {} # Surcharges par etape (pour le mode 'custom')
# === Securite ===
security:
hitl_required_stages: [5, 9, 20] # Etapes necessitant une approbation humaine
allow_publish_without_approval: false
redact_sensitive_logs: true
# === Base de connaissances ===
knowledge_base:
backend: "markdown" # markdown | obsidian
root: "docs/kb"
# === Notifications ===
notifications:
channel: "console" # console | discord | slack
target: ""
# === Pont MetaClaw (Optionnel) ===
metaclaw_bridge:
enabled: false # Mettre a true pour activer l'apprentissage inter-executions
proxy_url: "http://localhost:30000" # URL du proxy MetaClaw
skills_dir: "~/.metaclaw/skills" # Ou les competences arc-* sont stockees
fallback_url: "" # Repli direct vers le LLM quand le proxy est indisponible
fallback_api_key: "" # Cle API pour le point d'acces de repli
lesson_to_skill:
enabled: true # Conversion automatique des lecons en competences
min_severity: "warning" # Severite minimum pour la conversion
max_skills_per_run: 3 # Max de nouvelles competences par execution
prm: # Porte qualite Process Reward Model (optionnel)
enabled: false # Utiliser LLM-as-judge pour noter les sorties d'etape
model: "gpt-5.4" # Modele juge PRM
votes: 3 # Nombre de votes majoritaires
gate_stages: [5, 9, 15, 20] # Etapes auxquelles appliquer les portes PRM
# === Pont OpenClaw ===
openclaw_bridge:
use_cron: false # Executions de recherche planifiees
use_message: false # Notifications de progression
use_memory: false # Persistance des connaissances inter-sessions
use_sessions_spawn: false # Lancement de sous-sessions paralleles
use_web_fetch: false # Recherche web en direct
use_browser: false # Collecte d'articles via navigateur
```
---
## π Remerciements
Inspire par :
- π¬ [AI Scientist](https://github.com/SakanaAI/AI-Scientist) (Sakana AI) β Pionnier de la recherche automatisee
- π§ [AutoResearch](https://github.com/karpathy/autoresearch) (Andrej Karpathy) β Automatisation de la recherche de bout en bout
- π [FARS](https://analemma.ai/blog/introducing-fars/) (Analemma) β Systeme de recherche entierement automatise
---
## π Licence
MIT β voir [LICENSE](../LICENSE) pour les details.
---
## π Citation
Si vous trouvez AutoResearchClaw utile, veuillez citer :
```bibtex
@misc{liu2026autoresearchclawselfreinforcingautonomousresearch,
title={AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaboration},
author={Jiaqi Liu and Shi Qiu and Mairui Li and Bingzhou Li and Haonian Ji and Siwei Han and Xinyu Ye and Peng Xia and Zihan Dong and Congyu Zhang and Letian Zhang and Guiming Chen and Haoqin Tu and Xinyu Yang and Lu Feng and Xujiang Zhao and Haifeng Chen and Jiawei Zhou and Xiao Wang and Weitong Zhang and Hongtu Zhu and Yun Li and Jieru Mei and Hongliang Fei and Jiaheng Zhang and Linjie Li and Linjun Zhang and Yuyin Zhou and Sheng Wang and Caiming Xiong and James Zou and Zeyu Zheng and Cihang Xie and Mingyu Ding and Huaxiu Yao},
year={2026},
eprint={2605.20025},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2605.20025},
}
```
Construit avec π¦ par l'equipe AutoResearchClaw