run_id: jdb-b5w2-baseconfig
quoridor:
  board_size: 5
  max_walls: 2
  max_steps: 50
alphazero:
  network:
    type: resnet
    num_blocks: 2
    num_channels: 32
  mcts_n: 400
  mcts_c_puct: 1.2
wandb:
  project: B5W2
  upload_model:
    every: 100 models
    when_max:
    - raw_win_perc
    - p2_win_perc
    when_min:
    - dumb_score
self_play:
  program: rust
  num_processes: 1
  mcts_worker_threads: 12
  games_per_process: 128
  eval_batch_size: 1024
  leaf_parallelism: 16
  virtual_loss: 3
  enable_tree_reuse: true
  eval_cache_max_size: 1000000
  eval_max_wait_ms: 1
  alphazero:
    mcts_noise_epsilon: 0.25
training:
  games_per_training_step: 100
  learning_rate: 0.001
  batch_size: 2048
  weight_decay: 0.0001
  replay_buffer_size: 20000
  max_cached_games: 20000
  finish_after: 15 hours
benchmarks:
- every: 1 models
  jobs:
  - type: tournament
    alphazero:
      mcts_n: 0
    prefix: raw
    times: 20
    opponents:
    - random
    - greedy:p_random=0.3,nick=greedy-03
    - greedy:p_random=0.1,nick=greedy-01
    - greedy
    - simple:branching_factor=8,nick=simple-bf8
    - simple:branching_factor=16,nick=simple-bf16
  - type: dumb_score
    alphazero:
      mcts_n: 0
    prefix: raw
- every: 10 models
  jobs:
  - type: tournament
    prefix: ''
    times: 20
    opponents:
    - random
    - greedy:p_random=0.3,nick=greedy-03
    - greedy:p_random=0.1,nick=greedy-01
    - greedy
    - simple:branching_factor=8,nick=simple-bf8
    - simple:branching_factor=16,nick=simple-bf16
  - type: dumb_score
    prefix: ''