`이 접근성 트리에서는 `[button] Submit`이 됩니다. CSS 클래스, 중첩된 wrapper div, 장식용 span 따위는 전부 사라지고 순수한 의미만 남습니다. 이것은 "AI를 위한 DOM 파싱"을 처음부터 다시 만들 필요가 없다는 뜻입니다. 브라우저가 이미 수십 년간 스크린 리더를 위해 이 작업을 해 왔습니다. chrome-cdp-skill은 그 성과를 AI 에이전트 용도로 전용한 것입니다. Playwright의 `page.accessibility.snapshot()`도, 그리고 OpenAI의 Operator와 Anthropic의 computer use도 접근성 트리를 핵심 입력으로 활용합니다. "접근성 트리 = AI의 눈"이라는 공식은 이미 업계 합의에 가깝습니다. chrome-cdp-skill의 `snap` 명령은 이 흐름의 가장 가벼운 구현입니다. ### 4. 870줄이 던지는 질문: "우리는 얼마나 불필요한 것을 짊어지고 있는가" Puppeteer의 코드베이스는 수만 줄입니다. Playwright는 더 큽니다. 이 도구들은 브라우저 바이너리 다운로드, 자동 대기, 선택자 엔진, 네트워크 인터셉션, 트레이싱, 코드 생성기 등 거대한 추상화 계층을 제공합니다. 그리고 그 추상화 계층 자체가 디버깅의 대상이 되곤 합니다. chrome-cdp-skill은 870줄로 "AI 에이전트가 브라우저를 조작하는 데 필요한 것"을 전부 구현했습니다. 비결은 간단합니다. **CDP 프로토콜에 직접 말을 건 것**입니다. `Page.navigate`를 호출하기 위해 Puppeteer의 `page.goto()`가 필요하지 않습니다. WebSocket 으로 JSON을 보내면 됩니다. 이것은 "프레임워크 vs 프로토콜" 선택의 극단적 사례입니다. 프레임워크는 편의를 제공하지만 복잡성도 함께 가져옵니다. 프로토콜을 직접 다루면 코드가 극적으로 줄어드는 대신, 개발자가 프로토콜을 이해해야 합니다. chrome-cdp-skill의 저자는 CDP 프로토콜을 충분히 이해하고 있었기에 870줄로 충분했습니다. Node.js 22가 WebSocket을 내장하면서 이 접근이 가능해졌다는 점도 중요합니다. 1년 전이었다면 `ws` 패키지가 필요했을 것이고, "의존성 제로"라는 매력이 사라졌을 것입니다. 플랫폼이 성숙하면 래퍼의 존재 이유가 줄어듭니다. 이 패턴은 반복됩니다—fetch API가 axios의 필요성을 줄인 것처럼. ### 5. NDJSON은 "에이전트 시대의 TCP"가 될 수 있다 CLI ↔ 데몬 간 IPC로 NDJSON을 선택한 것은 우연이 아닙니다. 대안들을 비교해 보면 이유가 명확해집니다: - **JSON-RPC**: 스키마 정의와 에러 코드 체계가 필요합니다. 870줄짜리 도구에는 과합니다. - **gRPC**: protobuf 컴파일, HTTP/2, 그리고 빌드 의존성. 경량 도구와는 방향이 다릅니다. - **MessagePack/CBOR**: 바이너리라 디버깅이 어렵습니다. `socat`으로 파이프에 찍어 볼 수 없습니다. NDJSON은 이 모든 것의 반대입니다. 줄바꿈으로 메시지를 구분하고, 각 줄이 완전한 JSON입니다. 구현은 `line.split('\n').map(JSON.parse)` 수준이고, 디버깅은 `cat` 하나로 됩니다. 스트리밍도 자연스럽습니다. MCP(Model Context Protocol)도 JSON-RPC 위에 구축되어 있지만, 전송 계층에서는 결국 NDJSON(stdio 모드)을 씁니다. Docker의 빌드 출력도 NDJSON이고, ndjson.org 스펙 자체가 "스트리밍 JSON"을 위해 만들어졌습니다. AI 에이전트 도구들이 서로 통신하는 경량 프로토콜로 NDJSON이 사실상 표준으로 굳어지고 있습니다. ### 6. "허용 모달"이 드러내는 에이전트 보안의 근본 딜레마 Chrome이 원격 디버깅 연결마다 "허용" 모달을 띄우는 것은 올바른 보안 설계입니다. 하지만 chrome-cdp-skill의 데몬이 이 모달을 탭당 1회로 줄인 것은, 보안과 사용성 사이의 트레이드오프를 명시적으로 선택한 것입니다. 이 트레이드오프는 AI 에이전트 도구 전반에 걸친 근본 딜레마를 드러냅니다. `eval` 명령은 임의의 JavaScript를 실행합니다. `nav` 명령은 어떤 URL로든 이동합니다. AI가 프롬프트 인젝션에 의해 악의적 명령을 실행하면, 사용자의 라이브 세션—로그인된 은행 사이트, 이메일, 사내 시스템—이 공격 표면이 됩니다. 격리된 브라우저였다면 피해가 제한됩니다. 하지만 chrome-cdp-skill 의 핵심 가치인 "라이브 세션 연결"이 동시에 최대 약점이 됩니다. 이것은 chrome-cdp-skill만의 문제가 아닙니다. AI 에이전트에게 "사용자의 실제 환경"에 대한 접근 권한을 줄수록, 에이전트가 수행할 수 있는 유용한 작업과 위험한 작업이 동시에 늘어납니다. 아직 업계에 정답은 없습니다. 도메인 화이트리스트, 명령별 권한 체계, 샌드박스 실행 모드 같은 것들이 논의되고 있지만, 어느 것도 "라이브 세션의 편의"와 "보안"을 동시에 만족시키지 못합니다. chrome-cdp-skill은 이 딜레마의 가장 선명한 사례 중 하나입니다. ### 7. "탭별 데몬"이 시사하는 에이전트 아키텍처의 미래 chrome-cdp-skill의 아키텍처를 한 발 물러서 보면, 흥미로운 구조가 보입니다: ``` 에이전트(CLI) → 경량 IPC → 리소스별 상주 프로세스 → 실제 시스템 ``` 이것은 브라우저 탭에만 적용되는 패턴이 아닙니다. AI 에이전트가 다양한 외부 시스템(데이터베이스, API, 파일 시스템, 클라우드 인프라)과 상호작용해야 할 때, 각 리소스에 대해 "연결을 유지하는 경량 데몬"을 두는 것은 자연스러운 확장입니다. MCP 서버가 이미 이 방향으로 가고 있습니다. 각 MCP 서버는 특정 시스템에 대한 "상주 연결"을 유지하고, 에이전트는 표준화된 프로토콜로 명령을 전달합니다. chrome-cdp-skill의 탭별 데몬은 MCP 서버의 축소판이라고 볼 수 있습니다. 다만 MCP가 표준화와 발견(discovery)을 해결하려는 반면, chrome-cdp-skill은 단일 목적에 집중해서 극단적 단순성을 달성했습니다. "하나의 거대한 에이전트"가 모든 것을 직접 다루는 것이 아니라, "리소스별 경량 데몬의 메시"가 에이전트의 팔다리가 되는 구조. chrome-cdp-skill은 이 미래의 가장 작고 완성된 프로토타입입니다.