# Skill Seekers [English](README.md) | [简体中文](README.zh-CN.md) | [日本語](README.ja.md) | [한국어](README.ko.md) | Español | [Français](README.fr.md) | [Deutsch](README.de.md) | [Português](README.pt-BR.md) | [Türkçe](README.tr.md) | [العربية](README.ar.md) | [हिन्दी](README.hi.md) | [Русский](README.ru.md) > ⚠️ **Aviso de traducción automática** > > Este documento ha sido traducido automáticamente por IA. Aunque nos esforzamos por garantizar la calidad, pueden existir expresiones inexactas. > > ¡Ayúdanos a mejorar la traducción a través de [GitHub Issue #260](https://github.com/yusufkaraaslan/Skill_Seekers/issues/260)! Tu retroalimentación es muy valiosa para nosotros. [![Versión](https://img.shields.io/badge/version-3.7.0-blue.svg)](https://github.com/yusufkaraaslan/Skill_Seekers/releases) [![Licencia: MIT](https://img.shields.io/badge/License-MIT-yellow.svg)](https://opensource.org/licenses/MIT) [![Python 3.10+](https://img.shields.io/badge/python-3.10+-blue.svg)](https://www.python.org/downloads/) [![Integración MCP](https://img.shields.io/badge/MCP-40-Tools-blue.svg)](https://modelcontextprotocol.io) [![Tests aprobados](https://img.shields.io/badge/Tests-3700%2B%20Passing-brightgreen.svg)](tests/) [![Tablero del proyecto](https://img.shields.io/badge/Project-Board-purple.svg)](https://github.com/users/yusufkaraaslan/projects/2) [![Versión PyPI](https://badge.fury.io/py/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) [![PyPI - Descargas](https://img.shields.io/pypi/dm/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) [![PyPI - Versión de Python](https://img.shields.io/pypi/pyversions/skill-seekers.svg)](https://pypi.org/project/skill-seekers/) [![PyPI Downloads](https://static.pepy.tech/personalized-badge/skill-seekers?period=total&units=INTERNATIONAL_SYSTEM&left_color=BLACK&right_color=GREEN&left_text=downloads)](https://pepy.tech/projects/skill-seekers)

[![Sitio web](https://img.shields.io/badge/Website-skillseekersweb.com-blue.svg)](https://skillseekersweb.com/) [![Seguir en Twitter](https://img.shields.io/twitter/follow/_yUSyUS_?style=social)](https://x.com/_yUSyUS_) [![Estrellas en GitHub](https://img.shields.io/github/stars/yusufkaraaslan/Skill_Seekers?style=social)](https://github.com/yusufkaraaslan/Skill_Seekers) **🧠 La capa de datos para sistemas de IA.** Skill Seekers convierte sitios de documentación, repositorios de GitHub, PDFs, videos, notebooks, wikis y más de 10 tipos de fuentes adicionales en activos de conocimiento estructurado, listos para potenciar AI Skills (Claude, Gemini, OpenAI), pipelines RAG (LangChain, LlamaIndex, Pinecone) y asistentes de programación con IA (Cursor, Windsurf, Cline) en minutos, no en horas. > 🌐 **[Visita SkillSeekersWeb.com](https://skillseekersweb.com/)** - ¡Explora más de 24 configuraciones predefinidas, comparte tus configuraciones y accede a la documentación completa! > 📋 **[Ver hoja de ruta y tareas de desarrollo](https://github.com/users/yusufkaraaslan/projects/2)** - ¡134 tareas en 10 categorías, elige cualquiera para contribuir! ## 🌐 Ecosistema Skill Seekers es un proyecto multi-repositorio. Aquí es donde vive todo: | Repositorio | Descripción | Enlaces | |------------|-------------|---------| | **[Skill_Seekers](https://github.com/yusufkaraaslan/Skill_Seekers)** | CLI principal y servidor MCP (este repo) | [PyPI](https://pypi.org/project/skill-seekers/) | | **[skillseekersweb](https://github.com/yusufkaraaslan/skillseekersweb)** | Sitio web y documentación | [Web](https://skillseekersweb.com/) | | **[skill-seekers-configs](https://github.com/yusufkaraaslan/skill-seekers-configs)** | Repositorio de configuraciones comunitarias | | | **[skill-seekers-action](https://github.com/yusufkaraaslan/skill-seekers-action)** | GitHub Action para CI/CD | | | **[skill-seekers-plugin](https://github.com/yusufkaraaslan/skill-seekers-plugin)** | Plugin para Claude Code | | | **[homebrew-skill-seekers](https://github.com/yusufkaraaslan/homebrew-skill-seekers)** | Homebrew tap para macOS | | > **¿Quieres contribuir?** ¡Los repos del sitio web y configuraciones son excelentes puntos de partida para nuevos colaboradores! ## 🧠 La capa de datos para sistemas de IA **Skill Seekers es la capa universal de preprocesamiento** que se ubica entre la documentación sin procesar y cada sistema de IA que la consume. Ya sea que estés construyendo Claude Skills, un pipeline RAG con LangChain o un archivo `.cursorrules` para Cursor, la preparación de datos es idéntica. Lo haces una vez y exportas a todos los destinos. ```bash # Un comando → activo de conocimiento estructurado skill-seekers create https://docs.react.dev/ # o: skill-seekers create facebook/react # o: skill-seekers create ./my-project # Exportar a cualquier sistema de IA skill-seekers package output/react --target claude # → Claude AI Skill (ZIP) skill-seekers package output/react --target langchain # → LangChain Documents skill-seekers package output/react --target llama-index # → LlamaIndex TextNodes skill-seekers package output/react --target cursor # → .cursorrules skill-seekers package output/react --target ibm-bob # → Directorio de skill IBM Bob ``` ### Lo que se genera | Salida | Destino | Para qué sirve | |--------|---------|-----------------| | **Claude Skill** (ZIP + YAML) | `--target claude` | Claude Code, Claude API | | **Gemini Skill** (tar.gz) | `--target gemini` | Google Gemini | | **OpenAI / Custom GPT** (ZIP) | `--target openai` | GPT-4o, asistentes personalizados | | **LangChain Documents** | `--target langchain` | Cadenas QA, agentes, recuperadores | | **LlamaIndex TextNodes** | `--target llama-index` | Motores de consulta, motores de chat | | **Haystack Documents** | `--target haystack` | Pipelines RAG empresariales | | **Pinecone-ready** (Markdown) | `--target markdown` | Carga de vectores | | **ChromaDB / FAISS / Qdrant** | `--target chroma/faiss/qdrant` | Bases de datos vectoriales locales | | **IBM Bob Skill** (directorio) | `--target ibm-bob` | Skills de proyecto/globales de IBM Bob | | **Cursor** `.cursorrules` | `--target markdown` → copiar SKILL.md | `.cursorrules` del IDE Cursor | | **Windsurf / Cline / Continue** | `--target claude` → copiar | VS Code, IntelliJ, Vim | ### Por qué es importante - ⚡ **99% más rápido** — Días de preparación manual → 15–45 minutos - 🎯 **Calidad de AI Skill** — Archivos SKILL.md de más de 500 líneas con ejemplos, patrones y guías - 📊 **Fragmentos listos para RAG** — Fragmentación inteligente que preserva bloques de código y mantiene el contexto - 🎬 **Videos** — Extrae código, transcripciones y conocimiento estructurado de YouTube y videos locales - 🔄 **Multi-fuente** — Combina 18 tipos de fuentes (docs, GitHub, PDFs, videos, notebooks, wikis y más) en un solo activo de conocimiento - 🌐 **Una preparación, todos los destinos** — Exporta el mismo activo a 21 plataformas sin volver a extraer - ✅ **Probado en producción** — Más de 3.700 tests, más de 24 presets de frameworks, listo para producción ## 🚀 Inicio rápido (3 comandos) ```bash # 1. Instalar pip install skill-seekers # 2. Crear skill desde cualquier fuente skill-seekers create https://docs.django.com/ # 3. Empaquetar para tu plataforma de IA skill-seekers package output/django --target claude ``` **¡Eso es todo!** Ahora tienes `output/django-claude.zip` listo para usar. ```bash # Usar un agente de IA diferente para la mejora (predeterminado: claude) skill-seekers create https://docs.django.com/ --agent kimi skill-seekers create https://docs.django.com/ --agent codex skill-seekers create https://docs.django.com/ --agent-cmd "my-custom-agent run" ``` ### 🛰️ Escaneo de proyecto con IA (nuevo) Apunta `scan` a cualquier proyecto y un agente de IA lee sus manifiestos, README, Dockerfile/CI e imports muestreados del código fuente — luego genera una configuración por framework detectado más un `-codebase.json` para tu propio código. Fija la versión detectada, de modo que volver a ejecutarlo reporta los cambios de versión: ```bash skill-seekers scan ./my-react-app --out ./configs/scanned/ # → react.json, vite.json, tailwind.json, jest.json, my-react-app-codebase.json # Luego construye cualquiera de ellas skill-seekers create ./configs/scanned/react.json ``` Si una detección no tiene un preset existente, la IA genera una configuración nueva; al salir puedes publicarla opcionalmente en el [registro comunitario](https://github.com/yusufkaraaslan/skill-seekers-configs). ### Otras fuentes (18 soportadas) ```bash # Repositorio de GitHub skill-seekers create facebook/react # Proyecto local skill-seekers create ./my-project # Documento PDF skill-seekers create manual.pdf # Documento Word skill-seekers create report.docx # Libro electrónico EPUB skill-seekers create book.epub # Jupyter Notebook skill-seekers create notebook.ipynb # Especificación OpenAPI skill-seekers create openapi.yaml # Presentación PowerPoint skill-seekers create presentation.pptx # Documento AsciiDoc skill-seekers create guide.adoc # Archivo HTML local (auto-detectado por la extensión) skill-seekers create page.html # Directorio completo de archivos HTML (auto-detectado para directorios predominantemente HTML) skill-seekers create ./mirror_output/site/ # Forzar modo HTML en un directorio mixto/con mucho código skill-seekers create ./repo/ --html-path ./repo/docs/build/html/ # Feed RSS/Atom skill-seekers create feed.rss # Página de manual skill-seekers create curl.1 # Video (YouTube, Vimeo o archivo local — requiere skill-seekers[video]) skill-seekers create --video-url https://www.youtube.com/watch?v=... --name mytutorial # ¿Primera vez? Instala automáticamente las dependencias visuales con detección de GPU: skill-seekers create --setup # Wiki de Confluence skill-seekers create --space-key TEAM --name wiki # Páginas de Notion skill-seekers create --database-id ... --name docs # Exportación de chat de Slack/Discord skill-seekers create --chat-export-path ./slack-export --name team-chat ``` ### Exportar a todas partes ```bash # Empaquetar para múltiples plataformas for platform in claude gemini openai langchain; do skill-seekers package output/django --target $platform done ``` ## ¿Qué es Skill Seekers? Skill Seekers es la **capa de datos para sistemas de IA**. Transforma 18 tipos de fuentes —sitios web de documentación, repositorios de GitHub, PDFs, videos, Jupyter Notebooks, documentos Word/EPUB/AsciiDoc, especificaciones OpenAPI, presentaciones PowerPoint, feeds RSS, páginas de manual, wikis de Confluence, páginas de Notion, exportaciones de Slack/Discord y más— en activos de conocimiento estructurado para cualquier destino de IA: | Caso de uso | Lo que obtienes | Ejemplos | |-------------|-----------------|----------| | **AI Skills** | SKILL.md completo + referencias | Claude Code, Gemini, GPT | | **Pipelines RAG** | Documentos fragmentados con metadatos enriquecidos | LangChain, LlamaIndex, Haystack | | **Bases de datos vectoriales** | Datos pre-formateados listos para carga | Pinecone, Chroma, Weaviate, FAISS | | **Asistentes de programación con IA** | Archivos de contexto que tu IDE IA lee automáticamente | Cursor, Windsurf, Cline, Continue.dev | ## 📚 Documentación | Quiero... | Lee esto | |-----------|----------| | **Empezar rápidamente** | [Inicio rápido](docs/getting-started/02-quick-start.md) - 3 comandos hasta tu primer skill | | **Entender los conceptos** | [Conceptos fundamentales](docs/user-guide/01-core-concepts.md) - Cómo funciona | | **Extraer fuentes** | [Guía de extracción](docs/user-guide/02-scraping.md) - Todos los tipos de fuentes | | **Mejorar skills** | [Guía de mejora](docs/user-guide/03-enhancement.md) - Mejora con IA | | **Exportar skills** | [Guía de empaquetado](docs/user-guide/04-packaging.md) - Exportación a plataformas | | **Consultar comandos** | [Referencia CLI](docs/reference/CLI_REFERENCE.md) - Los 20 comandos | | **Configurar** | [Formato de configuración](docs/reference/CONFIG_FORMAT.md) - Especificación JSON | | **Resolver problemas** | [Solución de problemas](docs/user-guide/06-troubleshooting.md) - Problemas comunes | **Documentación completa:** [docs/README.md](docs/README.md) En lugar de pasar días en preprocesamiento manual, Skill Seekers: 1. **Ingesta** — documentación, repositorios de GitHub, bases de código locales, PDFs, videos, notebooks, wikis y más de 10 tipos de fuentes adicionales 2. **Analiza** — análisis profundo AST, detección de patrones, extracción de APIs 3. **Estructura** — archivos de referencia categorizados con metadatos 4. **Mejora** — generación de SKILL.md potenciada por IA (Claude, Gemini o local) 5. **Exporta** — 16 formatos específicos por plataforma desde un solo activo ## ¿Por qué usar Skill Seekers? ### Para constructores de AI Skills (Claude, Gemini, OpenAI) - 🎯 **Skills de nivel producción** — Archivos SKILL.md de más de 500 líneas con ejemplos de código, patrones y guías - 🔄 **Flujos de mejora** — Aplica presets como `security-focus`, `architecture-comprehensive` o YAML personalizados - 🎮 **Cualquier dominio** — Motores de juegos (Godot, Unity), frameworks (React, Django), herramientas internas - 🔧 **Equipos** — Combina documentación interna + código en una única fuente de verdad - 📚 **Calidad** — Mejorado con IA, incluye ejemplos, referencia rápida y guía de navegación ### Para constructores de RAG e ingenieros de IA - 🤖 **Datos listos para RAG** — `Documents` de LangChain, `TextNodes` de LlamaIndex y `Documents` de Haystack pre-fragmentados - 🚀 **99% más rápido** — Días de preprocesamiento → 15–45 minutos - 📊 **Metadatos inteligentes** — Categorías, fuentes, tipos → mayor precisión en la recuperación - 🔄 **Multi-fuente** — Combina docs + GitHub + PDFs + videos en un solo pipeline - 🌐 **Agnóstico de plataforma** — Exporta a cualquier base de datos vectorial o framework sin volver a extraer ### Para usuarios de asistentes de programación con IA - 💻 **Cursor / Windsurf / Cline** — Genera `.cursorrules` / `.windsurfrules` / `.clinerules` automáticamente - 🎯 **Contexto persistente** — La IA "conoce" tus frameworks sin necesidad de repetir prompts - 📚 **Siempre actualizado** — Actualiza el contexto en minutos cuando cambia la documentación ## Funcionalidades clave ### 🌐 Extracción de documentación - ✅ **Descubrimiento SPA inteligente** - Descubrimiento en tres capas para sitios SPA con JavaScript (sitemap.xml → llms.txt → renderizado con navegador headless) - ✅ **Soporte para llms.txt** - Detecta y usa automáticamente archivos de documentación optimizados para LLM (10 veces más rápido) - ✅ **Scraper universal** - Funciona con CUALQUIER sitio web de documentación - ✅ **Categorización inteligente** - Organiza automáticamente el contenido por tema - ✅ **Detección de lenguajes de código** - Reconoce Python, JavaScript, C++, GDScript, etc. - ✅ **Más de 24 presets listos para usar** - Godot, React, Vue, Django, FastAPI y más ### 📄 Soporte para PDF - ✅ **Extracción básica de PDF** - Extrae texto, código e imágenes de archivos PDF - ✅ **OCR para PDFs escaneados** - Extrae texto de documentos escaneados - ✅ **PDFs protegidos con contraseña** - Maneja PDFs cifrados - ✅ **Extracción de tablas** - Extrae tablas complejas de PDFs - ✅ **Procesamiento en paralelo** - 3 veces más rápido para PDFs grandes - ✅ **Caché inteligente** - 50% más rápido en ejecuciones posteriores ### 🎬 Extracción de video - ✅ **YouTube y videos locales** - Extrae transcripciones, código en pantalla y conocimiento estructurado de videos - ✅ **Análisis visual de fotogramas** - Extracción OCR de editores de código, terminales, diapositivas y diagramas - ✅ **Detección automática de GPU** - Instala automáticamente la compilación correcta de PyTorch (CUDA/ROCm/MPS/CPU) - ✅ **Mejora con IA** - Dos pasadas: limpieza de artefactos OCR + generación de SKILL.md pulido - ✅ **Recorte temporal** - Extrae secciones específicas con `--start-time` y `--end-time` - ✅ **Soporte para listas de reproducción** - Procesa por lotes todos los videos de una lista de reproducción de YouTube - ✅ **Respaldo con Vision API** - Usa Claude Vision para fotogramas OCR de baja confianza ### 🐙 Análisis de repositorios de GitHub - ✅ **Análisis profundo de código** - Análisis AST para Python, JavaScript, TypeScript, Java, C++, Go - ✅ **Extracción de APIs** - Funciones, clases, métodos con parámetros y tipos - ✅ **Metadatos del repositorio** - README, árbol de archivos, desglose de lenguajes, estrellas/forks - ✅ **GitHub Issues y PRs** - Obtiene issues abiertos/cerrados con etiquetas e hitos - ✅ **CHANGELOG y releases** - Extrae automáticamente el historial de versiones - ✅ **Detección de conflictos** - Compara APIs documentadas vs. implementación real del código - ✅ **Integración MCP** - Lenguaje natural: "Extrae el repositorio de GitHub facebook/react" ### 🔄 Extracción unificada multi-fuente - ✅ **Combina múltiples fuentes** - Mezcla documentación + GitHub + PDF en un solo skill - ✅ **Detección de conflictos** - Encuentra automáticamente discrepancias entre docs y código - ✅ **Fusión inteligente** - Resolución de conflictos basada en reglas o potenciada por IA - ✅ **Informes transparentes** - Comparación lado a lado con advertencias ⚠️ - ✅ **Análisis de brechas en documentación** - Identifica docs obsoletos y funcionalidades no documentadas - ✅ **Fuente única de verdad** - Un solo skill que muestra tanto la intención (docs) como la realidad (código) - ✅ **Compatible con versiones anteriores** - Las configuraciones de fuente única legacy siguen funcionando ### 🤖 Soporte para múltiples plataformas LLM - ✅ **12 plataformas LLM** - Claude AI, Google Gemini, OpenAI ChatGPT, MiniMax AI, Markdown genérico, OpenCode, Kimi (Moonshot AI), DeepSeek AI, Qwen (Alibaba), OpenRouter, Together AI, Fireworks AI - ✅ **Extracción universal** - La misma documentación funciona para todas las plataformas - ✅ **Empaquetado específico por plataforma** - Formatos optimizados para cada LLM - ✅ **Exportación con un solo comando** - El flag `--target` selecciona la plataforma - ✅ **Dependencias opcionales** - Instala solo lo que necesitas - ✅ **100% compatible con versiones anteriores** - Los flujos de trabajo existentes de Claude no cambian | Plataforma | Formato | Carga | Mejora | API Key | Endpoint personalizado | |------------|---------|-------|--------|---------|------------------------| | **Claude AI** | ZIP + YAML | ✅ Automática | ✅ Sí | ANTHROPIC_API_KEY | ANTHROPIC_BASE_URL | | **Google Gemini** | tar.gz | ✅ Automática | ✅ Sí | GOOGLE_API_KEY | - | | **OpenAI ChatGPT** | ZIP + Vector Store | ✅ Automática | ✅ Sí | OPENAI_API_KEY | - | | **MiniMax AI** | ZIP + Knowledge Files | ✅ Automática | ✅ Sí | MINIMAX_API_KEY | - | | **Markdown genérico** | ZIP | ❌ Manual | ❌ No | - | - | ```bash # Claude (predeterminado - ¡sin cambios necesarios!) skill-seekers package output/react/ skill-seekers upload react.zip # Google Gemini pip install skill-seekers[gemini] skill-seekers package output/react/ --target gemini skill-seekers upload react-gemini.tar.gz --target gemini # OpenAI ChatGPT pip install skill-seekers[openai] skill-seekers package output/react/ --target openai skill-seekers upload react-openai.zip --target openai # MiniMax AI pip install skill-seekers[minimax] skill-seekers package output/react/ --target minimax skill-seekers upload react-minimax.zip --target minimax # Markdown genérico (exportación universal) skill-seekers package output/react/ --target markdown # Usa los archivos markdown directamente en cualquier LLM ```

🔧 Usa tu propio proveedor de IA (endpoints compatibles con OpenAI + suscripciones, sin necesidad de créditos de Anthropic)

El paso opcional de **mejora** con IA (usado por `create`, `scan` y `enhance`) **no** requiere una clave de Anthropic. Tienes tres formas de alimentarlo: **1. Usa una suscripción que ya pagas — sin créditos de API (modo agente LOCAL)** Skill Seekers puede delegar en una CLI de agente de programación en la que ya tienes sesión iniciada, de modo que la mejora se ejecuta con tu plan existente en lugar de tokens de API medidos: ```bash skill-seekers create --agent codex # CLI de OpenAI Codex → tu ChatGPT Plus skill-seekers create --agent claude # Claude Code → tu Claude Pro/Max ``` Agentes soportados: `claude`, `codex`, `copilot`, `opencode`, `kimi` y `custom` (combina `--agent custom` con `--agent-cmd " ..."` para usar cualquier otra herramienta). **2. Cualquier proveedor compatible con OpenAI (OpenRouter, Groq, Cerebras, Mistral, NVIDIA NIM, …)** Todos ellos exponen un endpoint `/v1` compatible con OpenAI. Apunta Skill Seekers a uno de ellos con tres variables de entorno — detecta `OPENAI_API_KEY`, y el SDK de OpenAI respeta `OPENAI_BASE_URL` automáticamente: ```bash export OPENAI_API_KEY="" export OPENAI_BASE_URL="https://openrouter.ai/api/v1" # endpoint del proveedor (ver tabla) export OPENAI_MODEL="" # requerido — el predeterminado gpt-4o no existirá en otros proveedores skill-seekers create ``` | Proveedor | `OPENAI_BASE_URL` | |--------------|--------------------------------------------| | OpenRouter | `https://openrouter.ai/api/v1` | | Groq | `https://api.groq.com/openai/v1` | | Cerebras | `https://api.cerebras.ai/v1` | | Mistral | `https://api.mistral.ai/v1` | | NVIDIA NIM | `https://integrate.api.nvidia.com/v1` | > La detección de proveedor elige la **primera** variable de entorno de API key que encuentra (`ANTHROPIC_API_KEY` → `GOOGLE_API_KEY` → `OPENAI_API_KEY` → `MOONSHOT_API_KEY`). Configura `SKILL_SEEKER_PROVIDER` para forzar un proveedor específico, o asegúrate de que las claves de mayor prioridad no estén definidas. **3. Endpoints compatibles con Claude (ej. GLM, proxies)** ```bash export ANTHROPIC_API_KEY="your-key" export ANTHROPIC_BASE_URL="https://your-claude-compatible-endpoint/v1" ``` Google Gemini (`GOOGLE_API_KEY`) y Kimi/Moonshot (`MOONSHOT_API_KEY`) también están soportados de forma nativa. Consulta la **[Referencia de variables de entorno](docs/reference/ENVIRONMENT_VARIABLES.md#llm-provider-selection)** para la lista completa, incluidas las sobrescrituras de modelo por proveedor.

[Atlas Cloud](https://www.atlascloud.ai/?utm_source=github&utm_medium=link&utm_campaign=skill_seekers) — una plataforma de inferencia de IA full-modal compatible con OpenAI. Skill Seekers la soporta como destino de empaquetado/mejora mediante `--target atlas` con `ATLAS_API_KEY`.