**🌐 [English](README.md) · [Deutsch](README.de.md)**

VOCIX Landing Page

# VOCIX — Voice Capture & Intelligent eXpression ![Release](https://img.shields.io/github/v/release/RTF22/VOCIX) ![Downloads](https://img.shields.io/github/downloads/RTF22/VOCIX/total) ![License](https://img.shields.io/github/license/RTF22/VOCIX) ![Platform](https://img.shields.io/badge/platform-Windows-blue) Lokale Sprachdiktion-App fĂŒr Windows 11 mit globalem Hotkey. Sprache aufnehmen, transkribieren, intelligent transformieren und systemweit an der Cursorposition einfĂŒgen — in jeder Anwendung (Browser, Word, Outlook, IDEs, etc.). ## Features - **Push-to-Talk** per globalem Hotkey (Standard: `Pause`) - **Drei Modi:** - **A — Clean:** Saubere Transkription, entfernt FĂŒllwörter (Ă€h, Ă€hm, also, ...), leichte Korrektur - **B — Business:** Wandelt Sprache in professionelle GeschĂ€ftssprache um (LLM-gestĂŒtzt) - **C — Rage:** Deeskaliert aggressive Sprache in höfliche Formulierungen (LLM-gestĂŒtzt) - **Multi-Provider-LLM fĂŒr Modi B und C** — Backend frei wĂ€hlbar im Einstellungsdialog: Anthropic Claude, jede OpenAI-kompatible API (OpenAI, Groq, OpenRouter, LM Studio, llama.cpp-Server, vLLM via `base_url`) oder lokale Ollama-Modelle. Per-Mode-Override (z. B. Business ĂŒber Cloud-Claude, Rage ĂŒber lokales Llama). Provider-Fehler fallen auf Clean-Modus zurĂŒck und zeigen einen orangenen Toast — kein stiller Fallback mehr. - **Einstellungsdialog** im Tray-MenĂŒ — vier Tabs (Basics / Erweitert / Expert / KI-Provider) mit Test-Buttons, Hotkey-Capture und Validierung pro Modus - **System Tray** mit farbcodiertem Mikrofon-Icon und Moduswechsel - **Status-Overlay** mit Live-VU-Meter wĂ€hrend der Aufnahme — sofortiges visuelles Feedback, dass das Mikrofon Pegel sieht - **Verlauf der letzten 20 Diktate** im Tray — Klick auf einen Eintrag fĂŒgt ihn erneut ein (rettet Text, wenn das Zielfenster gewechselt wurde) - **Nutzungsstatistik** — Wörter pro Tag/Woche/Gesamt, geschĂ€tzte gesparte Tippzeit (200 AnschlĂ€ge/Min), Verteilung ĂŒber die Modi - **Snippet-Expansion** — eigene KĂŒrzel (`/sig`, `/adr`, 
) im Diktat werden vor dem EinfĂŒgen durch Volltext ersetzt; Whisper-Transkripte wie „SchrĂ€gstrich Sig" werden automatisch normalisiert - **Auto-Update aus dem Tray** — neue Releases werden im Hintergrund erkannt; ein Klick lĂ€dt das Win-x64-ZIP, prĂŒft den SHA256 und tauscht die Dateien automatisch aus - **Lokale Verarbeitung** — Speech-to-Text lĂ€uft vollstĂ€ndig offline (faster-whisper) - **Konfigurierbares Whisper-Modell** — `tiny` / `base` / `small` (Standard) / `medium` / `large-v3` / `large-v3-turbo` zur Laufzeit ĂŒber das Tray-MenĂŒ umschaltbar (grĂ¶ĂŸer = genauer, langsamer) - **Optionale NVIDIA-GPU-Beschleunigung** — erkennt CUDA automatisch, fĂ€llt sonst auf CPU zurĂŒck; im Tray-MenĂŒ umschaltbar (`Auto` / `GPU` / `CPU`). Nur in der Source-Installation verfĂŒgbar (das gepackte ZIP bleibt CPU-only) - **Optionale Offline-Übersetzung ins Englische** — Tray-Toggle: in einer der ~50 von Whisper unterstĂŒtzten Sprachen sprechen und VOCIX fĂŒgt sauberen englischen Text an der Cursorposition ein, komplett offline (kein API-Key nötig) - **Konfigurierbare Hotkeys** via `.env` - **RDP-Modus** fĂŒr Remote-Desktop-Sessions - **Logfile** mit konfigurierbarem Log-Level - **Portable .exe** — kein Python nötig ## Voraussetzungen - Windows 10/11 - Mikrofon - Optional fĂŒr Modus B und C: einer von - [Anthropic API-Key](https://console.anthropic.com/), oder - OpenAI-kompatibler Endpoint (OpenAI, Groq, OpenRouter, LM Studio, llama.cpp-Server, vLLM 
), oder - lokales [Ollama](https://ollama.com/) — kein API-Key nötig ## Installation ### Option A: winget ```powershell winget install RTF22.VOCIX ``` ### Option B: Scoop ```powershell scoop bucket add vocix https://github.com/RTF22/scoop-vocix scoop install vocix ``` ### Option C: Portable .exe 1. [Release herunterladen](https://github.com/RTF22/VOCIX/releases) 2. Ordner an beliebigen Ort entpacken 3. Optional: `.env.example` zu `.env` umbenennen und API-Key eintragen 4. `VOCIX.exe` starten Das Whisper-Modell (~500 MB) wird beim ersten Start automatisch in den `models/`-Unterordner heruntergeladen. ### Option D: Aus Quellcode ```bash git clone https://github.com/RTF22/VOCIX.git cd VOCIX python -m venv venv venv\Scripts\activate pip install -r requirements.txt copy .env.example .env python -m vocix.main ``` ### GPU-Beschleunigung (optional, nur NVIDIA) ```bash pip install -r requirements-gpu.txt ``` LĂ€dt cuBLAS + cuDNN (~600 MB) und ermöglicht `ctranslate2` die GPU-Nutzung. Anschließend im Tray-MenĂŒ **Beschleunigung → GPU (CUDA)** wĂ€hlen (oder `VOCIX_WHISPER_ACCELERATION=gpu` setzen). Das gepackte Win-x64-ZIP enthĂ€lt diese Bibliotheken **nicht** — GPU ist opt-in fĂŒr Source-Installationen. ### .exe selbst bauen ```bash pip install pyinstaller build_exe.bat ``` Ergebnis liegt in `dist\VOCIX\` — der gesamte Ordner ist portabel. ## Konfiguration Empfohlener Weg: **Einstellungsdialog** (Tray-Icon → Einstellungen
). Der Tab `KI-Provider` hat drei Slots — Anthropic, OpenAI-kompatibel und Ollama — jeweils mit eigenem Test-Button. Default wĂ€hlen und optional pro Modus (Business / Rage) ĂŒberschreiben. FĂŒr Headless-Setups stehen alle Werte zusĂ€tzlich in der `.env` zur VerfĂŒgung: ```ini # --- LLM-Provider (Modus B und C) ---------------------------------------- # Default-Provider und optionaler Per-Mode-Override. VOCIX_LLM_DEFAULT=anthropic # anthropic | openai | ollama VOCIX_LLM_BUSINESS= # leer = Default verwenden VOCIX_LLM_RAGE= # Anthropic Claude VOCIX_LLM_ANTHROPIC_API_KEY=sk-ant-dein-key-hier VOCIX_LLM_ANTHROPIC_MODEL=claude-sonnet-4-6 VOCIX_LLM_ANTHROPIC_TIMEOUT=15 # OpenAI-kompatibel (OpenAI, Groq, OpenRouter, LM Studio, llama.cpp, vLLM 
) VOCIX_LLM_OPENAI_API_KEY= VOCIX_LLM_OPENAI_BASE_URL=https://api.openai.com/v1 VOCIX_LLM_OPENAI_MODEL=gpt-4o-mini VOCIX_LLM_OPENAI_TIMEOUT=15 # Ollama (lokal, kein API-Key) VOCIX_LLM_OLLAMA_BASE_URL=http://localhost:11434 VOCIX_LLM_OLLAMA_MODEL=llama3.1 VOCIX_LLM_OLLAMA_TIMEOUT=30 # --- App ------------------------------------------------------------------ # Sprache — steuert UI, LLM-Prompts und Whisper-STT (de, en) # Tray-Auswahl (in state.json) ĂŒberschreibt diesen Wert. VOCIX_LANGUAGE=de # Whisper-Modell — tiny | base | small (Standard) | medium | large-v3 | large-v3-turbo # Tray-Auswahl (state.json) ĂŒberschreibt diesen Wert. VOCIX_WHISPER_MODEL=small # Beschleunigung — auto (GPU wenn verfĂŒgbar) | gpu (CUDA erzwingen) | cpu (CPU erzwingen) # GPU-Modus erfordert `pip install -r requirements-gpu.txt` (nur Source-Install). VOCIX_WHISPER_ACCELERATION=auto # Hotkeys — Push-to-Talk benötigt eine Einzeltaste, Moduswechsel dĂŒrfen Kombos sein VOCIX_HOTKEY_RECORD=pause VOCIX_HOTKEY_MODE_A=ctrl+shift+1 VOCIX_HOTKEY_MODE_B=ctrl+shift+2 VOCIX_HOTKEY_MODE_C=ctrl+shift+3 # Logging (DEBUG, INFO, WARNING, ERROR) VOCIX_LOG_LEVEL=INFO VOCIX_LOG_FILE=vocix.log # RDP-Modus (lĂ€ngere Clipboard-Delays) VOCIX_RDP_MODE=true ``` Ohne konfigurierten Provider fallen Modus B und C automatisch auf Modus A (Clean) zurĂŒck. Konfigurationen aus VOCIX 1.3.x (`ANTHROPIC_API_KEY`, `ANTHROPIC_MODEL`, `ANTHROPIC_TIMEOUT`) laufen unverĂ€ndert weiter — einmal im neuen Tab speichern migriert sie. **Env-PrioritĂ€t:** Variablen, die bereits in der Prozess-Umgebung gesetzt sind, ĂŒberschreiben Werte aus der `.env` nicht (Standard-Verhalten von `python-dotenv`). Wer einen Wert temporĂ€r ĂŒberschreiben möchte, exportiert ihn vor dem Start der App. ## Bedienung | Tastenkombination | Aktion | |---|---| | `Pause` (halten) | Push-to-Talk — sprechen, loslassen zum Verarbeiten | | `Ctrl+Shift+1` | Modus A: Clean Transcription | | `Ctrl+Shift+2` | Modus B: Business Mode | | `Ctrl+Shift+3` | Modus C: Rage Mode | **Ablauf:** 1. Cursor in das Zielfeld setzen (z.B. E-Mail, Chat, Texteditor) 2. `Pause` gedrĂŒckt halten und sprechen 3. Loslassen — der Text wird transkribiert, transformiert und automatisch eingefĂŒgt **Tray-MenĂŒ:** Rechtsklick auf das Tray-Icon → Moduswechsel, **Sprache / Language** (Deutsch / English — schaltet UI, Claude-Prompts und Whisper-STT), **Whisper-Modell** (`tiny` 
 `large-v3-turbo` zur Laufzeit), **Beschleunigung** (Auto / GPU / CPU — GPU ist ausgegraut, wenn kein CUDA erkannt wird), **Info** (About + Repo-Link), **Beenden** > Hinweis: Tray-Auswahlen (Modus, Sprache, Whisper-Modell, Beschleunigung) werden in `state.json` persistiert und ĂŒberschreiben die entsprechenden `.env`-Werte beim nĂ€chsten Start. ## Fehlerbehebung | Problem | Lösung | |---|---| | SmartScreen: „Windows hat Ihren PC geschĂŒtzt" beim ersten Start | Auf **Weitere Informationen → Trotzdem ausfĂŒhren** klicken. VOCIX ist Open Source, das Release-ZIP ist aus `main` per `build_exe.bat` reproduzierbar. Code-Signatur wird in [#12](https://github.com/RTF22/VOCIX/issues/12) verfolgt. | | Kein Tray-Icon sichtbar | Versteckte Symbole in der Taskleiste prĂŒfen (Pfeil nach oben) | | „VOCIX erfordert eine CPU mit AVX-UnterstĂŒtzung" beim Start | CPU ist Ă€lter als ~2012 und kann CTranslate2 nicht ausfĂŒhren. VOCIX lĂ€uft auf dieser Maschine nicht. | | Hotkey reagiert nicht | App als Administrator starten | | Laptop ohne `Pause`-Taste | `VOCIX_HOTKEY_RECORD=scroll lock` (oder `f7`) in `.env` setzen | | „Mikrofon nicht verfĂŒgbar" | Mikrofon in Windows-Einstellungen prĂŒfen, Zugriff erlauben | | Modus B/C liefern nur Clean-Ergebnis | Einstellungen → KI-Provider öffnen, mindestens einen Slot konfigurieren und „Test" drĂŒcken | | Whisper-Download schlĂ€gt fehl | Internetverbindung prĂŒfen, Proxy/Firewall ggf. konfigurieren | | Text enthĂ€lt falsche Zeichen | Sicherstellen, dass die Zielanwendung Ctrl+V / EinfĂŒgen unterstĂŒtzt | | RDP: Text wird nicht eingefĂŒgt | `VOCIX_RDP_MODE=true` in `.env` setzen | ## Projektstruktur ``` vocix/ ├── main.py # Entry Point, Orchestrierung ├── config.py # Einstellungen (.env, Pfade, Hotkeys) ├── audio/recorder.py # Mikrofon-Aufnahme (sounddevice) ├── stt/ │ ├── base.py # Abstrakte STT-Schnittstelle │ └── whisper_stt.py # faster-whisper Implementierung ├── processing/ │ ├── base.py # Abstrakte Prozessor-Schnittstelle │ ├── clean.py # Modus A: FĂŒllwörter + Korrektur (lokal) │ ├── llm_backed.py # Gemeinsamer LLM-gestĂŒtzter Prozessor (B/C) │ ├── business.py # Modus B: GeschĂ€ftssprache │ ├── rage.py # Modus C: Deeskalation │ └── providers/ # Anthropic / OpenAI-kompatibel / Ollama Backends ├── output/injector.py # Clipboard-basierte TexteinfĂŒgung └── ui/ ├── tray.py # System Tray mit Mikrofon-Icon ├── overlay.py # Status-Overlay (tkinter) └── settings.py # Einstellungsdialog (Basics / Erweitert / Expert / KI-Provider) ``` ## Lizenz [MIT License](LICENSE) — frei nutzbar, auch kommerziell. Keine GewĂ€hrleistung. VOCIX bĂŒndelt in der portablen Distribution Python-Bibliotheken von Drittanbietern. Die erforderlichen Copyright- und Lizenzhinweise (MIT / BSD / HPND / LGPL-3.0) stehen in [THIRD_PARTY_LICENSES.md](THIRD_PARTY_LICENSES.md).