🤖 ComfyUI-Expert - Claude code

Session-scoped Claude Code agent s 12 specializovanými skills pro AI video produkci

ComfyUI-Expert je agent postavený na Claude Code, který přináší 12 specializovaných dovedností přímo do vašeho ComfyUI workflow. Od generování obrazu přes klonování hlasu až po trénink LoRA modelů a automatické publikování — vše řízeno jedním agentem, který zná váš kontext.

Nejde o sadu skriptů ani o jednorázové AI volání. Jde o session-scoped agenta, který si pamatuje celý kontext vaší produkce a propojuje jednotlivé skills do koherentního tvůrčího řetězce.

🎯 Co agent umí

ComfyUI-Expert pokrývá celý produkční workflow:

generování a editaci obrazu (SDXL, Flux, ControlNet, IP-Adapter)
video generaci a interpolaci (AnimateDiff, Wan2.1, CogVideoX, SVD)
klonování hlasu a synchronizaci audia s video lip sync
trénink vlastních LoRA modelů s automatickou přípravou datasetů
upscaling, inpainting a batch zpracování
export a publikování na YouTube, Civitai nebo HuggingFace Hub

Každou z těchto oblastí pokrývá samostatná skill s vlastní konfigurací a logikou. Agent dynamicky volí správnou skill podle vašeho požadavku.

⚙️ Co znamená session-scoped

Klíčová vlastnost agenta je paměť v rámci session. To v praxi znamená:

agent ví, jaké modely a checkpointy preferujete
pamatuje si nastavení kvality a předchozí projekty
nemusíte každý den znovu konfigurovat workflow
při přepínání mezi skills zachovává kontext celé produkce

Agent běží jako Claude Code proces s přímým přístupem k lokálnímu ComfyUI. Čte a zapisuje workflows, spouští Python skripty a komunikuje s externími API — vše z jednoho místa bez manuálního přepínání nástrojů.

🧩 12 specializovaných skills

Agent obsahuje tyto moduly:

Image Generation — správa modelů, seed management, optimalizace promptů
Image-to-Image — ControlNet, IP-Adapter, stylový transfer
Video Generation — AnimateDiff, Wan2.1, CogVideoX, temporální konzistence
Video Editing — interpolace, upscaling, batch queue management
Voice Cloning — RVC a Tortoise TTS, lip sync synchronizace
LoRA Training — příprava datasetů, trénink, monitoring loss curves
Upscaling — Real-ESRGAN, inteligentní výběr modelu podle obsahu
Inpainting & Outpainting — SAM segmentace, kontextové doplňování
Audio Synchronization — beat detection, vizuály řízené audio signálem
Prompt Engineering — optimalizace, A/B testování, knihovna promptů
Batch Processing — paralelní fronty, dynamické přidělování VRAM
Publishing Pipeline — export, metadata, thumbnail generace

🚀 Typický workflow od promptu po publikování

Praktický příklad tvorby AI videa ukazuje, jak agent propojuje skills do jednoho řetězce: nejprve optimalizuje prompt, vygeneruje konzistentní keyframes s vaším charakterem nebo LoRA modelem, animuje je přes AnimateDiff nebo Wan2.1, namixuje dabing a synchronizuje zvuk s obrazem, provede upscaling a barevné korekce — a nakonec nahraje výsledek na zvolenou platformu včetně automaticky vygenerovaného thumbnailu a metadat.

Celý tento řetězec, který by jinak vyžadoval přepínání mezi desítkami nástrojů, zvládne agent řídit samostatně na základě jediného zadání.

🖥️ Lokální provoz, žádná data do cloudu

Agent běží kompletně lokálně v ComfyUI. Všechny modely, data i výstupy zůstávají na vašem počítači — bez poplatků za API volání na generování a bez odesílání obsahu na cizí servery. To je zásadní výhoda oproti cloudovým řešením, zejména při práci s komerčním nebo citlivým obsahem.

Požadavky jsou minimální: běžící instance ComfyUI, Claude Code CLI a Python 3.10+. Pro video generaci a LoRA trénink se doporučuje GPU s alespoň 8 GB VRAM.

📦 Instalace a repozitář

Projekt je open source pod MIT licencí a dostupný na GitHubu. Instalace probíhá přes standardní pip install a spuštění Claude Code s MCP serverem. Nové skills lze přidávat jako samostatné Python moduly bez zásahu do jádra agenta.

Repozitář: github.com/MCKRUZ/ComfyUI-Expert