Anleitung — StimmeKlonen.de

⚡ Schnellstart (Zero-Shot)

Funktioniert sofort — kein Training nötig. Lade das XTTS-Modell und generiere aus einem einzigen Audio-Sample.

Voraussetzungen

Python 3.11+
4GB RAM
Optional: NVIDIA GPU für Geschwindigkeit

Installation

# Virtuelles Environment
python3 -m venv venv
source venv/bin/activate  # Linux/Mac

# PyTorch (CPU)
pip install torch --index-url https://download.pytorch.org/whl/cpu

# TTS + Abhängigkeiten
pip install TTS soundfile scipy numpy

Generieren

python clone_voice.py "Hallo Welt, das ist ein Test."
# → output.wav

# Mit eigener Referenz
python clone_voice.py "Dein Text hier" -o ergebnis.wav -r meine_stimme.wav

💡 Für GPU: Ersetze die PyTorch-URL durch cu121 statt cpu.

🎙️ Die Aufnahme — Qualität beginnt am Mikrofon

💡 Der Nordwind-Text (empfohlen)

Die Aesop-Fabel deckt alle kritischen Phoneme des Deutschen ab:

Umlaute: würde, mütig, gewöhnt
Zischlaute: stritten, strählte, wärme
Konsonantencluster: ndwind, überflügelt, geschlossen
Emotion: „Er blies und blies" — Dynamik & Betonung
Prosodie: Dialog, Erzählung, Konflikt, Lösung in einem Text

Auch für einfache Sample-Klonierung bringt dieser Text deutlich bessere Ergebnisse als zufällige Alltagstexte.

📄 Nordwind-Text herunterladen

Aufnahme-Checkliste

Aspekt	Empfehlung
Equipment	Smartphone reicht, besser: USB-Mic (Blue Yeti, Rode NT-USB)
Umgebung	Leiser Raum, keine Echos. Tipp: Kleiderschrank = kostenloses Studio
Abstand	15-30cm vom Mikrofon
Format	WAV oder FLAC, 24kHz, Mono
Länge	30 Sekunden Minimum, 2-5 Minuten optimal
Stil	Natürlich sprechen, nicht vortragen

🧠 Deep Dive: F5-TTS Fine-Tuning

Für beste Ergebnisse bei wiederholter Nutzung. Dein persönliches Modell, trainiert auf deiner Stimme.

Wann sinnvoll?

Regelmäßige Audio-Generierung
Hohe Natürlichkeit wichtig
Umlaute/Zischlaute sollen perfekt klingen

Voraussetzungen

30+ Minuten Aufnahme (oder 50+ einzelne Sätze)
NVIDIA GPU mit 8GB+ VRAM (empfohlen)
20GB freier Speicherplatz

Ablauf

# 1. Audio transkribieren (Whisper)
pip install transformers torch
python transcribe.py meine_aufnahme.wav

# 2. Texte zuordnen → metadata.csv
# audio_file|text
# wavs/satz_01.wav|Der Nordwind und die Sonne...

# 3. Dataset vorbereiten
python -m f5_tts.train.datasets.prepare_csv_wavs metadata.csv ./dataset

# 4. Training starten
python run_training_v2.py 300   # ~2h auf RTX 3060

Training-Zeiten

Setup	Epochen	Zeit (RTX 3060)	Qualität
Light	300	~2 Stunden	Gut
Medium	800	~4 Stunden	Sehr gut
Heavy	1600	~8 Stunden	Exzellent

Generieren mit dem trainierten Modell

python gen_f5_final.py "Dein Text hier" -o output.wav

💻 Hardware-Anforderungen

Konfiguration	Training	Generierung	Empfohlen
RTX 3060/4060 (12GB)	~2-8h	~10s/Min	⭐ Beste
RTX 2060 (6GB)	~4-16h	~20s/Min	Gut
Nur CPU (i5/i7)	~20-80h	~2-5m/Min	Nur Generierung
Apple Silicon M1-M3	~6-24h	~30s/Min	Gut

💡 Tipp: Keine Grafikkarte? Nutze den Service fürs Training und generiere lokal auf CPU — das geht in akzeptabler Geschwindigkeit.

🔧 VRAM-Tipps: 8-Bit Adam spart 40% VRAM. Mit 12GB: 65 Sätze bei Batch 1600. Mit 8GB: 30 Sätze bei Batch 800.

🔧 Fehlerbehebung

Problem	Lösung
torchcodec DLL-Fehler (Windows)	Monkey-Patch mit soundfile statt torchaudio
PyArrow + PyTorch Kollision	`import torch, torchaudio, datasets` zuerst
Access Violation 0xC0000005	Bekannter Windows-Bug, harmlos, Modell ist gespeichert
Whisper zerschneidet Sätze	Satzzeichen-Flush (.!?) implementieren
MoviePy RAM-Overflow	Alle Clips `.close()` nach Export
OOM bei Training	Batch-Size halbieren, 8-Bit Adam nutzen

📦 Code-Download

Die kompletten Scripte zum Selbstausprobieren:

clone_voice.py — XTTS Zero-Shot Klonierung
clone_voice2.py — XTTS mit erweiterten Optionen
gen_f5.py / gen_f5_final.py — F5-TTS Generierung
run_training_v2.py — LoRA Fine-Tuning Pipeline
process_video.py — Automatisches Video-Dubbing
compare_models.py — Modellvergleich (A/B Testing)
setup.sh / setup.ps1 — Setup-Scripte

Hinweis: Die Scripte benötigen eigene Aufnahmen. Basismodelle (XTTS, F5-TTS) werden automatisch bei erstem Start heruntergeladen.

📘 Anleitung als Markdown herunterladen

🚀 Kostenlos loslegen

📋 Drei Schritte zur KI-Stimme

⚡ Schnellstart (Zero-Shot)

Voraussetzungen

Installation

Generieren

🎙️ Die Aufnahme — Qualität beginnt am Mikrofon

💡 Der Nordwind-Text (empfohlen)

Aufnahme-Checkliste

🧠 Deep Dive: F5-TTS Fine-Tuning

Wann sinnvoll?

Voraussetzungen

Ablauf

Training-Zeiten

Generieren mit dem trainierten Modell

💻 Hardware-Anforderungen

🔧 Fehlerbehebung

📦 Code-Download