🚀 Kostenlos loslegen

Deine Stimme, dein Modell, deine Daten — Schritt für Schritt

📋 Drei Schritte zur KI-Stimme

1
Aufnehmen2-5 Min Referenz
2
Trainieren2-8 Stunden
3
GenerierenUnbegrenzt

⚡ Schnellstart (Zero-Shot)

Funktioniert sofort — kein Training nötig. Lade das XTTS-Modell und generiere aus einem einzigen Audio-Sample.

Voraussetzungen

Installation

# Virtuelles Environment
python3 -m venv venv
source venv/bin/activate  # Linux/Mac

# PyTorch (CPU)
pip install torch --index-url https://download.pytorch.org/whl/cpu

# TTS + Abhängigkeiten
pip install TTS soundfile scipy numpy

Generieren

python clone_voice.py "Hallo Welt, das ist ein Test."
# → output.wav

# Mit eigener Referenz
python clone_voice.py "Dein Text hier" -o ergebnis.wav -r meine_stimme.wav

💡 Für GPU: Ersetze die PyTorch-URL durch cu121 statt cpu.

🎙️ Die Aufnahme — Qualität beginnt am Mikrofon

💡 Der Nordwind-Text (empfohlen)

Die Aesop-Fabel deckt alle kritischen Phoneme des Deutschen ab:

  • Umlaute: würde, mütig, gewöhnt
  • Zischlaute: stritten, strählte, wärme
  • Konsonantencluster: ndwind, überflügelt, geschlossen
  • Emotion: „Er blies und blies" — Dynamik & Betonung
  • Prosodie: Dialog, Erzählung, Konflikt, Lösung in einem Text

Auch für einfache Sample-Klonierung bringt dieser Text deutlich bessere Ergebnisse als zufällige Alltagstexte.

📄 Nordwind-Text herunterladen

Aufnahme-Checkliste

AspektEmpfehlung
EquipmentSmartphone reicht, besser: USB-Mic (Blue Yeti, Rode NT-USB)
UmgebungLeiser Raum, keine Echos. Tipp: Kleiderschrank = kostenloses Studio
Abstand15-30cm vom Mikrofon
FormatWAV oder FLAC, 24kHz, Mono
Länge30 Sekunden Minimum, 2-5 Minuten optimal
StilNatürlich sprechen, nicht vortragen

🧠 Deep Dive: F5-TTS Fine-Tuning

Für beste Ergebnisse bei wiederholter Nutzung. Dein persönliches Modell, trainiert auf deiner Stimme.

Wann sinnvoll?

Voraussetzungen

Ablauf

# 1. Audio transkribieren (Whisper)
pip install transformers torch
python transcribe.py meine_aufnahme.wav

# 2. Texte zuordnen → metadata.csv
# audio_file|text
# wavs/satz_01.wav|Der Nordwind und die Sonne...

# 3. Dataset vorbereiten
python -m f5_tts.train.datasets.prepare_csv_wavs metadata.csv ./dataset

# 4. Training starten
python run_training_v2.py 300   # ~2h auf RTX 3060

Training-Zeiten

SetupEpochenZeit (RTX 3060)Qualität
Light300~2 StundenGut
Medium800~4 StundenSehr gut
Heavy1600~8 StundenExzellent

Generieren mit dem trainierten Modell

python gen_f5_final.py "Dein Text hier" -o output.wav

💻 Hardware-Anforderungen

KonfigurationTrainingGenerierungEmpfohlen
RTX 3060/4060 (12GB)~2-8h~10s/Min⭐ Beste
RTX 2060 (6GB)~4-16h~20s/MinGut
Nur CPU (i5/i7)~20-80h~2-5m/MinNur Generierung
Apple Silicon M1-M3~6-24h~30s/MinGut

💡 Tipp: Keine Grafikkarte? Nutze den Service fürs Training und generiere lokal auf CPU — das geht in akzeptabler Geschwindigkeit.

🔧 VRAM-Tipps: 8-Bit Adam spart 40% VRAM. Mit 12GB: 65 Sätze bei Batch 1600. Mit 8GB: 30 Sätze bei Batch 800.

🔧 Fehlerbehebung

ProblemLösung
torchcodec DLL-Fehler (Windows)Monkey-Patch mit soundfile statt torchaudio
PyArrow + PyTorch Kollisionimport torch, torchaudio, datasets zuerst
Access Violation 0xC0000005Bekannter Windows-Bug, harmlos, Modell ist gespeichert
Whisper zerschneidet SätzeSatzzeichen-Flush (.!?) implementieren
MoviePy RAM-OverflowAlle Clips .close() nach Export
OOM bei TrainingBatch-Size halbieren, 8-Bit Adam nutzen

📦 Code-Download

Die kompletten Scripte zum Selbstausprobieren:

Hinweis: Die Scripte benötigen eigene Aufnahmen. Basismodelle (XTTS, F5-TTS) werden automatisch bei erstem Start heruntergeladen.

📘 Anleitung als Markdown herunterladen