Deine Stimme, dein Modell, deine Daten — Schritt für Schritt
Funktioniert sofort — kein Training nötig. Lade das XTTS-Modell und generiere aus einem einzigen Audio-Sample.
# Virtuelles Environment python3 -m venv venv source venv/bin/activate # Linux/Mac # PyTorch (CPU) pip install torch --index-url https://download.pytorch.org/whl/cpu # TTS + Abhängigkeiten pip install TTS soundfile scipy numpy
python clone_voice.py "Hallo Welt, das ist ein Test." # → output.wav # Mit eigener Referenz python clone_voice.py "Dein Text hier" -o ergebnis.wav -r meine_stimme.wav
💡 Für GPU: Ersetze die PyTorch-URL durch cu121 statt cpu.
Die Aesop-Fabel deckt alle kritischen Phoneme des Deutschen ab:
Auch für einfache Sample-Klonierung bringt dieser Text deutlich bessere Ergebnisse als zufällige Alltagstexte.
📄 Nordwind-Text herunterladen| Aspekt | Empfehlung |
|---|---|
| Equipment | Smartphone reicht, besser: USB-Mic (Blue Yeti, Rode NT-USB) |
| Umgebung | Leiser Raum, keine Echos. Tipp: Kleiderschrank = kostenloses Studio |
| Abstand | 15-30cm vom Mikrofon |
| Format | WAV oder FLAC, 24kHz, Mono |
| Länge | 30 Sekunden Minimum, 2-5 Minuten optimal |
| Stil | Natürlich sprechen, nicht vortragen |
Für beste Ergebnisse bei wiederholter Nutzung. Dein persönliches Modell, trainiert auf deiner Stimme.
# 1. Audio transkribieren (Whisper) pip install transformers torch python transcribe.py meine_aufnahme.wav # 2. Texte zuordnen → metadata.csv # audio_file|text # wavs/satz_01.wav|Der Nordwind und die Sonne... # 3. Dataset vorbereiten python -m f5_tts.train.datasets.prepare_csv_wavs metadata.csv ./dataset # 4. Training starten python run_training_v2.py 300 # ~2h auf RTX 3060
| Setup | Epochen | Zeit (RTX 3060) | Qualität |
|---|---|---|---|
| Light | 300 | ~2 Stunden | Gut |
| Medium | 800 | ~4 Stunden | Sehr gut |
| Heavy | 1600 | ~8 Stunden | Exzellent |
python gen_f5_final.py "Dein Text hier" -o output.wav
| Konfiguration | Training | Generierung | Empfohlen |
|---|---|---|---|
| RTX 3060/4060 (12GB) | ~2-8h | ~10s/Min | ⭐ Beste |
| RTX 2060 (6GB) | ~4-16h | ~20s/Min | Gut |
| Nur CPU (i5/i7) | ~20-80h | ~2-5m/Min | Nur Generierung |
| Apple Silicon M1-M3 | ~6-24h | ~30s/Min | Gut |
💡 Tipp: Keine Grafikkarte? Nutze den Service fürs Training und generiere lokal auf CPU — das geht in akzeptabler Geschwindigkeit.
🔧 VRAM-Tipps: 8-Bit Adam spart 40% VRAM. Mit 12GB: 65 Sätze bei Batch 1600. Mit 8GB: 30 Sätze bei Batch 800.
| Problem | Lösung |
|---|---|
| torchcodec DLL-Fehler (Windows) | Monkey-Patch mit soundfile statt torchaudio |
| PyArrow + PyTorch Kollision | import torch, torchaudio, datasets zuerst |
| Access Violation 0xC0000005 | Bekannter Windows-Bug, harmlos, Modell ist gespeichert |
| Whisper zerschneidet Sätze | Satzzeichen-Flush (.!?) implementieren |
| MoviePy RAM-Overflow | Alle Clips .close() nach Export |
| OOM bei Training | Batch-Size halbieren, 8-Bit Adam nutzen |
Die kompletten Scripte zum Selbstausprobieren:
Hinweis: Die Scripte benötigen eigene Aufnahmen. Basismodelle (XTTS, F5-TTS) werden automatisch bei erstem Start heruntergeladen.
📘 Anleitung als Markdown herunterladen