06/08/2025

Kitten TTS – Le modèle de synthèse vocale de 25MB qui fait parler votre grille-pain

Par admin

Kitten TTS - Le modèle de synthèse vocale de 25MB qui fait parler votre grille-pain

Ceci est un truc qui pourrait bien vous intéresser surtout si vous implémentez de la synthèse vocale dans vos projets… Kitten TTS, c’est son petit nom, est un modèle qui fait seulement 25MB et qui est capable de générer de la voix de qualité professionnelle sur n’importe quelle machine, même votre vieux Raspberry Pi qui prend la poussière dans un tiroir.

Le créateur, Divam Gupta de KittenML, l’a sorti hier, et avec ses 15 millions de paramètres (c’est rien du tout comparé aux monstres habituels), Kitten TTS arrive à produire 8 voix différentes (4 féminines et 4 masculines) toutes expressives et naturelles. Le tout sans GPU, juste avec votre bon vieux processeur. C’est mieux que de la magie noire.

Pour comprendre à quel point c’est cool, faut savoir que jusqu’à maintenant, si vous vouliez de la synthèse vocale correcte, vous aviez deux options. Soit vous utilisiez des services cloud comme ceux d’Amazon ou Google (bonjour la latence et les frais), soit vous installiez des modèles énormes qui demandaient une RTX 4090 pour tourner correctement. Piper TTS était déjà pas mal dans le genre léger, mais Kitten TTS est encore plus petit et plus expressif. On parle d’un RTF (Real-Time Factor) de 0.73, ce qui veut dire que ça génère l’audio plus vite que le temps réel.

Le truc vraiment bien, c’est que c’est sous licence Apache 2.0 donc vous pouvez l’utiliser commercialement sans payer un centime. Imaginez les possibilités ! Vous développez un jeu indé ? Boom, voix-off gratuite et de qualité. Vous voulez créer un assistant vocal pour votre domotique ? C’est parti, tout tourne en local sans envoyer vos données à Google. Vous bossez sur des outils d’accessibilité ? Kitten TTS peut s’intégrer directement dans NVDA ou d’autres lecteurs d’écran pour donner une voix naturelle aux malvoyants.

L’installation, c’est du pip install tout bête depuis les releases GitHub. Le repo KittenML/KittenTTS est déjà en train d’exploser avec la communauté qui commence à bidouiller dessus. Vous pouvez aussi récupérer le modèle sur Hugging Face si vous préférez. Et pour ceux qui veulent échanger, y’a même un Discord communautaire qui se monte.

Voici comment l’installer :

python -m venv .venv
source .venv/bin/activate
pip install https://github.com/KittenML/KittenTTS/releases/download/0.1/kittentts-0.1.0-py3-none-any.whl

Voici un code d’exemple :

from kittentts import KittenTTS
import soundfile as sf

print("Loading KittenTTS model... Meow! 🐱")
# This downloads the model from Hugging Face the first time
m = KittenTTS("KittenML/kitten-tts-nano-0.1")

text = "Hello my name is Korben. Thank you for reading my blog."

print(f"Generating audio for: '{text}'")
# Generate the audio waveform
audio = m.generate(text)

# Save the audio to a file at 24kHz sample rate
output_file = 'hello_kitten.wav'
sf.write(output_file, audio, 24000)

print(f"✅ Audio saved to {output_file}! Go listen to it!")

A lancer comme ceci :

python test_kitten.py

Et en quelques secondes, ça vous fera un joli MP3 que voici :

Vous vous en doutez, comme d’hab, pour le moment, c’est anglais uniquement mais les dev bossent sur d’autres langues, alors faudra patienter un peu. Et puis c’est encore en “developer preview”, donc y’a quelques artefacts audio par-ci par-là. Mais pour un modèle de 25MB qui tourne sur une patate, le résultat est bluffant.

Avec ce truc, tous vos objets connectés peuvent maintenant parler avec une voix naturelle, sans connexion internet, sans latence, et sans bouffer votre batterie. Votre frigo peut vous dire qu’il manque du lait avec la voix de Garou. Votre voiture peut vous guider avec une voix sympa au lieu du robot monotone “Ministère de l’Interieur” habituel. Et tout ça en local, donc pas de problème de vie privée.

La comparaison avec Piper TTS est intéressante car Piper reste plus mature avec un écosystème plus développé et plus de langues supportées, mais Kitten TTS a l’avantage d’être encore plus petit et plus expressif pour l’anglais. Pour un projet qui vient de sortir, c’est impressionnant. J’ai donc super hâte de voir débarquer des forks et des améliorations dans les semaines qui viennent.

Si vous voulez tester, le modèle est dispo, et la doc commence à être pas mal. Alors pour une fois qu’on a un outil d’IA vraiment accessible qui ne demande pas une ferme de serveurs pour tourner, faut en profiter. Et puis pouvoir dire “mon grille-pain m’a conseillé ce matin d’investir dans des actions Nvidia”, c’est quand même la classe.

Allez faire un tour sur le site du projet pour voir les démos et comprendre pourquoi ce petit modèle de 25MB est en train de faire trembler les géants du TTS.

L’avenir de la synthèse vocale, c’est peut-être bien un chaton qui tient dans votre poche.

Source : korben.info