Audio Models - GMI Cloud

Audio models turn text into speech, clone or style voices, generate music, or edit audio. Capabilities and latency profiles differ by provider and tier.

Technical topics

Text-to-speech (TTS) — Natural speech from text; variants tuned for quality vs speed.
Voice cloning — Reference audio to match timbre or style where supported.
Real-time / low-latency — Models optimized for interactive or live use cases.
Languages & prosody — Multilingual support, emotion, and pacing depend on the specific model.
Music generation — Lyrics- or prompt-driven music where available.

Model API & platform docs

For serving modes (serverless vs dedicated), billing, rate limits, task polling, and unified API patterns, see the API Reference section.

Model list

Model	Model ID	Organization
minimax-audio-voice-clone-speech-2.6-hd	minimax-audio-voice-clone-speech-2.6-hd	minimax
minimax-audio-voice-clone-speech-2.6-turbo	minimax-audio-voice-clone-speech-2.6-turbo	minimax
minimax-music-2.5	minimax-music-2.5	minimax
minimax-tts-speech-01-hd	minimax-tts-speech-01-hd	minimax
minimax-tts-speech-01-turbo	minimax-tts-speech-01-turbo	minimax
minimax-tts-speech-02-hd	minimax-tts-speech-02-hd	minimax
minimax-tts-speech-02-turbo	minimax-tts-speech-02-turbo	minimax
minimax-tts-speech-2.5-hd-preview	minimax-tts-speech-2.5-hd-preview	minimax
minimax-tts-speech-2.5-turbo-preview	minimax-tts-speech-2.5-turbo-preview	minimax
minimax-tts-speech-2.6-hd	minimax-tts-speech-2.6-hd	minimax
minimax-tts-speech-2.6-turbo	minimax-tts-speech-2.6-turbo	minimax
Realtime-tts-1.5-max	inworld-tts-1.5-max	inworld
Realtime-tts-1.5-mini	inworld-tts-1.5-mini	inworld
Realtime-tts-2	inworld-tts-2	inworld
Step-Audio-EditX	Step-Audio-EditX	stepfun-ai

Model Library

Documentation Index

​Technical topics

​Model API & platform docs

​Model list

Technical topics

Model API & platform docs

Model list