Gemini TTS接口

Gemini 文本转语音（TTS）接口

文本转语音

将文本转换为语音音频。

POSTEndpoint

https://api.xty.app/v1/audio/speech

兼容 OpenAI 的 /v1/audio/speech 请求规范，具体参数以模型支持为准。

支持模型

gemini-2.5-pro-preview-tts
gemini-2.5-flash-preview-tts

支持音色

音色	音色	音色
Zephyr - 明亮	Puck - 欢快	Charon - 信息丰富
Kore - Firm	Fenrir - Excitable	Leda - 青春
Orus - 公司	Aoede - Breezy	Callirrhoe - 轻松
Autonoe - 明亮	Enceladus - 气声	Iapetus - 清晰
Umbriel - 轻松自在	Algieba - 平滑	Despina - 平滑
Erinome - 清除	Algenib - Gravelly	Rasalgethi - 信息丰富
Laomedeia - 欢快	Achernar - 软	Alnilam - Firm
Schedar - Even	Gacrux - 成熟	Pulcherrima - 直率
Achird - 友好	Zubenelgenubi - 随意	Vindemiatrix - 温柔
Sadachbia - 活泼	Sadaltager - 知识渊博	Sulafat - 偏高

请求参数

参数名	类型	必填	描述
model	string	是	使用的模型ID，支持 `gemini-2.5-pro-preview-tts`、`gemini-2.5-flash-preview-tts`
input	string	是	要转换为语音的文本
voice	string	是	语音音色，见上方支持音色列表；多人说话可用 `角色:音色` 逗号分隔

多人说话格式：

voice：小明:Puck,小光:Leda
input：使用相同角色名前缀标注台词

请求示例

文件处理接口

通过 GPT Responses 接口传入文件 URL，让模型读取并分析 PDF 等文件内容

Midjourney接口

AI 绘图服务接口

On this page

文本转语音支持模型支持音色请求参数请求示例