Skip to main content

🗣️ (Alpha) iApp Text-to-Speech (TTS) + การโคลนเสียง 🆕

🗣️ API การสังเคราะห์เสียงพูดจากข้อความโดยใช้ AI

Version Status New

ยินดีต้อนรับสู่ iApp TTSv3 API บริการสังเคราะห์เสียงพูดจากข้อความที่ล้ำสมัย ซึ่งแปลงข้อความเป็นเสียงพูดที่ฟังดูเป็นธรรมชาติ API ของเราใช้แบบจำลอง AI ขั้นสูงในการสร้างเสียงจากข้อความป้อนเข้าด้วยความแม่นยำและความเร็วที่ยอดเยี่ยม

ลองใช้ตัวอย่าง

Example File (Click to try)

Selected: vc-demo.mp3

Demo key is limited to 10 requests per day per IP
Click here to get your API key

เริ่มต้นใช้งาน

ข้อกำหนดเบื้องต้น

  • ข้อความป้อนเข้าเป็นภาษาอังกฤษเท่านั้น
  • โทเค็นสูงสุด: 1400
  • รูปแบบเอาต์พุต: WAV
  • ไฟล์เสียงต้นฉบับ: รูปแบบ WAV (ไม่บังคับ)

เริ่มต้นใช้งานอย่างรวดเร็ว

  • การประมวลผลที่รวดเร็วด้วยการเร่งความเร็ว GPU
  • การสร้างเสียงพูดที่เป็นธรรมชาติ
  • เอาต์พุตเสียงคุณภาพสูง

คุณสมบัติหลัก

  • การโคลนเสียงจากไฟล์เสียงต้นฉบับ
  • ข้อความป้อนเข้าเป็นภาษาอังกฤษเท่านั้น
  • การสังเคราะห์เสียงพูดที่เป็นธรรมชาติโดยใช้ AI ที่ทันสมัย
  • การปรับแต่งคุณภาพเสียงขั้นสูงผ่านพารามิเตอร์
  • เวลาตอบสนองที่รวดเร็ว
  • อินเทอร์เฟซ API REST ที่ใช้งานง่าย

การใช้งาน API

จุดสิ้นสุด

  • POST /tts - สร้างเสียงพูดจากข้อความและดาวน์โหลดเป็นไฟล์

ตัวอย่างการร้องขอ API

การใช้ cURL พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

# ตรวจสอบสถานะ
curl http://localhost:8000/health

# สร้างเสียงพูดและบันทึกไปยังไฟล์
curl -X POST http://localhost:8000/tts \
-H "Content-Type: multipart/form-data" \
-F "text=Hello, this is a test." \
-F "source_vc_text=Transcription of source_voice_clone.wav file" \
-F "temperature=0.7" \
-F "top_p=0.95" \
-F "source_voice_file=@source_voice_clone.wav" \
--output test.wav

การใช้ Python พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

import requests
with open("source_voice_clone.wav", "rb") as f:
# คำขอ Text-to-speech
response = requests.post(
"http://localhost:8000/tts",
files={
"source_vc_file": ("source_voice_clone.wav", f, "audio/wav")
},
data={
"text": "Hello, this is a test.",
"temperature": 0.9,
"top_p": 0.95,
"max_new_tokens": 1400,
"source_vc_text": "Transcription of source_voice_clone.wav file"
}
)

# บันทึกการตอบสนองเสียงไปยังไฟล์
with open("output.wav", "wb") as f:
f.write(response.content)

พารามิเตอร์การร้องขอ (form-data)

พารามิเตอร์ชนิดคำอธิบายค่าเริ่มต้น
textstringข้อความที่จะแปลงเป็นเสียงพูดจำเป็น
temperaturefloatอุณหภูมิการสร้าง (สูงกว่า = สุ่มมากขึ้น)0.2
top_pfloatพารามิเตอร์การสุ่มตัวอย่าง Top-p0.95
max_new_tokensintegerจำนวนโทเค็นสูงสุดที่จะสร้าง1400
source_vc_filefileไฟล์เสียงต้นฉบับ (รูปแบบ WAV)ไม่บังคับ
source_vc_textstringข้อความที่จะแปลงเป็นเสียงพูดสำหรับเสียงต้นฉบับจำเป็นหากระบุ source_vc_file

แนวทางปฏิบัติที่ดีที่สุด

  • ใช้เครื่องหมายวรรคตอนอย่างถูกต้องเพื่อการสังเคราะห์เสียงที่ดีขึ้น
  • รักษาประโยคให้เป็นธรรมชาติและสนทนา
  • สำหรับข้อความยาว ให้พิจารณาแบ่งออกเป็นส่วนย่อย
  • ปรับพารามิเตอร์อุณหภูมิและ top-p เพื่อควบคุมสไตล์เสียง:
    • อุณหภูมิต่ำ (0.1-0.5): เสียงที่สม่ำเสมอและเสถียรมากขึ้น
    • อุณหภูมิสูง (0.6-1.0): มีความแสดงออกมากกว่า แต่คาดเดาได้น้อยลง