🗣️ (Alpha) iApp Text-to-Speech (TTS) + การโคลนเสียง 🆕

🗣️ API การสังเคราะห์เสียงพูดจากข้อความโดยใช้ AI

ยินดีต้อนรับสู่ iApp TTSv3 API บริการสังเคราะห์เสียงพูดจากข้อความที่ล้ำสมัย ซึ่งแปลงข้อความเป็นเสียงพูดที่ฟังดูเป็นธรรมชาติ API ของเราใช้แบบจำลอง AI ขั้นสูงในการสร้างเสียงจากข้อความป้อนเข้าด้วยความแม่นยำและความเร็วที่ยอดเยี่ยม

ลองใช้ตัวอย่าง

Example File (Click to try)

Selected: vc-demo.mp3

API Key

Demo key is limited to 10 requests per day per IP
Click here to get your API key

Endpoint URL

cURL Command

โปรดป้อนข้อความที่คุณต้องการแปลที่นี่

โปรดป้อนข้อความเสียงต้นฉบับของคุณ

Upload Audio File

เริ่มต้นใช้งาน

ข้อกำหนดเบื้องต้น

ข้อความป้อนเข้าเป็นภาษาอังกฤษเท่านั้น
โทเค็นสูงสุด: 1400
รูปแบบเอาต์พุต: WAV
ไฟล์เสียงต้นฉบับ: รูปแบบ WAV (ไม่บังคับ)

เริ่มต้นใช้งานอย่างรวดเร็ว

การประมวลผลที่รวดเร็วด้วยการเร่งความเร็ว GPU
การสร้างเสียงพูดที่เป็นธรรมชาติ
เอาต์พุตเสียงคุณภาพสูง

คุณสมบัติหลัก

การโคลนเสียงจากไฟล์เสียงต้นฉบับ
ข้อความป้อนเข้าเป็นภาษาอังกฤษเท่านั้น
การสังเคราะห์เสียงพูดที่เป็นธรรมชาติโดยใช้ AI ที่ทันสมัย
การปรับแต่งคุณภาพเสียงขั้นสูงผ่านพารามิเตอร์
เวลาตอบสนองที่รวดเร็ว
อินเทอร์เฟซ API REST ที่ใช้งานง่าย

การใช้งาน API

จุดสิ้นสุด

POST /tts - สร้างเสียงพูดจากข้อความและดาวน์โหลดเป็นไฟล์

ตัวอย่างการร้องขอ API

การใช้ cURL พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

# ตรวจสอบสถานะ
curl http://localhost:8000/health

# สร้างเสียงพูดและบันทึกไปยังไฟล์
curl -X POST http://localhost:8000/tts \
  -H "Content-Type: multipart/form-data" \
  -F "text=Hello, this is a test." \
  -F "source_vc_text=Transcription of source_voice_clone.wav file" \
  -F "temperature=0.7" \
  -F "top_p=0.95" \
  -F "source_voice_file=@source_voice_clone.wav" \
  --output test.wav

การใช้ Python พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

import requests
with open("source_voice_clone.wav", "rb") as f:
    # คำขอ Text-to-speech
    response = requests.post(
        "http://localhost:8000/tts",
        files={
            "source_vc_file": ("source_voice_clone.wav", f, "audio/wav")
        },
        data={
        "text": "Hello, this is a test.",
        "temperature": 0.9,
        "top_p": 0.95,
        "max_new_tokens": 1400,
        "source_vc_text": "Transcription of source_voice_clone.wav file"
        }
    )

# บันทึกการตอบสนองเสียงไปยังไฟล์
with open("output.wav", "wb") as f:
    f.write(response.content)

พารามิเตอร์การร้องขอ (form-data)

พารามิเตอร์	ชนิด	คำอธิบาย	ค่าเริ่มต้น
text	string	ข้อความที่จะแปลงเป็นเสียงพูด	จำเป็น
temperature	float	อุณหภูมิการสร้าง (สูงกว่า = สุ่มมากขึ้น)	0.2
top_p	float	พารามิเตอร์การสุ่มตัวอย่าง Top-p	0.95
max_new_tokens	integer	จำนวนโทเค็นสูงสุดที่จะสร้าง	1400
source_vc_file	file	ไฟล์เสียงต้นฉบับ (รูปแบบ WAV)	ไม่บังคับ
source_vc_text	string	ข้อความที่จะแปลงเป็นเสียงพูดสำหรับเสียงต้นฉบับ	จำเป็นหากระบุ source_vc_file

แนวทางปฏิบัติที่ดีที่สุด

ใช้เครื่องหมายวรรคตอนอย่างถูกต้องเพื่อการสังเคราะห์เสียงที่ดีขึ้น
รักษาประโยคให้เป็นธรรมชาติและสนทนา
สำหรับข้อความยาว ให้พิจารณาแบ่งออกเป็นส่วนย่อย
ปรับพารามิเตอร์อุณหภูมิและ top-p เพื่อควบคุมสไตล์เสียง:
- อุณหภูมิต่ำ (0.1-0.5): เสียงที่สม่ำเสมอและเสถียรมากขึ้น
- อุณหภูมิสูง (0.6-1.0): มีความแสดงออกมากกว่า แต่คาดเดาได้น้อยลง

🗣️ (Alpha) iApp Text-to-Speech (TTS) + การโคลนเสียง 🆕

ลองใช้ตัวอย่าง

Example File (Click to try)

เริ่มต้นใช้งาน

ข้อกำหนดเบื้องต้น

เริ่มต้นใช้งานอย่างรวดเร็ว

คุณสมบัติหลัก

การใช้งาน API

จุดสิ้นสุด

ตัวอย่างการร้องขอ API

การใช้ cURL พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

การใช้ Python พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

พารามิเตอร์การร้องขอ (form-data)

แนวทางปฏิบัติที่ดีที่สุด

ChindaX

Speechflow

ลองใช้ตัวอย่าง​

Example File (Click to try)

เริ่มต้นใช้งาน​

ข้อกำหนดเบื้องต้น​

เริ่มต้นใช้งานอย่างรวดเร็ว​

คุณสมบัติหลัก​

การใช้งาน API​

จุดสิ้นสุด​

ตัวอย่างการร้องขอ API​

การใช้ cURL พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:​

การใช้ Python พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:​

พารามิเตอร์การร้องขอ (form-data)​

แนวทางปฏิบัติที่ดีที่สุด​

ลองใช้ตัวอย่าง

เริ่มต้นใช้งาน

ข้อกำหนดเบื้องต้น

เริ่มต้นใช้งานอย่างรวดเร็ว

คุณสมบัติหลัก

การใช้งาน API

จุดสิ้นสุด

ตัวอย่างการร้องขอ API

การใช้ cURL พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

การใช้ Python พร้อมไฟล์เสียงต้นฉบับเพื่อโคลนเสียง:

พารามิเตอร์การร้องขอ (form-data)

แนวทางปฏิบัติที่ดีที่สุด