AN EFFICIENT OF LPC AND LSP TRAJECTORY IN THAI SPEECH RECOGNITION WITH ARTIFICIAL NEURAL NETWORKS
โดย สุวรรณ รื่นสุคนธ์
ปี 2552
บทคัดย่อ
วิทยานิพนธ์ฉบับนี้ได้นำเสนอการวิเคราะห์หาแนวทางเดินเสียงพูดโดยใช้การสกัดค่า คุณลักษณะสำคัญแบบสัมประสิทธิ์คู่เส้นสเปกตรัม (LSP) ในการวิเคราะห์หาช่วงของระบบที่ดีที่สุด และนำมาวิเคราะห์ร่วมกับโครงข่ายประสาทเทียม (ANN) เพื่อให้ระบบมีการรู้จดจำที่ดีขึ้น และมี ความแม่นยำในการคัดแยกสัญญาณเสียงแต่ละสัญญาณออกจากกัน
สัญญาณเสียงที่นำมาทำการวิเคราะห์เป็นสัญญาณเสียง “ ศูนย์ ” ถึง “ เก้า ” ซึ่งเป็นลำดับจำนวน นับตัวเลขภาษาไทยจำนวน 10 คำ แบ่งเป็นสัญญาณเสียงผู้ชาย 100 คน และสัญญาณเสียงผู้หญิง 100 คน บันทึกสัญญาณคนละ 3 รอบ จะมีข้อมูลโดยรวมจำนวน 600 สัญญาณเสียงทั้งชายและหญิง โดย แบ่งเป็นกลุ่มตัวอย่างและกลุ่มทดสอบ ในส่วนแรกจะนำข้อมูลทั้งหมดมาวิเคราะห์หาคุณลักษณะ สำคัญของ LPC และ LSP ที่อันดับ 10, 25, 50 และ 75 ตามลำดับ และนำมาทดสอบหาระยะห่าง ระหว่างข้อมูล เพื่อเลือกช่วงที่เหมาะสมไปทำการเรียนรู้จดจำกับระบบโครงข่ายประสาทเทียม
จากการสกัดค่าคุณลักษณะสำคัญ LSP อันดับที่ 50 จะเป็นช่วงเหมาะสมที่สุด จึงนำมาทำการ เรียนรู้จดจำระบบโครงข่ายประสาทเทียม โดยความแม่นยำในการรู้จำของระบบโครงข่ายประสาท เทียมในกลุ่มทดสอบที่เป็นสัญญาณเสียงผู้หญิงนั้นให้ความถูกต้องสูงสุดอยู่ที่ 99 เปอร์เซ็นต์ ในชุด สัญญาณเสียงตัวเลข “ สี่ ” และความถูกต้องเฉลี่ยอยู่ที่ 84.20 เปอร์เซ็นต์ ส่วนในกลุ่มทดสอบที่เป็น สัญญาณเสียงผู้ชายนั้นให้ความถูกต้องสูงสุดอยู่ที่ 99 เปอร์เซ็นต์ ในชุดสัญญาณเสียงตัวเลข “ ศูนย์ ” และความถูกต้องเฉลี่ยอยู่ที่ 87.40 เปอร์เซ็นต์