IMPROVEMENT MFCC FEATURE FOR SPEECH RECOGNITION SYSTEM

โดย สุจิตรา จีนะวงษ์

ปี     2552

บทคัดย่อ
ระบบโครงข่ายประสาทเทียม (Artificial Neural Networks) ได้มีการประยุกต์ใช้ในงานวิจัยทางด้านการรู้จำเสียงพูด ทั้งนี้ระบบโครงข่ายประสาทเทียมมีความจำเป็นที่จะต้องเรียนรู้และจดจำคุณลักษณะของสัญญาณเสียงพูด โดยการเลือกใช้พารามิเตอร์ของเสียงคำพูด การเลือกจำนวนโนดเพื่อปรับโครงสร้างของโครงข่ายประสาทเทียมให้มีความเหมาะสมกับสัญญาณนั้นๆ ทั้งนี้จากการเลือกใช้พารามิเตอร์ของเสียงคำพูดที่ไม่เหมาะสม ทำให้จำนวนโนดในชั้นอินพุตของโครงข่าย
ประสาทเทียมมีจำนวนมาก ส่งผลให้การคำนวณและการฝึกฝนโครงข่ายประสาทเทียมใช้เวลามากเกินไป

วิทยานิพนธ์นี้นำเสนอการลดจำนวนคุณลักษณะสำคัญของสัมประสิทธิ์เซปสตรัมบนสเกลเมล(Mel Frequency Cepstral Coefficient : MFCC) สำหรับระบบการรู้จำเสียงพูด เพื่อใช้ในการฝึกฝนโครงข่ายประสาทเทียม การดึงคุณลักษณะเด่นของสัญญาณเสียงพูด จะใช้วิธีการหาค่า สัมประสิทธิ์เซปสตรัมบนสเกลเมล โดยแบ่ง เป็น 4, 5 , 6 , 7 และ 10 อันดับ ในส่วนของการรู้จำ จะใช้ระบบโครงข่ายประสาทเทียม ประเภทเพอเซปตรอนหลายชั้น (Multilayer perceptron : MLP) และ มีการเรียนรู้แบบแพร่กลับ (Backpropagation) สัญญาณเสียง ทางด้านอินพุต ได้มาจากผู้ชาย 100 คน และผู้หญิง 100 คน พูดคนละ 2 รอบ จะได้ข้อมูลเสียงพูดละ 400 เสียง นำมาฝึกฝนและทดสอบโครงข่ายประสาทเทียม

ผลการทดลองพบว่า อัตราความถูกต้องของการรู้จำโดยใช้ MFCC 4 คือ 87.1% (ผู้หญิง) ใช้เวลา ในการฝึกฝนคือ11 นาที และ80.2 % (ผู้ชาย) ใช้เวลาในการฝึกฝนคือ 12 นาที ส่วน MFCC 10 ให้อัตราการรู้จำที่ 90.9% (ผู้หญิง) และ 85.3% (ผู้ชาย) ใช้เวลาในการฝึกฝนเท่ากันคือ 22 นาที ซึ่ง MFCC4 ใช้เวลาน้อยกว่า MFCC10 เกือบ 2 เท่า

DOWNLOAD : IMPROVEMENT MFCC FEATURE FOR SPEECH RECOGNITION SYSTEM