New technique of speaker recognition based on the clustering anns

โดย สุวุฒิ  ตุ้มทอง

ปี 2553

บทคัดย่อ (Abstract)

ระบบการรู้จำผู้พูด คือ ระบบการรู้จำอัตโนมัติที่สามารถแยกแยะผู้พูด โดยอาศัยคุณสมบัติเฉพาะตัวที่แตกต่างกันของสัญญาณสียง การแยกแยะผู้พูดเป็นการประมวลสัญญาณเพื่อแยกผู้พูดทั้งนี้จะต้องมีฐานข้อมูลของผู้พูดนั้น  เทคนิคของระบบการรู้จำผู้พูดสามารถนำไปใช้ประโยชน์สำหรับการควบคุมและสั่งงาน เช่นการใช้เสียงสั่งการโทรศัพท์เป็นต้น มีเทคนิคอยู่หลายชนิดที่ใช้ในการประมวลสัญญาณและเก็บข้อมูลเสียงสำหรับระบบการรู้จำผู้พูดเช่น การประมาณเชิงความถี่ ฮิดเดนมาคอฟ วิธีการเทียบเคียงรูปแบบ โครงข่ายประสาทเทียม เวคเตอร์ควอนไตร์เซชั่นเป็นต้น งานวิจัยนี้ได้ศึกษาและใช้โครงข่ายประสาทเทียมสำหรับบ่งชี้และแยกแยะผู้พูด

โครงข่ายประสาทเทียมเป็นการเชื่อมต่อกันของโนดในแต่ละโนด จนกลายเป็นโครงข่ายซึ่งใช้สมการทางคณิตศาสตร์ในการประมวลผล ทั้งนี้การคำนวณของฟังก์ชั่นต่างๆขึ้นอยู่กับการต่อเชื่อมกันของโนด ในงานวิจัยนี้โครงข่ายประสาทเทียมชนิด Kohonen Self-Organizing Feature Maps (KSOFM) ได้ถูกนำมาใช้ในการศึกษาระบบการรู้จำผู้พูดทั้งนี้จำนวนโนดที่ใช้ในการทดลองนี้มี 25, 36 และ 64 โนด สัญญาณเสียงสำหรับอินพุตได้บันทึกมาจากเสียงผู้ชาย 50 คนและผู้หญิง 10 คน และแต่ละคนพูดคนละ 3 วลีโดยแต่ละวลีมีไม่น้อยกว่า 3 คำ

ผลการทดลองพบว่าการใช้โนด 25 โนดใน KSOFM ระบบได้ให้ความถูกต้องในการแยกแยะกลุ่มผู้พูดได้ 64.99% และการใช้โนด 64 โนดใน KSOFM ระบบได้ให้ความถูกต้องในการแยกแยะกลุ่มผู้พูดได้ 89.99% ทั้งนี้ระบบการรู้จำผู้พูดได้ให้ความถูกต้องในการระบุผู้พูดเฉลี่ย 78.33% อย่างไรก็ตามผลการทดลองนี้ขึ้นอยู่กับวลีของคำพูดที่ใช้ในการทดลอง ฟังก์ชั่นป้อนกลับและฟังก์ชั่นการตัดสินใจของ KSOFM

Speaker recognition system is the process of automatically recognizing who is speaking on the basis of individual information included in speech signal. Speaker identification is the process of determining which registered speaker provides a given utterance. This technique makes it possible to use the speaker’s voice to verify their identity and control access to services such as voice dialing. The various technologies used to process and store speech signal include frequency estimation, hidden Markov models, pattern matching algorithms, neural networks, representation, and Vector Quantization. This research uses Artificial Neural Networks for identification and verification speaker.

An artificial neural network (ANN) is an interconnected group of natural or artificial neurons that uses a mathematical or computational model for information processing based on a connectionistic approach to computation. This research applies the Kohonen Self-Organizing Feature Maps (KSOFM) neural network‎ which uses 25, 36 and 64 nodes to identify and recognize the speaker. Speech input is collected from 50 male and 10 female speakers. All speakers speak the 3 phase that each phase contains at least 3 words.

The results show that the KSOFM with 25 nodes provide the minimum accuracy to classify the group of speaker approximately 64.99%. Also the KSOFM with 64 nodes provide the maximum accuracy to classify the group of speaker approximately 89.99%. Finally, this speaker recognition system provides the average accuracy to identify the speaker 78.33%. However this is depended on the phase of speech signal and the feed back and classifies function of KSOFM.

 

DOWNLOAD : การรู้จำผู้พูดโดยใช้เทคนิคโครงข่ายประสาทเทียมแบบคลัสเตอร์ริ่ง