Enhancement vector quantization technique for speech compression

โดย อรอนงค์  วิริยานุรักษ์นคร

ปี 2553

บทคัดย่อ (Abstract)

การบีบอัดสัญญาณเสียงพูดที่มี bit rate ต่ำๆ นิยมใช้รูปแบบการทำนายค่าพารามิเตอร์ (Linear Predictive Parameters model) หรือการเข้ารหัสแบบเชิงเส้น (Linear Predictive Coder : LPC) ซึ่งพารามิเตอร์นี้จะแสดงถึงค่าคุณลักษณะสเปกตรัมของสัญญาณเสียง (speech spectrum) ช่วงสั้น แต่พารามิเตอร์ LPC จะไม่ค่อยมีประสิทธิภาพสำหรับการควอนไตร์เซชั่น จึงส่งค่าพารามิเตอร์ LPC แปลงเป็นค่าพารามิเตอร์ของ LSF (Line Spectrum Frequencies) หรือ LSP (Line Spectrum Pairs) เพื่อปรับปรุงการเข้ารหัสสัญญาณเสียงพูดให้มีประสิทธิภาพดีขึ้น

ในงานวิจัยนี้ ได้ศึกษาเทคนิควิธีการบีบอัดสัญญาณเสียงพูดภาษาไทย โดยพัฒนาจากการเข้ารหัสสัญญาณเสียงพูดแบบ LPC-10 ด้วยการแปลงเป็นค่าพารามิเตอร์ LSP เพื่อหาคุณลักษณะเด่น

ผลการวิจัยพบว่า การบีบอัดสัญญาณเสียงพูดด้วยเทคนิคนี้สามารถลดจำนวนบิตเรตได้ 5.5-37% โดยลดค่าบิตในพารามิเตอร์ p1-p4 ทั้งในส่วนของสัญญาณเสียง Voice และ Unvoice งานวิจัยในอนาคตจึงมีแนวความคิดที่จะพัฒนาจำนวน bit rate ทางด้านความถี่สูงให้มีค่าเท่ากับสัญญาณเสียงต้นฉบับ โดยใช้หลักการของ Post-Processing

Linear Predictive Parameters (LPC) Model is wildly used to represent speech future for speech coding. These parameters extract to speech spectrum in short term corresponding that varies from 0 to . The consequence of this technique provide the efficiency quantization less than Line Spectrum Frequencies which takes corresponding between 0 to 1.

This research uses the LPFs to be the speech feature for speech coding system. A Finite State Vector Quantization, which used the Kohonen Self Organizing Feature Map, is used to improve the quantization technique for reducing bit rate of speech parameters.

The results show that the technique can be reduce bit rate to 5.5-37%. However the quality of speech signal is reduced in the term of high frequency when compares with the original speech. In the future work, the post-processing will be research to improve the quality of speech signal in term of high frequency.

 

DOWNLOAD : การพัฒนาเทคนิคเวคเตอร์ควอนไทซ์เซชั่นสำหรับการบีบอัดสัญญาณเสียง