Study and comparison of wavelet filter for speech compression
โดย สุภาธิณี กรสิงห์
ปี 2555
บทคัดย่อ (Abstract)
ปัจจุบันงานวิจัยทางด้านการบีบอัดสัญญาณเสียงมีวัตถุประสงค์คือการทำให้สัญญาณเสียงมีขนาดเล็กลง แต่ยังคงรักษาคุณภาพของสัญญาณเสียงให้มีคุณภาพใกล้เคียงกับต้นฉบับให้มากที่วิทยานิพนธ์นี้นำเสนอการศึกษาและการเปรียบเทียบเวฟเล็ตเตอร์สำหรับการบีบอัดสัญญาณเสียง
การทดลองนี้ได้ใช้สัญญาณเสียงทั้งหมด 80 เสียง โดยแบ่งเป็น 4 กลุ่ม ดังนี้ เสียงพูดของผู้หญิงและผู้ชายที่มีความยาว 5 วินาที และ 60 วินาที อย่างละ 20 เสียง จากนั้นนำสัญญาณเสียงไปเข้ากระบวนการคัดเลือกเวฟเล็ตจากเวฟเล็ตจากเวฟเล็ต 3 ตระกูล คือ ฮาร์เวฟเล็ต ไบออทอลโกนอลเเวฟเล็ต และการประมาณค่าไม่ต่อเนื่องของเมเยอร์เวฟเล็ต เพื่อหาเวฟเล็ตที่เหมาะสมที่สุดสำหรรับงานวิจัยนี้ ทั้งนี้วิธีการคัดเลือกใช้หลักการหาค่าพลังงานเฉลี่ย การเปรียบเทียบความถี่สเปกโตรแกรม และหลักการของ Dynamic Time Warping (DTW) เป็นตัววัดผล หลังจากนั้นนำเวฟเล็ตที่ผ่านการคัดเลือกไปทำการบีบอัดสัญญาณเสียงใน ระดับที่ 1-3 ซึ่งผลลัพธ์ที่ได้จะถูกนำไปเปรียบเทียบกับเทคนิคการบีบอัดสัญญาณด้วย Federal Standard 1016 Code Excite Linear Prediction (FE 1016 CELP) โดยใช้หลักการของค่าเฉลี่ยผิดพลาดกำลังสองและอัตราส่วนของสัญญาณสูงสุดเป็นตัววัดคุณภาพของการบีบอัดสัญญาณ
ผลการทดสอบในวิทยานิพนธ์นี้พบว่า เวฟเล็ตตระกูลไบออทอลโกนอลให้ประสิทธิภาพในการบีบอัดสูงที่สุด และในการสังเคราะห์เสียงด้วยการคืนกลับเวฟเล็ตแบบไม่ต่อเนื่อง นั้นสัญญาณเสียงของผู้หญิงที่มีความยาว 5 วินาทีให้ประสิทธิภาพเฉลี่ยดีที่สุด ในการเปรียบเทียบค่า MSE และ PSNR ของการบีบอัดสัญญาณเสียงพูดนั้นทั้งหมดด้วยการแปลงเวฟเล็ตแบบไม่ต่อเนื่อง และ CELP ผลปรากฏว่าการแปลงเวฟเล็ตแบบไม่ต่อเนื่องให้ประสิทธิภาพในการบีบอัดสัญญาณเสียงดีกว่า CELP และยังมีค่าผิดพลาดน้อยกว่าเมื่อนำสัญญาไปเปรียบเทียบกับสัญญาณต้นฉบับ
Recently, speech compression research aims to produce a compact representation of speech sounds such that when reconstructed it is perceived to be close to the original. This thesis presents a studying and comparison of wavelet filter for speech compression.
In the experiments, there are 80 speech signals which are used as input data. These signals can be categorized into 4 groups that consist of male and female speech signal with the length of 5 and 60 seconds respectively. These signals are then pass through to the three types of Wavelet Transform: Haar wavelet, Biorthogonal wavelet and Discrete Approximation of Meyer Wavelet, in order to search the best appropriate for this experiment. To classify wavelet, the energy average, spectrogram and Dynamic Time Warping (DTW) are used. The best appropriate wavelet is then used to compress speech signal in level 1-3. The result of this experiment is then compared with the Federal Standard 1016 Code Excite Linear Prediction (FS 1016 CELP) in the term of speech quality using Means Square Error (MSE) and Peak Signal to Noise Ratio (PSNR).
The results show that Biorthogonal Wavelet provides the best compress efficiency. Also the synthesis speech signal with Invest Discrete Wavelet Transform (IDWT) indicated that the 5 seconds female speech signal provides the best average efficiency. Moreover, the DWT and CELP speech compression is compared in the term of PSNR and MSE. The results show that DWT provides better performance than CELP speech compression and also it gives the errorless when it compares to the original speech signal.
Download : การศึกษาและการเปรียบเทียบเวฟเล็ตฟิลเตอร์สำหรับการบีบอัดสัญญาณเสียง