簡易檢索 / 詳目顯示

研究生: 吳敏弘
Min-Hung Wu
論文名稱: 基於連續頻譜濾波與其改進技術之語音增強
Speech Enhancement Based on Running Spectrum Filtering and Its Improved Techniques
指導教授: 王小川
Hsiao-Chuan Wang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 電機工程學系
Department of Electrical Engineering
論文出版年: 2006
畢業學年度: 94
語文別: 中文
論文頁數: 67
中文關鍵詞: 連續頻譜濾波連續調變頻譜濾波噪音抑制噪音消除語音辨認語音辨識調變頻率多頻帶連續頻譜濾波雙頻帶連續頻譜濾波等高線連續頻譜濾波調變頻譜相減調變頻譜相減連續頻譜濾波語音增強
外文關鍵詞: RSF, Running Spectrum Filtering, RMF, Running Modulation spectrum Filtering, noise reduction, speech recognition, modulation frequency, Multi-Band RSF, 2-Band RSF, Contour RSF, Modulation Spectrum Subtraction, MS RSF, speech enhancement
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 語音辨認技術在實際應用時,常會受雜訊干擾,使得辨認效果不夠理想,尤其語音辨認技術的應用,例如手持行動設備、車用導航系統等,大多數是在噪音干擾嚴重的環境下,如何提升在噪音干擾下的語音辨認效能,即為本論文研究的重點。
    有許多方法可用來改善辨認效能,方法之一就是在辨認系統前端先去除噪音的成分,屬於頻譜刪減 (Spectrum Subtraction, SS) 這一類的方法通常被認為是簡單又有效的,也常被採用,但是隨著背景噪音更加複雜,此類方法效能依然會大幅減弱。此外,需要先預估環境的雜訊才能做刪減,也是此類方法的一大缺陷,這在即時性的辨識系統是不太適當的,因為背景噪音可能不斷改變。
    為了能進一步改善語音辨認的效能,本論文提出調變頻率空間與再經一次傅利葉轉換後的空間做噪音抑制的方法。連續頻譜濾波 (Running Spectrum Filtering, RSF) 便是在調變頻率空間相當有效的方法,此方法透過對調變頻譜做濾波處理,即可有效消除大部分的噪音,除了不需先做雜訊預估的優點外,還可大幅提升在低訊噪比情況時的辨認率。本論文更進一步提出改良式的RSF方法,採用多頻帶的帶通範圍選擇,不僅可以增加整體辨認效能,也可提升在不同噪音環境下的辨認強健性。
    此外,本論文還提出在第三層傅利葉轉換空間的噪音抑制方法,連續調變頻譜濾波 (Running Modulation spectrum Filtering, RMF),透過將調變頻譜再做一次傅利葉轉換,可有效在此空間濾除背景噪音,顯著提升辨認效能。連續語音的平均辦認正確率更可從RSF的74.93%提升到RMF的83.35%。


    摘要…………………………………………………………………i 誌謝………………………………………………………………iii 目錄……………………………………………………………… iv 圖目錄……………………………………………………………vii 表目錄………………………………………………………………x 第一章 導論………………………………………………………1 1.1 研究動機…………………………………………………… 1 1.2 相關研究…………………………………………………… 2 1.3 名詞意義…………………………………………………… 3 1.4 研究方向…………………………………………………… 4 1.5 章節概要…………………………………………………… 7 第二章 以調變頻譜做噪音抑制……………………………… 8 2.1 消除加成性噪音的RSF技術……………………………… 8 2.2 FIR濾波器與理想濾波器………………………………… 12 第三章 改良的強健性語音辨認技術………………………… 14 3.1 改良式RSF(1):多頻帶法 (Multi-Band Method)………14 3.2 改良式RSF(2):等高線法 (Contour method)………… 18 3.3 改良式RSF(3):調變頻譜相減法 (MS method)…………21 3.4 應用第三層傅立葉空間的RMF濾除雜訊法……………… 26 第四章 語音資料庫與工具…………………………………… 32 4.1 AURORA 2語料庫……………………………………………32 4.2 訓練語料和測試語料的設定………………………………33 4.3 特徵參數萃取與辨認工具…………………………………34 4.4 程式與實驗環境……………………………………………35 第五章 實驗結果與分析……………………………………… 36 5.1 實驗規劃……………………………………………………36 5.2 RSF………………………………………………………… 38 【實驗5.2.1】 不同帶寬的效果…………………………… 38 【實驗5.2.2】 各種噪音環境……………………………… 39 【實驗5.2.3】 不同訊噪比的平均正確率………………… 41 【實驗5.2.4】 包含插入性錯誤的辨認結果……………… 42 5.3 雙頻帶RSF………………………………………………… 44 5.4 等高線RSF………………………………………………… 46 5.5 調變頻譜相減RSF………………………………………… 49 5.6 RMF………………………………………………………… 50 【實驗5.6.1】 不同噪音環境的效果……………………… 50 【實驗5.6.2】 不同訊噪比的效果………………………… 51 5.7 RMF結合RSF的系統…………………………………………53 【實驗5.7.1】 使用RMF技術減少插入性錯誤………………53 【實驗5.7.2】 不同訊噪比的效果………………………… 55 【實驗5.7.3】 結合採用FIR濾波器的RSF………………… 57 5.8 綜合比較與討論……………………………………………60 第六章 結論與未來展望……………………………………… 63 6.1 結論…………………………………………………………63 6.2 展望…………………………………………………………65

    [1] S.F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust., Speech, Signal Process., vol.27, pp. 113-120, Apr. 1979.

    [2] H. Hermansky, and N. Morgan, “RASTA processing of speech,’’ IEEE Trans. Speech and Audio Process, vol.2. pp. 578-579. Oct. 1994.

    [3] K. Fujioka, and Y. Miyanaga, “A new noise reduction method of speech signal with running spectrum filtering,” Proc. ISPACS 2004., pp. 173-176, 18-19 Nov. 2004.

    [4] Q. Zhu, N. Ohtsuki, Y. Miyanaga, and N. Yoshida, “Robust speech analysis in noisy environment using running spectrum filtering,” Proc. ISCIT 2004., vol.2, pp. 995 - 1000, 26-29 Oct. 2004.

    [5] Q. Zhu, N. Ohtsuki, Y. Miyanaga, and N. Yoshida, “Noise-Robust Speech Analysis Using Running Spectrum Filtering,” IEICE Trans. Fundamentals, Vol.E88-A No.2 pp.541-548, Feb. 2005

    [6] N. Wada, N. Hayasaka, S. Yoshizawa, and Y. Miyanaga, “Robust speech recognition with feature extraction using combined method of RSF and DRA,” Proc. ISCIT 2004., vol.2, pp. 1001 – 1004, 26-29 Oct. 2004.

    [7] D. Pearce, and G. Hirsch, “The AURORA Experimental Framework for the Performance Evaluation of Speech Recognition Systems under Noisy Conditions”, in PROC. ICSLP, Beijing, China, Oct. 2000.

    [8] N. Kitaoka, and S. Nakagawa, “Evaluation of spectral subtraction with smoothing of time direction on the AURORA 2 task,” Proc. ICSLP2002, pp. 465–468, 2002.

    [9] J. Beh, and H. Ko, “A novel spectral subtraction scheme for robust speech recognition: spectral subtraction using spectral harmonics of speech,” Proc. ICASSP'03., vol.1, pp. I-648 - I-651, 6-10 Apr. 2003.

    [10] E. Choi, “Noise Robust Front-end for ASR using Spectral Subtraction, Spectral Flooring and Cumulative Distribution Mapping”, Proc. SST’04., pp. 451-456, Dec. 2004.

    [11] N. Kanedera, T. Arai, H. Hermansky, and M. Pavel (1997), “On the importance of various modulationfre-quencies for speech recognition,” Proc. Eurospeech’97, pp. 1079-1082.

    [12] N. Ohtsuki, Q. Zhu, and Y. Miyanaga, “The effect of the musical noise suppression in speech noise reduction using RSF,” Proc. ISCIT 2004., vol.2, pp. 663-667, 26-29 Oct. 2004.

    [13] S. Young, D. Kershaw, J. Odell, D. Ollason, V. Valtchev, and P. Woodland, “The HTK Book” (for HTK Version 3.1), Microsoft Corporation, 2001.

    [14] A. Juneja, and O. Deshmukh, and C. Espy-Wilson, “A multi-band spectral subtraction method for enhancing speech corrupted by colored noise,” ICASSP'02, vol.4, pp. IV-4164, 13-17 May 2002

    [15] ETSI (2000). Speech Processing, Transmission and Quality Aspects (STQ); Distributed Speech Recognition; Frontend Feature Extraction Algorithm; Compression Algorithms. ETSI standard document ES 201 108, April.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE