簡易檢索 / 詳目顯示

研究生: 汪緒中
論文名稱: 未知語者聲道長度正規化之快速計算方法
Efficient Methods for Vocal Tract Length Normalization for Unknown Speakers
指導教授: 張智星
口試委員: 江永進
呂仁園
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
論文出版年: 2012
畢業學年度: 100
語文別: 中文
論文頁數: 33
中文關鍵詞: 聲道長度正規化
外文關鍵詞: VTLN, warping factor estimation
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 為了減少語者間的聲學差異性,聲道長度正規化 (VTLN)是一個常見的解決方式。此辦法的重點在於如何找出每個語者適合的伸縮因子 (warping factor),一般情況下都使用完全搜尋法對每一個做測試,但是這會耗費大量的計算時間使得實用性下降。
    針對以上問題,本論文提出了兩種加速的方法。一種是常被用在搜尋單峰函數極值的黃金比例搜尋法,此方法能夠快速有效地縮小搜尋範圍,逼近理想的伸縮因子。另外一種這邊稱作二次曲線擬合法,藉由觀察出伸縮因子與模型對數機率值之間存在著一近似二次曲線的情形,利用此現象,我們用三點就可以找出該曲線並將極值發生位置當作答案。
    實驗結果顯示,本論文提出的二次曲線擬合法對完全搜尋法的效能評估時間減少率最多,為76.5%,而且雖然與基礎聲學模型比較上整句辨識正確率相同,但自由拍解碼 (free mora decoding)的準確率提升了0.73%。整體表現上黃金比例搜尋法表現最好,跟基礎聲學模型相比,整句辨識的正確率提升了0.05%,自由拍解碼 (free mora decoding)的準確率提升了0.95%,都和作為上限的完全搜尋法結果相同,而且效能評估時間也減少了60.8%。


    摘要 I Abstract II 謝誌 III 目錄 IV 表目次 VI 圖目次 VII 第一章 簡介 1 1.1 研究動機 1 1.2 章節概要 1 第二章 相關研究 2 2.1 聲道長度正規化 (Vocal Tract Length Normalization, VTLN) 2 2.1.1 介紹 2 2.1.2 實作 3 第三章 論文方法 9 3.1 方向 9 3.2 黃金比例搜尋 (golden section search, GSS) 10 3.2.1 介紹 10 3.2.2 實作 12 3.3 二次曲線擬合法 (quadratic curve fitting,QCF) 13 3.3.1 介紹 13 3.3.2 實作流程 14 第四章 實驗方法與結果分析 15 4.1 語料簡介 15 4.2 使用的基礎聲學模型 16 4.2.1 基本架構 16 4.2.2 句尾母音模型 20 4.2.3 鼻濁音變異修正機制 20 4.3 探討warping factor與正規化評量值之間的關係 21 4.4 效能評估方法 24 4.4.1 整句辨識 (sentence recognition) 25 4.4.2 自由拍解碼 (free mora decoding) 26 4.5 實驗設定 27 4.6 結果與分析 28 第五章 結論與未來展望 31 5.1 結論 31 5.2 未來研究方向 31 參考文獻 32

    【1】 D.Giuliani , M.Gerosa, F. Brugnara, “Improved automatic speech recognition through speaker normalization”
    【2】 楊世帆,”老人中文語音辨識之初步研究”,交通大學碩士論文, 2007
    【3】 Li Lee, “A Frequency Warping Approach to Speaker Normalization”, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 6, NO. 1, JANUARY 1998
    【4】 Titze, I.R., Principles of Voice Production, Prentice Hall, 1994
    【5】 J.Wong, “Implementation of Vocal Tract Length Normalization for Phoneme Recognition on TIMIT Speech Corpus”, ICICM, 2011
    【6】 L. Lee and R. C. Rose, “Speaker normalization using efficient frequency warping procedures,” in Proc. IEEE ICASSP-96, vol. 1, Atlanta, GA, May 1996, pp. 353–356
    【7】 A. Andreou, T. Kamm, and J. Cohen, “Experiments in Vocal Tract Normalization”, Proc. the CAIP Workshop:Frontiers in Speech Recognition II, 1994
    【8】 Kiefer, J. (1953), "Sequential minimax search for a maximum", Proceedings of the American Mathematical Society 4 (3): 502–506
    【9】 Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007), "Section 10.2. Golden Section Search in One Dimension", Numerical Recipes: The Art of Scientific Computing (3rd ed.), New York: Cambridge University Press
    【10】 曾泓熹,”以句尾母音模型和鼻濁音發音變異來改善日語評分”,清華大學碩士論文, 2011
    【11】 呂道誠, “不特定語者、國台雙語大辭彙語音辨識之聲學模型研究”, 長庚大學碩士論文, 民國90年
    【12】 楊永泰, “隱藏馬可夫模型應用於中文語音辨識之研究”, 中原大學碩士論文, 民國90年
    【13】 陳柏琳, “中文語音資訊檢索-以音節為基礎之索引特徵、統計式檢索模型及進一步技術”, 台灣大學博士論文, 民國90年
    【14】 郭獻尹, ”台湾人日本語学習者に対する日本語音声教育の一考察-母音無声化の習得・指導について-” , 南榮技術學院暨日本熊本大學學術交流二週年紀念英日語教育文化國際學術研討會, 2008。
    【15】 Steve Young, “The HTK Book”, version 3, Microsoft Corporation, 2000。
    【16】 Puming Zhan and Alex Waibel, "Vocal Tract Length Normalization for Large Vocabulary Continuous Speech Recognition", CMU-CS-97-148, May 1997

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE