簡易檢索 / 詳目顯示

研究生: 卓楷斌
論文名稱: 適用於華英雙語語音辨識之聲學單位合併方法
Merging Acoustic Models for Improving Mandarin-English Bilingual Speech Recognition
指導教授: 張智星
口試委員: 呂仁園
江永進
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2012
畢業學年度: 100
語文別: 中文
論文頁數: 80
中文關鍵詞: 華英雙語辨識系統聲學模型合併華英雙語問題集
外文關鍵詞: Mandarin-English bilingual recognition system, mergence of bilingual acoustic models, Mandarin-English bilingual question sets
相關次數: 點閱:3下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文的應用情境是在儲存空間有限的汽車裝置上建置一個給台灣人使用的華英雙語語音辨識系統,預期在不使用語言辨識的情況下,有效縮減模型空間大小,並和單語辨識系統有相當的辨識效能。
    本研究透過合併雙語間相似的聲學單位來縮減模型大小,透過華英雙語不同標音的整合方式,尋找華英雙語之間適合合併的聲學單位,並且實作各種聲學單位的合併方法來建構雙語系統。
    除了進行聲學單位的合併之外,本論文以決策樹的方式進行狀態單位之合併,實驗結果顯示以決策樹建構的分類、合併原則,能以更細微的角度合併華英雙語之間相似的狀態,不僅能有效縮減模型空間,亦能增加模型的強健程度。以決策樹進行模型合併的實驗可以將模型大小縮減成原來的三分之一,並且擁有比基礎模型高出1.2%的雙語整體辨識效能。


    The long-term goal of this research is to construct a Mandarin-English bilingual speech recognition system on devices mounted on automobiles with limited storage size. Thus, the purpose of this thesis is to effectively reduce the model size and to maintain considerable performance as a unilingual system without using language identification.
    In this thesis, similar acoustic models are merged to reduce the number of model parameters. Similar acoustic units between the two languages are found by analyzing different phonetic notations with either knowledge-driven or data-driven techniques.
    In addition to directly merging the two acoustic models, this thesis also proposes the use of decision trees to merge states of different HMMs (hidden Markov models). Experimental result shows that, merging the models in a finer level via decision trees not only effectively reduces the model size but also enhances robustness of the bilingual models. By comparing to the baseline models, the state mergence using decision trees can reduce model size to one third of the original one and achieve an improvement of 1.2% in correction rate of bilingual recognition.

    目錄 摘要 II Abstract III 謝誌 IV 目錄 V 表目次 IX 圖目次 X 第一章 緒論 11 1.1 研究背景和目的 11 1.2 語音技術背景 12 1.2.1 語音系統處理流程 12 1.2.2 特徵訊號擷取 13 1.2.3 聲學模型建立 14 1.3 語言學知識背景 15 1.3.1 英語、華語的標音單位 15 1.3.2 英語、華語的發音特性 17 1.3.3 雙語差異性比較 17 1.4 研究方向 18 1.5 章節概要 19 第二章 文獻探討 20 2.1 多語系統的建置範疇 20 2.2 相關研究的實作方法 21 2.3 相關研究介紹 22 2.4 本章結論 23 第三章 研究方法 24 3.1 知識導向合併法 24 3.1.1 雙語模型直接加成-Hanyu_IF+CMU 25 3.1.2 雙語模型直接加成-Hanyu_Phoneme+CMU 25 3.1.3 以國際音標合併-SAMPA映射 25 3.2 資料分析合併法 26 3.2.1 巴氏距離的計算方式 27 3.2.2 混淆矩陣之計算方式 28 3.2.3 聲學分類限制 29 3.2.4 模型之映射及合併 29 3.3 以決策樹為基礎的狀態單位合併法 30 3.3.1 決策樹的處理流程 31 3.3.2 資料的分群聚類 31 3.3.3 決策樹的構造 33 3.3.4 決策問題的設計 33 3.3.5 決策樹的生成方式 34 3.3.6 決策樹分裂和收斂的條件 35 3.4 本章結論 35 第四章 實驗方法與結果分析 36 4.1 訓練語料簡介 36 4.2 聲學模型設定 37 4.3 測試語料簡介 38 4.4 辨識網路介紹 39 4.5 效能評估方法 40 4.5.1 正確率的計算方式 40 4.5.2 資料共享率的計算方式 40 4.6 以模型單位合併之實驗設定 41 4.7 以模型單位合併之實驗結果分析 42 4.8 以決策樹為基礎的狀態單位合併之實驗設定 47 4.9 以決策樹為基礎的狀態單位合併之實驗結果分析 48 第五章 結論與建議 52 5.1 結論 52 5.2 未來研究方向 53 參考文獻 54 附錄 56 附錄一:英語發音特性分類表 56 英語子音發音分類表 56 英語母音發音分類表 56 附錄二:華語發音特性分類表 57 華語聲母發音分類表 57 華語IF標音結構之韻母發音分類表 57 華語Phoneme標音結構之韻母發音分類表 58 華語Phoneme標音結構之單韻母發音分類表 58 附錄三:華英雙語發音特性分類表 59 華英雙語子音發音分類表 59 華英雙語母音發音分類表 59 附錄四:IF&CMU標音加成表 60 附錄五:Phoneme&CMU標音加成表 61 附錄六:SAMPA標音對照表 62 附錄七:雙語聲學特性分類表(Phoneme +CMU) 63 附錄八:雙語聲學特性分類表(IF+CMU) 64 附錄九:華語決策問題 66 附錄十:英語決策問題 72 附錄十一:華英雙語決策問題 74   表目次 表 1.3 1 英語KK音標分類表 15 表 1.3 2 華語聲母、韻母分類表 15 表 1.3 3 華語韻母分類表 16 表 1.3 4 華語聲韻、音素標音結構比較表 16 表 3.1 1 知識導向合併方法的聲學單位數量比較 25 表 3.2 1 聲學單位之合併原則 29 表 3.3 1 混淆矩陣分群聚類示意表 32 表 4.1 1 華語訓練語料資訊 36 表 4.1 2 英語訓練語料資訊 37 表 4.2 1 聲學模型訓練參數設定 38 表 4.3 1 華語、英語測試語料資訊 38 表 4.4 1 三種辨識網路詞彙數量 39 表 4.6 1 模型單位合併之實驗設定 41 表 4.7 1 以模型單位合併之資料共享比率 44 表 4.8 1 以決策樹為基礎的狀態單位合併之實驗設定 47 表 4.9 1 以狀態單位合併之資料共享比率 49   圖目次 圖 1.2 1 語音辨識流程 12 圖 1.2 2 特徵擷取流程 13 圖 1.2 3 聲學模型示意圖 14 圖 3.2 1 資料分析合併法之處理流程 26 圖 3.2 2 巴氏距離處理示意圖 27 圖 3.2 3 混淆矩陣處理示意圖 28 圖 3.3 1 決策樹為基礎之狀態單位合併處理流程 31 圖 3.3 2 二元決策樹分群聚類方法之示意圖 34 圖 4.4 1 三種辨識網路示意圖 39 圖 4.7 1 基礎模型-雙語模型直接加成 42 圖 4.7 2 以模型單位合併之國際音標合併法 43 圖 4.7 3 以模型單位合併之巴氏距離合併法 43 圖 4.7 4 以模型單位合併之混淆矩陣合併法 43 圖 4.7 5 以模型單位合併之雙語辨識效能比較 44 圖 4.7 6 以模型單位合併之三種辨識效能比較 46 圖 4.9 1 以狀態單位合併之三種辨識效能比較 48 圖 4.9 2 以狀態單位合併之雙語辨識效能比較 50

    【1】 Lawrence Rabiner, B.H Juang, Fundamentals of speech recognition, Prentice Hall, 1993
    【2】 Steve Young, The HTK Book version 3, Microsoft Corporation, 2000
    【3】 Bin Ma and Qiang Huo, “Benchmark results of triphone-based acoustic modeling on HKU96 and HKU99 putonghua corpora,” International Symposium on Chinese Spoken Language Processing, (ISCSLP), 2000
    【4】 Dau-Cheng Lyu, Speaker Independent Acoustic Modeling for Large Vocabulary Bi-lingual Mandarin/Taiwanese Continuous Speech Recognition, CGU, 2001
    【5】 Shengmin Yu, Shuwu Zhang, Bo Xu, ”Chinese-English bilingual phone modeling for cross-language speech recognition”, ICASSP, 2004
    【6】 Miao-Ru Wu, Initial Study on Chinese/English Bilingual Speech Recognition based on Lecture Recording, NTU, 2007
    【7】 Ya-Chi Chuang, A Study on L1-assisted Personalized Recognition Networks for Pronunciation Error-Spotting in English Learning, NTHU, 2007
    【8】 Ting-Wei Xu, An Initial Study on English Continuous Speech Recognition, NTNU, 2007
    【9】 Cai-Lu Cai, A Study on Mixed Hakka-Mandarin Chinese Bilingual Speech Recognition, NCTU, 2010
    【10】 Ching-Feng Yeh, Bilingual Code-Mixed Acoustic Modeling by Unit Mapping and Model Recovery, NTU, 2011
    【11】 The Institute for Signal and Information Processing, Phonetic Questions, http://www.isip.piconepress.com/projects/speech/software/tutorials/conferences/srstw01/program/session_07/model_design/html/isip_questions.html
    【12】 葛本儀,“語言學概論”,五南圖書出版股份有限公司,2002年出版
    【13】 呂道誠, 呂仁園, 江永進, 許鈞南,"多語聲學單位分類之最佳化研究",中文計算語言學期刊,2007年
    【14】 臺灣師範大學國音教材編輯委員會,國音學(修訂第八版),2008年

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE