簡易檢索 / 詳目顯示

研究生: 陳揚昇
Chen, Yang-Shen
論文名稱: 結合多重聲學模型來改進英語語音評分
Combining Multiple Acoustic Models to Improve English Pronunciation Scoring
指導教授: 張智星
Jang, Jyh-Shing Roger
口試委員: 張智星
呂仁園
江永進
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
論文出版年: 2011
畢業學年度: 99
語文別: 中文
論文頁數: 40
中文關鍵詞: 語音評分模型結合線性識別分析分治法
相關次數: 點閱:1下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文主要論述的重點在於結合多重聲學模型來改進英語語音評分,並針對各部分設計對應的實驗,測試其改良後的效能。
    本論文包含兩大部分:第一部分為「多模型合併方法」,第二部分為「利用分治法組合模型」。
    「多模型合併方法」包含「基於線性識別分析的兩階段辨識」以及「合併HMM模型結果」兩種。「基於線性識別分析的兩階段辨識」先利用使用梅爾倒頻譜係數以及對數能量為特徵訓練出的基礎語音模型做強迫對位,接著再取出phone segment based features進行第二階段的辨識;而「合併HMM模型結果」則利用不同訓練語料的語音模型分別得出log-likelihood排名,再將排名加以合併成單一排名。
    「利用分治法組合模型」將每個音素區分成獨立的個體,利用訓練找出每個音素最適合的多模型合併方式,以改善英語發音評量系統。
    為測試多模型組合在發音評量的效能,我們使用以排名為基礎的信心度量測方法。經實驗,基於線性識別分析的兩階段辨識對子音中的鼻音及摩擦音有較好的評量效能,合併HMM模型結果的整體效能亦優於基礎語音模型。而利用分治法組合模型對各個音素使用不同方式進行評量,結果顯示,效能相較僅使用單一種多模型合併亦有明顯的提升。


    摘要 I Abstract II 謝誌 IV 目錄 V 表目次 VIII 圖目次 IX 第一章 緒論 1 1.1 研究動機 1 1.2 研究主題 1 1.3 本論文研究方向及主要成果 2 1.4 章節概要 2 第二章 相關研究 3 2.1 基於自動語音辨識的電腦輔助發音訓練 3 2.2 語音特徵與模型 3 2.3 線性識別分析 4 2.4 模型合併 4 第三章 研究方法 5 3.1 訓練語料簡介 5 3.2 建立基礎語音模型 5 3.2.1 聲學模型設計 6 3.2.2 特徵參數擷取 7 3.2.3 隱藏式馬可夫模型 9 3.3 基於線性識別分析的兩階段辨識 10 3.3.1 模型訓練 10 3.3.2 特徵擷取 11 3.3.3 線性識別分析 12 3.3.4 分群法則:K-means 17 3.3.5 兩階段模型比對 18 3.4 合併HMM模型結果 19 3.4.1 系統架構 20 3.4.2 維特比解碼 21 3.4.3 模型合併方式 24 第四章 實驗方法與結果分析 26 4.1 實驗語料簡介 26 4.2 實驗方法 26 4.3 實驗一:不同模型合併方式之比較 27 4.3.1 實驗目的 27 4.3.2 實驗流程與設定 28 4.3.3 實驗結果與分析 29 4.4 實驗二:利用分治法對音素找出最佳模型組合方式 30 4.4.1 實驗目的 30 4.4.2 實驗流程與設定 31 4.4.3 實驗結果與分析 32 4.5 實驗三:模型組合方法個數與辨識率關係 34 4.5.1 實驗目的 34 4.5.2 實驗流程與設定 34 4.5.3 實驗結果與分析 34 4.6 實驗四:Top-n辨識率 35 4.6.1 實驗目的 35 4.6.2 實驗流程與設定 36 4.6.3 實驗結果與分析 36 第五章 結論與未來研究方向 38 參考文獻 39

    【1】 Leonardo Neumeyer, Horacio Franco, Mitchel Weintraub, and Patti Price, Automatic Text-Independent Pronunciation Scoring of Foreign Language Student Speech, 1996
    【2】 Kim, Y., Franco, H., and Neumeyer, L.,”Automatic Pronunciation Scoring of Specific Phoneme Segments for Language Instruction”, in Proceedings of 4th European Conferaence on Speech Communication and Technology,649-654, Rhodes, 1997
    【3】 L. Neumeyer, H. Franco, V. Digalakis and M. Weintraub, Automatic scoring of pronunciation quality, 1999
    【4】 Rabiner, L. and Juang, B.H., “Fundamentals of Speech Recognition”, Prentice Hall PTR, Upper Saddle River, New Jersey, 1993.
    【5】 Huang, X., Acero, A., and Hon, H.W., “Spoken Language Processing”, New Jersey, Prentice Hall, 2001
    【6】 Lee, C.Y., “Speech Evaluation”, 國立清華大學碩士論文, 2002
    【7】 R. Haeb-Umbach, H.Ney, “Linear Discriminant Analysis for Improved Large Vocabulary Continuous Speech Recognition”, Philips Research Laboratory Aachen P.O. Box 1980, D-5100 Aachen, Germany, 1992
    【8】 Nagendra Kumar, “Investigation of Silicon Auditory Models and Generalization of Linear Discriminant Analysis for Improved Speech Recognition”, Baltimore, Maryland, 1997
    【9】 Witt, S.M., and Young, S.J., “Phone-level Pronunciation Scoring and Assessment for Interactive Language Learning”, Speech Communication 30, 95-108, 2000
    【10】 Witt, S.M., “Use of Speech Recognition in Computer-assisted Language Learning”, Newnham College, 1999
    【11】 Chen, L.Y., and Jang, J.S.R., “Automatic Pronunciation Scoring using Learning to Rank and DP-based Score Segmentation”, International Speech Communication Association, 2010
    【12】 Lawrence Rabiner, B.H Juang, Fundamentals of speech recognition, Prentice Hall, 1993
    【13】 楊永泰,“隱藏式馬可夫模型應用於中文語音辨識之研究”,中原大學碩士論文,2000年
    【14】 Steve Young, The HTK Book version 3, Microsoft Corporation, 2000
    【15】 陳柏琳,“中文語音資訊檢索-以音節為基礎之索引特徵、統計式檢索模型及進一步技術”,台灣大學博士論文,2001年
    【16】 呂道誠,“不特定語者、國台雙語大詞彙語音辨識之聲學模型研究”,長庚大學碩士論文,2001年
    【17】 Lee, C.H., and Clements, M.A., “An Overview on Automatic Speech Attribute Transcription”, Interspeech, 2007

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE