簡易檢索 / 詳目顯示

研究生: 林駿羽
論文名稱: 台語聲調辨識
Taiwanese Tone Recognition
指導教授: 江永進
口試委員: 高明達
呂仁園
學位類別: 碩士
Master
系所名稱: 理學院 - 統計學研究所
Institute of Statistics
論文出版年: 2014
畢業學年度: 102
語文別: 中文
論文頁數: 35
中文關鍵詞: 台語聲調辨識深度信念網路
外文關鍵詞: Taiwanese tone recognition, Deep belief networks
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本文 探討 台語聲調 自動辨識。 使用 地藏經 台語語音 語料庫, 我們 先使用 HTK (Hidden Markov Model Toolkit) 切出 音節, 每一個 音節 的 疊合短時音框 計算 acf/amdf (autocorrelation function divided by absolute mean difference function), 當作 基礎 特徵量; 然後 使用 二種 方式 做 台語聲調 分類。 第一種 方式 先從 基礎 特徵量 計算 音高軌跡, 概念上 是在 音高的 等高線圖 上, 去尋找 最大島嶼 的 山稜線, 音高軌跡 再配適 三階多項式, 所配適 多項式 的係數 當做 最終 特徵量, 然後使用 線性判別分析(LDA)、 二次判別分析(QDA) 等方法 分類; 在 交叉驗證 之下, 效率 52%~59% 左右。 第二種 方式 是將 基礎 特徵量 當作 一張 圖片, 將圖片 標準化, 當做 輸入的 特徵量, 然後 再使用 最近 研究效果 良好的 深度信念網路(Deep Belief Networks, DBN) 做分類, 交叉驗證 辨識效率 可達 72% 以上, 顯示DBN 在 大量資料 之下 可獲得 較佳結果。


    This thesis explores Taiwanese tone automatic recognition. Using DeZongGing (地藏經) Taiwanese speech corpus and the Hidden Markov Model Toolkit (HTK), we first segment a speech waveform into syllable segments. Then for each syllable segment, short time speech analysis is performed using acf/amdf (autocorrelation function divided by absolute mean difference function). Using these as basic features, we then explore two kinds of classifiers for Taiwanese tones.
    For the first kind, we further reduce the basic features into the coefficients of third order polynomial fit on the pitch tracks; pitch tracks can be obtained in a different number of ways, and we use the ridge of the largest island size in the acf/amdf map. With now four coefficients for each syllable, we then classify the syllables for their tones using LDA (linear discriminant analysis), QDA (quadratic discriminant analysis). Under cross validation, the accuracies of these classifiers range from 52% to 59%.
    For the second kind, we treat the basic features as a gray level picture, normalized them into size 28×28, and then use the Deep Belief Networks(DBN) for classification, as in the recognition case of hand written digits. The cross validation accuracies can go upto 72%, with or without noise perturbations.

    第一章 緒論 1 1.1. 研究動機 1 1.2. 相關研究 1 1.3. 本章內容 2 第二章 台語聲調 和 語音語料庫 3 2.1. 台語聲調 3 2.2. 語音語料庫 5 2.2.1. 語音語料庫的重要性 5 2.2.2. 使用的語音語料庫 6 第三章 音高追蹤、 曲線配適 及分類 7 3.1. 音高追蹤 7 3.1.1. ACF和AMDF 8 3.1.2. ACF 除以 AMDF 10 3.1.3. 最大島搜尋法 11 3.2. 曲線配適 13 3.3. Data Exploration 14 3.4. 聲調分類 16 3.4.1. Linear Discriminant Analysis 16 3.4.2. Quadratic Discriminant Analysis 17 3.4.3. 分類結果 18 3.4.4. 錯誤分析 19 第四章 基於DBN 之 聲調辨識 21 4.1. Deep Belief Networks 21 4.1.1. Restricted Boltzmann Machine 22 4.1.2. DBN之訓練 25 4.2. 實作與結果 26 4.2.1. 整理資料 26 4.2.2. 辨識與結果 28 4.2.3. 錯誤分析 28 4.2.4. 增加資料量 30 第五章 結論 與 未來方向 33 參考文獻 34

    [1] 王小川,語音訊號處理(附語音資料光碟片)(修訂二版),全華出版社,2009。
    [2] 陳雅婷. (2012). 使用 擴展修剪演算法 決定語音音週標記 及 在台語語音合成的應用. 清華大學統計學研究所學位論文, 1-40。
    [3] Python (2014取閱). 網址:http://www.python.org/.
    [4] “theano documentation” (2014取閱).
    網址:http://deeplearning.net/software/theano/.
    [5] “Deep learning 學習筆記整理” (2014取閱).
    網址:http://blog.csdn.net/zouxy09.
    [6] “Deep learning 學習總結” (2014取閱).
    網址:http://blog.csdn.net/bluebelfast/article/details/17006259.
    [7] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). “An Introduction to Statistical Learning”, Springer, 2013.
    [8] 黃士旗. (2006). “中文語音聲調辨識的改良與錯誤分析”. 清華大學資訊系統與應用研究所學位論文, 1-62。
    [9] 杜承恩. (2010). “基於決策樹與隱藏式馬可夫模型之華語聲調辨識”.清華大學 資訊工程學研究所學位論文。
    [10] 張智星 (2014取閱). “音訊處理與辨識”,
    網址:http://mirlab.org/jang/books/audiosignalprocessing/ptTimeDomainAmdf.asp?title=6-2%20ACF&language=Chinese.
    [11] 張春凰,江永進. (2014). “台語外來語 擴充提議”. 台文戰線 七月號。
    [12] 江永進. (2012). 台語拼音 雙拼法333版 及 台語音節表. 新竹清華大學統計所。
    [13] scikit-learn (2014取閱). 網址:http://scikit-learn.org/stable/.
    [14] Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
    [15] 游聲峰. (2014). 語音辨識 輔助的 台語語料庫 收集方法 探討. 清華大學統計學研究所學位論文。

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)
    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE