研究生: |
林駿羽 |
---|---|
論文名稱: |
台語聲調辨識 Taiwanese Tone Recognition |
指導教授: | 江永進 |
口試委員: |
高明達
呂仁園 |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2014 |
畢業學年度: | 102 |
語文別: | 中文 |
論文頁數: | 35 |
中文關鍵詞: | 台語聲調辨識 、深度信念網路 |
外文關鍵詞: | Taiwanese tone recognition, Deep belief networks |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本文 探討 台語聲調 自動辨識。 使用 地藏經 台語語音 語料庫, 我們 先使用 HTK (Hidden Markov Model Toolkit) 切出 音節, 每一個 音節 的 疊合短時音框 計算 acf/amdf (autocorrelation function divided by absolute mean difference function), 當作 基礎 特徵量; 然後 使用 二種 方式 做 台語聲調 分類。 第一種 方式 先從 基礎 特徵量 計算 音高軌跡, 概念上 是在 音高的 等高線圖 上, 去尋找 最大島嶼 的 山稜線, 音高軌跡 再配適 三階多項式, 所配適 多項式 的係數 當做 最終 特徵量, 然後使用 線性判別分析(LDA)、 二次判別分析(QDA) 等方法 分類; 在 交叉驗證 之下, 效率 52%~59% 左右。 第二種 方式 是將 基礎 特徵量 當作 一張 圖片, 將圖片 標準化, 當做 輸入的 特徵量, 然後 再使用 最近 研究效果 良好的 深度信念網路(Deep Belief Networks, DBN) 做分類, 交叉驗證 辨識效率 可達 72% 以上, 顯示DBN 在 大量資料 之下 可獲得 較佳結果。
This thesis explores Taiwanese tone automatic recognition. Using DeZongGing (地藏經) Taiwanese speech corpus and the Hidden Markov Model Toolkit (HTK), we first segment a speech waveform into syllable segments. Then for each syllable segment, short time speech analysis is performed using acf/amdf (autocorrelation function divided by absolute mean difference function). Using these as basic features, we then explore two kinds of classifiers for Taiwanese tones.
For the first kind, we further reduce the basic features into the coefficients of third order polynomial fit on the pitch tracks; pitch tracks can be obtained in a different number of ways, and we use the ridge of the largest island size in the acf/amdf map. With now four coefficients for each syllable, we then classify the syllables for their tones using LDA (linear discriminant analysis), QDA (quadratic discriminant analysis). Under cross validation, the accuracies of these classifiers range from 52% to 59%.
For the second kind, we treat the basic features as a gray level picture, normalized them into size 28×28, and then use the Deep Belief Networks(DBN) for classification, as in the recognition case of hand written digits. The cross validation accuracies can go upto 72%, with or without noise perturbations.
[1] 王小川,語音訊號處理(附語音資料光碟片)(修訂二版),全華出版社,2009。
[2] 陳雅婷. (2012). 使用 擴展修剪演算法 決定語音音週標記 及 在台語語音合成的應用. 清華大學統計學研究所學位論文, 1-40。
[3] Python (2014取閱). 網址:http://www.python.org/.
[4] “theano documentation” (2014取閱).
網址:http://deeplearning.net/software/theano/.
[5] “Deep learning 學習筆記整理” (2014取閱).
網址:http://blog.csdn.net/zouxy09.
[6] “Deep learning 學習總結” (2014取閱).
網址:http://blog.csdn.net/bluebelfast/article/details/17006259.
[7] Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. (2013). “An Introduction to Statistical Learning”, Springer, 2013.
[8] 黃士旗. (2006). “中文語音聲調辨識的改良與錯誤分析”. 清華大學資訊系統與應用研究所學位論文, 1-62。
[9] 杜承恩. (2010). “基於決策樹與隱藏式馬可夫模型之華語聲調辨識”.清華大學 資訊工程學研究所學位論文。
[10] 張智星 (2014取閱). “音訊處理與辨識”,
網址:http://mirlab.org/jang/books/audiosignalprocessing/ptTimeDomainAmdf.asp?title=6-2%20ACF&language=Chinese.
[11] 張春凰,江永進. (2014). “台語外來語 擴充提議”. 台文戰線 七月號。
[12] 江永進. (2012). 台語拼音 雙拼法333版 及 台語音節表. 新竹清華大學統計所。
[13] scikit-learn (2014取閱). 網址:http://scikit-learn.org/stable/.
[14] Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.
[15] 游聲峰. (2014). 語音辨識 輔助的 台語語料庫 收集方法 探討. 清華大學統計學研究所學位論文。