研究生: |
游聲峰 Yu, Sheng-Feng |
---|---|
論文名稱: |
語音辨識 輔助的 台語語料庫 收集方法 探討 Taiwanese Corpus Collection Methods Using Speech Recognition Techniques |
指導教授: | 江永進 |
口試委員: |
呂仁園
高明達 |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2014 |
畢業學年度: | 102 |
語文別: | 中文 |
論文頁數: | 47 |
中文關鍵詞: | Corpus collection 、Speech recognition |
相關次數: | 點閱:3 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
語料庫 是 語言技術的 基礎, 然而 對弱勢語 如台語, 語料收集 並不如 強勢華語 方便。 本文 探討 使用 語音辨識 幫助台語 語料收集, 同時包括 語音語料庫 以及 文字語料庫。
假若 給定資料是 台語錄音 以及 對應的台文, 那麼 我們有機會 快速得到 台語 語音語料、文字語料、標音語料、變調語料, 這不妨叫 台文台音問題。 另外一種 不妨叫 華文台音問題, 假設 給定資料 是 華文資料 以及 對應的 台語翻譯 的語音, 那麼 除了以上四種語料, 我們還可得著 台華平行句 語料; 平行句 對台華互譯 有基礎的 重要性。
因為 語音辨識系統 正確率 尚未完美, 此時 針對每一個 特定句子 及語音, 操作辨識網路 並簡化 其複雜度, 可以提高 辨識的效果, 本文 目的之一 在探討, 給定 特定的 台語句 或 華語句, 如何獲得 包括 正確台語拼音串的 最簡單 辨識網路。
語音辨識 在解碼時, 實際上 可以得到 二項結果: 1° 辨識網路 規範之下 最佳音串 (概似值最大音串列), 2° 最佳音串 各音 所佔時間。 如何使用 這兩個結果, 找到 語料庫中的 可能錯誤,以提升 語料品質, 也是 本文目標。
Corpus is fundamental to computing linguistics. But for marginalized Taiwanese language, corpus collection is not as easy as Chinese. This thesis explores using speech recognition technology to help collect Taiwanese text and speech corpus with various annotations.
Given a Taiwanese sentence and its corresponding recorded speech, we might semi-automatically obtain its phonetic annotations and tone sandhi. This gives a total of four corpus contents: text, speech, phonetic annotation, and tone sandhi. Let us call it Taiwanese-text-Taiwanese-speech (TTTS) problem. Another similar setup is the Mandarin-text-Taiwanese-speech (MTTS) problem. In addition to the four corpus contents, we might also obtain Taiwanese Mandarin parallel sentences in the MTTS case. Parallel corpus is essential to the research of Taiwanese-Mandarin translation.
Since the current automatic speech recognition system is not perfect yet even for healthy languages like English and Chinese, it is sensible to manipulate the recognition network to decrease the complexity of the network used in the speech recognition system. Using a TTTS corpus and a MTTS corpus, this paper explores ways of constructing the recognition network on a sentential basis both for Taiwanese text and for Mandarin text.
The current hidden Markov model based speech recognition system is capable of giving two kinds of results. One is the best path in the recognition network, in the likelihood sense. The other is the occupation time of each syllable. These results can be used in spottin possible errors in the corpus.
[1] BrownP., PietraDellaS., PietraDellaV., & MercerR. (1993). The mathematics of statistical machine translation: parameter estimation. Computational Linguistics, 19(2), 263-311.
[2] Dau-Cheng LyuLyu, Yuang-Chin Chiand and Chun-Nan HsuRen-Yuan. (2005). Modeling Pronunciation Variation for Bi-Lingual Mandarin/Taiwanese Speech Recognition. Computational Linguistics and Chinese Language Processing, 363-380.
[3] Henry KuceraNelson FrancisW. (1961). The Brown Corpus. 擷取自 WIKIPEDIA: http://en.wikipedia.org/wiki/Brown_Corpus
[4] HintonGeoffrey. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition. IEEE, 82-97.
[5] HTK Speech Recognition Toolkit. (2009). 擷取自 http://htk.eng.cam.ac.uk/
[6] JurafskyD., & MartinH.J. (2008). Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2nd Ed. . Prentice-Hall.
[7] Kam-Fai WongLi, Ruifeng Xu, Zheng-sheng ZhangWenjie. (2009). Introduction to Chinese Natural Language Processing.
[8] KoehnPhilipp. (2010). Statistical Machine Translation. Cambridge University Press.
[9] OchJ.F., TillmannC., & NeyH. (1999). Improved alignment models for statistical machine translation. Empirical Methods in Natural Language Processing and Very Large Corpora, (頁 20-28).
[10] OchJosefFranz, & NeyHermann. (March 2003). A Systematic Comparison of Various Statistical Alignment Models . Computational Linguistics, volume 29, number 1, 19-51.
[11] RABINERR.Lawrence. (1989). A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. IEEE.
[12] RossumvanGuido. (1991). 擷取自 Python: https://www.python.org/
[13] S.J YoungRussell, J.H.S ThorntonN.H. (1989). Token Passing: a Simple Conceptual Model for Connected Speech Recognition Systems.
[14] 張春凰, 江永進. (2014). 台語外來語 擴充提議. 台文戰線七月號.
[15] 林淑卿. (2009). 從台華平行語料庫擷取對應詞組典. 國立清華大學 碩士論文.
[16] 楊哲瑋. (2010). 台華平行 讓格語料 的 自動對齊. 國立清華大學 碩士論文.
[17] 江永進. (2014). 台音輸入法. Taiwan.
[18] 江永進, 張春凰, & 呂菁菁. (2009). 讓格書寫:意義、理由gah簡則. 臺灣風物, 111-132.
[19] 謝博行. (2013). 局部最長連續共同子序列與新詞組收集.
[20] 鄭邦鎮. (1997). 台語世界 九重天. 台日.