研究生: |
謝博行 Sie, Bo-Sing |
---|---|
論文名稱: |
局部最長連續共同子序列與新詞組收集 Locally Longest Common Consecutive Subsequence and Collection of New Phrases |
指導教授: |
江永進
Chiang, Yuang-chin |
口試委員: |
高明達
呂仁園 |
學位類別: |
碩士 Master |
系所名稱: |
理學院 - 統計學研究所 Institute of Statistics |
論文出版年: | 2013 |
畢業學年度: | 101 |
語文別: | 中文 |
論文頁數: | 52 |
中文關鍵詞: | 未知詞 、新詞組 、局部最長共同子序列 |
外文關鍵詞: | Unknown word, New phrase, Locally longest common consecutive subsequence |
相關次數: | 點閱:1 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
時代在變, 用詞在變, 詞典的詞條 應該也 跟著變, 跟不上時代的 詞典 代表 跟不上的 基礎文化。 針對 單篇文章 或者 二篇文章, 我們 提出 局部最長 連續 共同子序列 (locally longest consecutive common subsequence: LLCCS) 的方法, 近似 出名的 最長 共同子系列 (longest common subsequence: LCS) 算程, 可以有效率 擷取 文章中的 重複使用的 字串。 由此 所擷取出的 字串 我們 再進一步 處理篩選, 得到 較合 語法意義的 新詞組, 以及 新詞。 因為 網路上 可以自動 收集 大量新聞 或 文章, 新詞組、新詞 的 擷取 應可快速 幫助 詞典新詞條 的 累積。
Adapting from the well-known longest common subsequence (LCS) algorithm, we propose an efficient algorithm that is capable of extracting locally longest consecutive common subsequence (LLCCS) from one or two different articles. Further processing on the extracted subsequence makes them closer to syntatical phrases/words. With world wide web full of adundant articles, we hope this is an efficient way to enrich the entries of Chinese lexicon.
[1] K. J. Chen and M. H. Bai (1998). “Unknown Word Detection for Chinese by a Corpus-based Learning Method”. International Journal of Computational linguistics and Chinese Language Processing, Vol.3, #1, pp.27-44.
[2] K. J. Chen and W. Y. Ma (2002). “Unknown Word Extraction for Chinese Documents”. COLING, pp.169-175.
[3] Fuchun Peng, Fangfang Feng and Andrew McCallum (2004). “Chinese Segmentation and New Word Detection Using Conditional Random Fields”. COLING, pp.562-568.
[4] T. H. Chang and C. H. Lee (2003). “Automatic Chinese unknown word extraction using small-corpus-based method”, Proceedings of IEEE International Conference on Natural language processing and knowledge engineering, pp.459-464.
[5] 楊傑程, “應用樣式探勘與機器學習方法於中文未知詞擷取之研究”, 國立中央大學資訊工程學系碩士論文, 2009
[6] 陳崇正, “應用網路書籤與VSM相似度演算法於強化實踐社群的形成”, 國立中央大學資訊工程學系碩士論文, 2009
[7] Python 3.2.3(2012),
http://www.python.org/
[8] Beautiful Soup 4(2013),
http://www.crummy.com/software/BeautifulSoup/