研究生: |
黃信捷 Sin-Jie Huang |
---|---|
論文名稱: |
使用潛在語意分析與自我組織映射於中文文件摘要 Using Latent Semantic Analysis and Self-Organizing Map in Chinese Text Summarization |
指導教授: |
蘇豐文
Von-Wun Soo |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
電機資訊學院 - 資訊系統與應用研究所 Institute of Information Systems and Applications |
論文出版年: | 2008 |
畢業學年度: | 96 |
語文別: | 中文 |
論文頁數: | 48 |
中文關鍵詞: | 文件摘要 、潛在語意分析 、自我組織映射 |
外文關鍵詞: | Text Summarization, Latent Semantic Analysis, Self-organizing Map |
相關次數: | 點閱:2 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本論文提出了兩種分群式文件摘要器(clustering text summarizer)來抽取出文件中重要的語句產生摘要。第一個方法是使用自我組織映射(Self-organizing Map)技術,透過此方法將文件句子做分群,在從各群之中挑選最佳的句子當作摘要。第二個方法,我們結合潛在語意分析(Latent Semantic Analysis)與自我組織映射技術,透過潛在語意分析將文件中的句子隱含的語意挖掘出來,再將分析後的句子透過自我組織映射進行分群,在從各群之中挑選最佳的句子當作摘要。
挑選句子之前必須決定各群挑選的優先權,優先權的決定方式則為將每一群的所有句子分數做加總,總分數越高則該群的優先權越高。句子分數的計算方式則是根據「句子的關鍵字含量」、「句子在文件中的位置」、「句子的標題含量」、「句子的TFIDF(term frequency – inverse document frequency)強度」來決定之。
我們之所以考慮了分群,是因為我們假設摘要者在挑選了一句子當作摘要時,會儘量不再挑選與該句極為相似的句子。句子分群後,使得挑選摘要句子得以從不同分群的句子中挑選,以避免重複挑選出相似的句子。
在實驗部分,我們收集了100篇新台灣新聞週刊中關於政治類的文章,並將前述的兩種分群式文件摘要器應用於該政治類的文章中。實驗評估結果顯示,我們所提出的方法皆比基準方法(baselines)表現較優,在文件壓縮比率為20%以及不考慮特徵權重的情況下,準確率分別為46.70%與53.39%。
[1] C. N. Silla Jr. et al., "A Non-Linear Topic Detection Method for Text Summarization Using Wordnet" Workshop of Technology Information Language Human (TIL), 2003.
[2] Chinese Knowledge and Information Processing (CKIP) Chinese Parser: http://rocling.iis.sinica.edu.tw/CKIP/
[3] Dell Zhang et al, "Semantic, Hierarchical, Online Clustering of Web Search Results" Proceedings of the 6th Asia Pacific Web Conference (APWEB), Hangzhou: Springer-Verlag, 2004.
[4] Dou Shen et al., "Document Summarization using Conditional Random Fields" Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI), 2007, 2862-2867.
[5] Inderjeet Mani et al., "Advances in Automatic Text Summarization" MIT Press, Cambridge, MA, USA, 1999.
[6] JIAN-HUI WANG et al., "Sentence Clustering Based Automatic Summarization" Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi’an, 2-5, November 2003.
[7] Julian Kupiec et al., "A Trainable Document Summarizer" Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, Seattle WA, USA, 1995, 68-73.
[8] Li Juanzi et al, "Keyword extraction based on tf/idf for Chinese news document" Wuhan University Journal of Natural Sciences, vol. 12, no. 5, November 2007, 917-921.
[9] S Deerwester et al, "Indexing by Latent Semantic Analysis" Journal of the American Society for Information Science, 1990, 391-407.
[10] T. Kohonen, "Self-organization and associative memory" 3rd ed. Berlin: Springer-Verlag, 2003.
[11] Xia Lin et al, "A Self-organizing Semantic Map for information Retrieval" In Proceedings of the 14th Annual International ACM/SIGIR Conference on Research & Development in Information Retrieval, 1991, 262-269.
[12] 葉鎮源, "文件自動化摘要方法之研究及其在中文文件的應用", 碩士論文, 國立交通大學資訊科學研究所, 新竹, 2002.
[13] 劉政璋, "以概念分群為基礎之新聞文件自動摘要系統", 碩士論文, 國立交通大學資訊科學研究所, 新竹, 2005.
[14] "新台灣新聞週刊". Available at http://www.newtaiwan.com.tw