簡易檢索 / 詳目顯示

研究生: 黃信捷
Sin-Jie Huang
論文名稱: 使用潛在語意分析與自我組織映射於中文文件摘要
Using Latent Semantic Analysis and Self-Organizing Map in Chinese Text Summarization
指導教授: 蘇豐文
Von-Wun Soo
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊系統與應用研究所
Institute of Information Systems and Applications
論文出版年: 2008
畢業學年度: 96
語文別: 中文
論文頁數: 48
中文關鍵詞: 文件摘要潛在語意分析自我組織映射
外文關鍵詞: Text Summarization, Latent Semantic Analysis, Self-organizing Map
相關次數: 點閱:2下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文提出了兩種分群式文件摘要器(clustering text summarizer)來抽取出文件中重要的語句產生摘要。第一個方法是使用自我組織映射(Self-organizing Map)技術,透過此方法將文件句子做分群,在從各群之中挑選最佳的句子當作摘要。第二個方法,我們結合潛在語意分析(Latent Semantic Analysis)與自我組織映射技術,透過潛在語意分析將文件中的句子隱含的語意挖掘出來,再將分析後的句子透過自我組織映射進行分群,在從各群之中挑選最佳的句子當作摘要。
    挑選句子之前必須決定各群挑選的優先權,優先權的決定方式則為將每一群的所有句子分數做加總,總分數越高則該群的優先權越高。句子分數的計算方式則是根據「句子的關鍵字含量」、「句子在文件中的位置」、「句子的標題含量」、「句子的TFIDF(term frequency – inverse document frequency)強度」來決定之。
    我們之所以考慮了分群,是因為我們假設摘要者在挑選了一句子當作摘要時,會儘量不再挑選與該句極為相似的句子。句子分群後,使得挑選摘要句子得以從不同分群的句子中挑選,以避免重複挑選出相似的句子。
    在實驗部分,我們收集了100篇新台灣新聞週刊中關於政治類的文章,並將前述的兩種分群式文件摘要器應用於該政治類的文章中。實驗評估結果顯示,我們所提出的方法皆比基準方法(baselines)表現較優,在文件壓縮比率為20%以及不考慮特徵權重的情況下,準確率分別為46.70%與53.39%。


    中文摘要 2 英文摘要 3 致謝辭 4 1. 緒論 10 1.1. 研究背景與動機 10 1.2. 研究目的 11 1.3. 研究流程 12 1.4. 論文架構 13 2. 相關研究工作 14 2.1. 以文件集為基礎的摘要方法 14 2.2. 以分群為基礎的摘要方法 16 3. 自我組織映射語句摘要 20 3.1. 自我組織映射(SELF-ORGANIZING MAP, SOM) 20 3.1.1. SOM介紹 20 3.1.2. SOM學習演算法 22 3.2. 自我組織映射語句摘要器系統架構 23 3.2.1. 系統架構 23 3.2.2. 語句分數計算方式 25 3.2.3. 關鍵字詞抽取 27 3.2.4. 自我組織映射語句摘要器演算法 29 4. 結合潛在語意分析與自我組織映射為基礎的語句摘要 31 4.1. 潛在語意分析(LATENT SEMANTIC ANALYSIS) 31 4.1.1. LSA介紹 31 4.2. 結合潛在語意分析與自我組織映射的語句摘要器系統架構 32 4.2.1. 系統架構 32 4.2.2. 結合潛在語意分析與自我組織映射的語句摘要器演算法 34 5. 實驗結果分析與評估 35 5.1. 實驗資料集 35 5.2. 評估方法 36 5.3. 實驗結果 36 5.3.1. 基準(BASELINES)的方法 36 5.3.2. 實驗結果 37 5.3.3. 範例文件探討 38 6. 結論與未來研究方向 44 6.1. 結論與討論 44 6.2. 未來研究方向 45 7. 參考文獻 47

    [1] C. N. Silla Jr. et al., "A Non-Linear Topic Detection Method for Text Summarization Using Wordnet" Workshop of Technology Information Language Human (TIL), 2003.

    [2] Chinese Knowledge and Information Processing (CKIP) Chinese Parser: http://rocling.iis.sinica.edu.tw/CKIP/

    [3] Dell Zhang et al, "Semantic, Hierarchical, Online Clustering of Web Search Results" Proceedings of the 6th Asia Pacific Web Conference (APWEB), Hangzhou: Springer-Verlag, 2004.

    [4] Dou Shen et al., "Document Summarization using Conditional Random Fields" Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI), 2007, 2862-2867.

    [5] Inderjeet Mani et al., "Advances in Automatic Text Summarization" MIT Press, Cambridge, MA, USA, 1999.

    [6] JIAN-HUI WANG et al., "Sentence Clustering Based Automatic Summarization" Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi’an, 2-5, November 2003.

    [7] Julian Kupiec et al., "A Trainable Document Summarizer" Proceedings of the 18th annual international ACM SIGIR conference on Research and development in information retrieval, Seattle WA, USA, 1995, 68-73.

    [8] Li Juanzi et al, "Keyword extraction based on tf/idf for Chinese news document" Wuhan University Journal of Natural Sciences, vol. 12, no. 5, November 2007, 917-921.

    [9] S Deerwester et al, "Indexing by Latent Semantic Analysis" Journal of the American Society for Information Science, 1990, 391-407.

    [10] T. Kohonen, "Self-organization and associative memory" 3rd ed. Berlin: Springer-Verlag, 2003.

    [11] Xia Lin et al, "A Self-organizing Semantic Map for information Retrieval" In Proceedings of the 14th Annual International ACM/SIGIR Conference on Research & Development in Information Retrieval, 1991, 262-269.

    [12] 葉鎮源, "文件自動化摘要方法之研究及其在中文文件的應用", 碩士論文, 國立交通大學資訊科學研究所, 新竹, 2002.

    [13] 劉政璋, "以概念分群為基礎之新聞文件自動摘要系統", 碩士論文, 國立交通大學資訊科學研究所, 新竹, 2005.

    [14] "新台灣新聞週刊". Available at http://www.newtaiwan.com.tw

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)
    全文公開日期 本全文未授權公開 (校外網路)

    QR CODE