簡易檢索 / 詳目顯示

研究生: 沈健誠
論文名稱: 多篇文件自動摘要系統
Multi-Document Summarization System
指導教授: 張俊盛
Jason S. Chang
口試委員:
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Computer Science
論文出版年: 2001
畢業學年度: 89
語文別: 中文
中文關鍵詞: 摘要提示性查詢主題相關性覆疊性雙連字
外文關鍵詞: summary, indicativeness, topic relevnce, overlapping bigram
相關次數: 點閱:136下載:0
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 目前大部分的摘要系統為單篇文章摘要系統,雖然能提示個別文章的要點,卻無法把性質相近的文章集合成單篇摘要。能否夠發展一個多篇文章摘要系統,將敘述相同事件的文章統合成一篇摘要?如此一來,兩三個句子就能把文章的文意清楚而簡潔的表達出來,讓使用者能在一分鐘之內,明瞭這幾篇文章是否符合資訊需求,以縮短其蒐集的時間,更有效率的吸收網路上的大量資訊。
    我們的目標在於發展一個多篇文章摘要系統,系統所產生的摘要能滿足以下兩個條件:指示性簡單摘要,和查詢主題相關,能因應使用者的查詢而有所改變。

    為了達成此目標,我們將探討句子的指示性和查詢主題相關性,並選出重要性高而且相互獨立的句子,然後將不重要的小句刪除,以得到最終摘要。

    我們針對NTCIR的248篇文章和50個查詢標題作實驗,所得到的摘要縮減比率為95%以上。整體而言,產生的摘要都能指示出幾篇相關新聞以及查詢主題的要旨。


    Most summarization systems are designed for a single document at present. These systems indicate the essence of individual document, but do not transfer similar documents into single summary. Can we develop a multi-document summarization system, which transfers related documents with the same event into a summary? If that is possible, the main points of documents will be clearly and simply displayed with two or three sentences. Users can see whether these documents are what they want in a minute. It can reduce time for collecting documents and enable users to gather information on the Internet more efficiently.
    To develop a multi-document summarization system is the goal of this thesis. Summary produced by the must system satisfy two conditions: indicative and topic related. The summary should be tailored to suit user’s query.

    To achieve this goal, we will study the indicativeness and topic relevance of sentences, and the selection of sentences that are important and independence to each other. Finally, unimportant small clauses will be deleted, to make the final summary more concise.

    System generates summaries with 248 documents and fifty topics of NTCIR. The reduction rate is over 95%. overall, the quality of summaries produced were satisfactory.

    致謝………………………………………………………………………i 摘要………………………………………………………………………ii Abstract…………………………………………………………………iii 目錄……………………………………………………………………iv 附表目錄………………………………………………………………vi 附圖目錄………………………………………………………………vii 第一章 緒論……………………………………………………………1 1.1 研究動機與目的………………………………………………1 1.2 摘要如何產生…………………………………………………6 1.3 多篇文件摘要系統的相關研究………………………………6 第二章 摘要的生成……………………………………………………8 2.1 摘要的條件……………………………………………………8 2.2 摘要產生步驟…………………………………………………8 2.3 斷句斷詞………………………………………………………8 2.4 句子評分………………………………………………………9 2.4.1句子的提示性……………………………………………10 2.4.1.1 方法A1…………………………………………10 2.4.1.2 方法B1…………………………………………12 2.4.1.3 方法C1…………………………………………12 2.4.1.4 方法D1…………………………………………12 2.4.2 查詢主題相關性………………………………………13 2.4.2.1 方法A2…………………………………………14 2.4.2.2 方法B2…………………………………………15 2.4.2.3 方法C2…………………………………………16 2.4.2.4 方法D2…………………………………………17 2.5 關鍵句選取……………………………………………………17 2.6 句子縮短………………………………………………………18 第三章 實驗資料與結果………………………………………………21 3.1 實驗資料………………………………………………………21 3.2 比較式評估……………………………………………………22 3.2.1 提示性計算方式的差異………………………………22 3.2.2 查詢主題的相關性比較………………………………25 3.2.3 句子縮短的影響………………………………………26 3.2.4 斷詞 vs. 雙連字………………………………………27 第四章 結論……………………………………………………………31 4.1 主題相關的多篇摘要…………………………………31 4.2 未來研究……………………………………………………32 附錄一 提示性計算方式的差異摘要舉例……………………………33 a. 方法A1比方法D1好的例子………………………………33 b. 方法D1比方法A1好的例子………………………………34 c. 方法A1和方法D1相差不多的例子………………………35 附錄二 句子縮短前後的摘要舉例……………………………………36 附錄三 拆成雙連字與否的比較範例…………………………………38 附錄四 五十個主題的多篇摘要(方法A1+方法A2)………………40 參考文獻………………………………………………………………46

    1. Chinatsu Aone, Mary Ellen Okurowski, James Gorlinsky(1998), “Trainable, Scalable Summarization Using Robust NLP and Machine Learning.” COLING-ACL 98, pp.62-66.
    2. Mark Wasson(1998), “Using Leading Text for News Summaries: Evaluation Results and Implications for Commercial Summarization Applications.” COLING-ACL 98, pp.1364-1368.
    3. Regina Barzilay, Karthleen R. McKeown and Elhadad(1999), “Information Fusion in the Context of Multi-Document Summarization.” ACL 99, pp.550-557.
    4. Adam Berger, Vibhu O. Mittal(2000), “Query-Relevant Summarizations using FAQs.” ACL 2000 pp.294-301.
    5. Hongyan Jing(2000), “Sentence Reduction for Automatic Text Summarization.” ANLP-NAACL 2000, Section 1, pp.310-315.
    6. Hongyan Jing and Kathleen R. McKeown(2000), “Cut and Paste Based Text Summarization.” ANLP-NAACL 2000, Section 2, pp.178-185.
    7. Inderjeet Mani, Eric Bloedorn(1999), “Summarizing Similarities and Differences Among Related Documents.” Information Retrieval-vol 1, pp.35-67.
    8. Weiquan Liu and Joe Zhou(2000), “Building a Chinese text summarizer with phrasal chunks and domain knowledge.” ROCLING 13, pp.87-96.
    9. Radev, D.R., and McKeown, K.R.(1998), “Generating Natural Language Summaries from Multiple On-line Sources.” Computational Linguistics Vol.24, No.3, pp.469-500.
    10. Yu-Jin Chen, Dr. Jason S. Chang(2000), “Scalable Summarization for Chinese Text.” NTHU, master thesis.
    11. You Yu-Ling, “Toward Defining Discourse Unit in Chinese Discourse.” Language researching and teaching. (in press)
    12. 陳信希,黃聖傑(1999),”多文件自動方法摘要研究” 台灣大學資訊工程研究所碩士論文,台北.
    13. 楊允言,謝清俊,陳淑美,陳克健(1992), “中文文件自動分類之研究” 中華民國八十二年第六屆計算語言學研討會論文集,pp.217-233.
    14. 楊允言,張俊盛,陳克健(1993), “文件自動分類及其相似性排序” 清華大學資訊科學研究所碩士論文,新竹.

    無法下載圖示 全文公開日期 本全文未授權公開 (校內網路)

    全文公開日期 本全文未授權公開 (國家圖書館:臺灣博碩士論文系統)
    QR CODE