研究生: |
蕭佳芳 Chia-Fang Hsiao |
---|---|
論文名稱: |
利用自然語言處理技術作電子郵件資訊擷取及分類之研究與實作 E-mail Filtering and Information Extraction by Using NLP Techniques |
指導教授: |
石維寬教授
Dr. Wei-Kuan Shih |
口試委員: | |
學位類別: |
碩士 Master |
系所名稱: |
電機資訊學院 - 資訊工程學系 Computer Science |
畢業學年度: | 87 |
語文別: | 中文 |
論文頁數: | 38 |
中文關鍵詞: | 電子郵件 、資訊擷取 、自然語言處理技術 、過濾 、語意 、資訊標註 、文件結構分析 |
外文關鍵詞: | E-mail, Information Extraction, Natural Language Processing, NLP, Filtering, Semantic, Tagging, Document Structure Analysis |
相關次數: | 點閱:153 下載:0 |
分享至: |
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
近年來由於網際網路的蓬勃發展、網路人口的激增,網路已漸漸融入社會大眾的日常生活當中,其中一項重大的影響即網際網路提供了另一個溝通管道,透過網路我們可以不受距離的限制,隨時與數千里外的人在最短的時間內以較經濟的方式聯絡,這些聯絡方式中以電子郵件最廣為被使用。但是由於電子郵件行銷的日漸普及,對於網路的使用者而言如何從眾多的電子郵件中篩選出有用的郵件,並找出電子郵件中所要傳達的重要訊息是許多人迫切需要的,而這也正是本論文的研究目的。
電子郵件處理工具一般都會提供信件篩選的功能,通常都是利用郵件中一些基本的郵件資訊來做關鍵字比對,例如:主旨、寄件者等。但這種方法有其適用範圍,在許多的情況下無法正確的篩選郵件。因此在本論文中,我們期望能研究以語意規則為基礎做電子郵件過濾及資訊擷取的可行性,我們利用一些自然語言處理技術實作一個系統雛形,針對101封電子郵件進行實驗,並有不錯的成果。
本論文中所採用的自然語言技術包括Document Structure Analysis 、Knowledge Representation Map 、Information Tagging System及Semantic Pattern Matcher。對於每一個電子郵件我們先做格式化分析,將電子郵件分隔成區段,再根據Knowledge Representation Map的指示配合Information Tagging System及Semantic Pattern Matcher找出擷取目標資訊可能所在的區塊,然後再從這些區塊中找出需要的子區塊,透過這種不斷縮小資料搜尋區塊的過程,最後找到想要擷取出來的資訊內容。
[1] http://www.pchome.com.tw/news/880127/19990127-6_fpe.html
[2] 楊千慧, 1995.05.06, http://www.find.org.tw
[3] W. L. Hsu, 1995, Chinese parsing in phoneme-to-character
conversion system based on semantic pattern matching.
International Journal on Computer Processing of Chinese and
Oriental Languages 40, (1995), p.227-236.
[4] Hui-Lung Wang, Wei-Kuan Shih, Chunnan Hsu, Yi-Shiou Chen,
Yu-Lin Wang, Wen-Lian Hsu. Personal Navigating Agent.
Proceeding of Third International Conference on AUTONOMOUS
AGENTS (Agents '99)
[5] H. H. Chen, G. W. Bian 1998. White Page Construction from
Web Pages for finding People on the Internet. In
International Journal of Computational Linguistics and
Chinese Language Processing vol.3 no.1 Feb.
[6] D. Freitag 1998. Information Extraction from HTML:
Application of a General Machine Learning Approach. AAAI98.
[7] C. N. Hsu, 1998, Initial Results on Wrapping Semi-
structured Web Pages with Finite-States Transducers and
Contextual Rules. In Proceedings og AAAI-98 Workshop on AI
and Information Integration, Technical Report WS-98-14,
AAAI Press, Men Park, CA.
[8] J. Y. J. Hsu and W. T. Yih 1997. Template-Based Information
Mining from HTML Documents. AAAI97.
[9] M. Hurst and S. Douglas, 1997. Layout and Language:
Preliminary investigations in recognizing the structure of
tables. In Proceedings of ICDAR'97, August 18-20.