「資訊檢索與擷取」課程期末專題
主題:
設計出一套檢索中文文章的資訊檢索系統。
說明:
- 利用本學期課程中所學之資訊檢索技術,發展出一套資訊檢索系統。因為中文是以 BIG5 碼編碼,佔 2 bytes,所以處理時需考慮是以 char (1 byte) 為單位,或是以中文字 (2 bytes) 為單位。 [編碼說明]
- 專題所用到的資源為597個文件檔 [格式說明] (document collection) 和一個檢索主題檔 [格式說明] (topics)。實驗中以文件檔做為訓練資料,檢索時亦是檢索文件檔中的文章。
- 針對檢索主題檔案中的五個主題,每個主題檢索出相關的文章,依據相關程度排序列出前1000名,以 e-mail 或磁片方式至資訊館 301 室給助教。結果報告格式請參閱 IRresult-format.html。
- 檢索所用的查詢句 (query) 可以用主題中的 <TITLE> , <QUESTION> 及 <NARRATIVE> 三個欄位的任意組合。
- 4人一組。請於4/14前將各組名單mail給助教。請註明學號、姓名、e-mail address
期限:
- 檢索結果:
- 檢索結果的繳交期限為 5/27 17:00,遲交的同學將只能和遲交的同學評比,而排名低於準時交的同學。
- 結果的評比將做為專題分數的一部份。
- 程式主體:
- 請同學將程式主題 (包含 source code 和 index 等) 交來,請注意所交來的程式必須要在我們的機器上確定也可以跑 (for Win 2000, Win xp, Solaris 8),而且是一個完整的 IR 系統才行 (包含 indexing)。因此特別叮嚀同學整體程式中不要使用不能傳與外界的模組。
- 程式主體的繳交期限為 5/27 17:00。程式主體請交電子檔。
- 書面報告:
- 必須另外再交一份書面報告,報告中說明自己的系統所使用的方法或判斷規則,及系統的描述,請參閱 IRsystem-desc.html 網頁。
- 書面報告於6/3 上課時繳交。書面報告請用紙本印出,勿交電子檔。
如有任何疑問,請隨時和助教聯繫:
台大資訊系自然語言處理實驗室 林紋正
電話:(02)23625336 ext 301
E-mail:
denislin@nlg.csie.ntu.edu.tw