课程编号: 201M4006H |
课时: 60 |
学分: 3.0 |
课程属性: 专业核心课 |
主讲教师:王斌等 |
英文名称: An Introduction to Information Retrieval |
教学目的、要求
本课程是为网络空间安全、计算机、图书情报等相关专业研究生开设的专业核心课。信息检索是研究大规模内容的获取、分析、组织和访问的一门学科,也是将自然语言处理、机器学习、数据挖掘等技术综合应用于内容处理的一门学科。信息检索技术和其他学科领域相结合,是目前学科发展的趋势。通过该课程的学习,一方面学生能够深入全面了解信息检索领域的基本原理、模型和算法,为其今后的相关科研工作打下扎实的基础;另一方面,该课程通过课后练习、阅读大量经典和最新文献,培养学生深入科研的能力,为以后从事智能信息处理、大数据分析处理实际研究或实践工作打下坚实的基础。
预修课程
《算法和数据结构》和《概率统计》
教 材
C.D. Manning, Prabhakar Raghavan及Hinrich Schütze著,王斌译,
《信息检索导论》,人民邮电出版社,2010年9月出版
主要内容
第1章 课程介绍及布尔检索
第2章 词项词典及倒排记录表
第3章 词典及容错式检索
第4章 索引构建
第5章 索引压缩
第6章 向量空间模型
第7章 一个完整的搜索系统
第8章 信息检索的评价
第9章 相关反馈及查询扩展
第10章 概率检索模型
第11章 统计语言建模检索模型
第12章 文本分类
第13章 文本聚类
第14章 矩阵分解及隐性语义索引
第15章 Web采集及链接分析
参考文献
[1] Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition), ACM Press, Feb. 2011 (黄萱菁,张奇,邱锡鹏 译,《现代信息检索》(原书第二版),机械工业出版社,2012年10月) [2] Ian H. Witten, Alistair Moffat and Timothy C. Bell, Managing Gigabytes: Compressing and Indexing Documents and Images (2nd Edition), Morgan Kaufmann Publishers, May 1999 (梁斌译,《深入搜索引擎:海量信息的压缩、索引和查询》,电子工业出版社,2009年6月) [3] Bruce Croft, Donald Metzler and Trevor Strohman, Search Engines: Information Retrieval in Practice Addison Wesley, Feb. 2009 (刘挺 等译,《搜索引擎:信息检索实践》,机械工业出版社,2010年6月) [4] Anand Rajaraman and Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press,Dec. 2011 (王斌 译,《大数据:互联网大规模数据挖掘与分布式处理》,人民邮电出版社,2012年9月) [5] Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997 [6] 李晓明,闫宏飞,王继民著,搜索引擎--原理、技术与系统,北京:科学出版社,2005 [7] SIGIR、CIKM、WWW、WDSM、ECIR、ICTIR等会议的论文集。