程序包的使用
hust.cs.javacourse.search.parse
| 程序包 | 说明 |
|---|---|
| hust.cs.javacourse.search.index |
hust.cs.javacourse.search.index包里定义了和倒排索引数据结构相关的抽象类,以及和索引构建相关的抽象类和接口.
|
| hust.cs.javacourse.search.index.impl |
对hust.cs.javacourse.search.index包里定义的抽象类和接口的具体实现放在这个包里。
|
| hust.cs.javacourse.search.parse |
hust.cs.javacourse.search.parse包里定义了文档解析、分词,单词过滤有关的抽象类.学生需要实现这些抽象类的具体子类
|
| hust.cs.javacourse.search.parse.impl |
对hust.cs.javacourse.search.parse包里定义的抽象类和接口的具体实现放在这个包里。
|
-
hust.cs.javacourse.search.index使用的hust.cs.javacourse.search.parse中的类 类 说明 AbstractTermTupleStream AbstractTermTupleStream是各种TermFreqPosTupleStream对象的抽象父类 TermFreqPosTupleStream是三元组TermTuple流对象,包含了解析文本文件得到的三元组序列 -
hust.cs.javacourse.search.index.impl使用的hust.cs.javacourse.search.parse中的类 类 说明 AbstractTermTupleStream AbstractTermTupleStream是各种TermFreqPosTupleStream对象的抽象父类 TermFreqPosTupleStream是三元组TermTuple流对象,包含了解析文本文件得到的三元组序列 -
hust.cs.javacourse.search.parse使用的hust.cs.javacourse.search.parse中的类 类 说明 AbstractTermTupleStream AbstractTermTupleStream是各种TermFreqPosTupleStream对象的抽象父类 TermFreqPosTupleStream是三元组TermTuple流对象,包含了解析文本文件得到的三元组序列 -
hust.cs.javacourse.search.parse.impl使用的hust.cs.javacourse.search.parse中的类 类 说明 AbstractTermTupleFilter 抽象类AbstractTermTupleFilter类型是AbstractTermTupleStream的子类,里面包含另一个 AbstractTermTupleStream对象作为输入,并对输入的AbstractTermTupleStream进行过滤, 例如过滤掉所有停用词(the,is are...)对应的三元组 其具体子类需要重新实现next方法以过滤掉不需要的单词对应的三元组.同时可以实现多个不同的过滤器 完成不同的过滤功能,多个过滤器可以形成过滤管道.AbstractTermTupleScanner AbstractTermTupleScanner是AbstractTermTupleStream的抽象子类,即一个具体的TermTupleScanner对象就是 一个AbstractTermTupleStream流对象,它利用java.io.BufferedReader去读取文本文件得到一个个三元组TermTuple.AbstractTermTupleStream AbstractTermTupleStream是各种TermFreqPosTupleStream对象的抽象父类 TermFreqPosTupleStream是三元组TermTuple流对象,包含了解析文本文件得到的三元组序列