所有类
| 类 | 说明 |
|---|---|
| AbstractDocument |
AbstractDocument是文档对象的抽象父类.
|
| AbstractDocumentBuilder |
AbstractDocumentBuilder是Document构造器的抽象父类.
|
| AbstractHit |
AbstractHit是一个搜索命中结果的抽象类.
|
| AbstractIndex |
AbstractIndex是内存中的倒排索引对象的抽象父类.
|
| AbstractIndexBuilder |
AbstractIndexBuilder是索引构造器的抽象父类
需要实例化一个具体子类对象完成索引构造的工作
|
| AbstractIndexSearcher |
AbstractIndexSearcher是检索具体实现的抽象类
|
| AbstractIndexSearcher.LogicalCombination |
多个检索词的逻辑组合
|
| AbstractPosting |
AbstractPosting是Posting对象的抽象父类.
|
| AbstractPostingList |
AbstractPostingList是所有PostingList对象的抽象父类.
|
| AbstractTerm |
AbstractTerm是Term对象的抽象父类.
|
| AbstractTermTuple |
AbstractTermTuple是所有TermTuple对象的抽象父类.
|
| AbstractTermTupleFilter |
抽象类AbstractTermTupleFilter类型是AbstractTermTupleStream的子类,里面包含另一个
AbstractTermTupleStream对象作为输入,并对输入的AbstractTermTupleStream进行过滤,
例如过滤掉所有停用词(the,is are...)对应的三元组
其具体子类需要重新实现next方法以过滤掉不需要的单词对应的三元组.同时可以实现多个不同的过滤器
完成不同的过滤功能,多个过滤器可以形成过滤管道.
|
| AbstractTermTupleScanner |
AbstractTermTupleScanner是AbstractTermTupleStream的抽象子类,即一个具体的TermTupleScanner对象就是
一个AbstractTermTupleStream流对象,它利用java.io.BufferedReader去读取文本文件得到一个个三元组TermTuple.
|
| AbstractTermTupleStream |
AbstractTermTupleStream是各种TermFreqPosTupleStream对象的抽象父类
TermFreqPosTupleStream是三元组TermTuple流对象,包含了解析文本文件得到的三元组序列
|
| Config |
保存搜索引擎的配置信息,例如:
索引文件所在目录
要建立索引的文本文件所在目录
构建索引时是否忽略单词大小写
分词所需要的正则表达式
基于正则表达式的三元组过滤器所需的正则表达式
基于单词长度的三元组过滤器所需的最小单词长度和最大单词长度
...
|
| Document |
Document是文档对象。
|
| DocumentBuilder |
Document构造器
Document构造器的功能应该是由解析文本文档得到的TermTupleStream,产生Document对象.
|
| FileSerializable |
定义文件序列化接口
|
| FileUtil |
文件操作的工具类
|
| Hit |
一个Hit表示一个命中文档.
|
| Index |
AbstractIndex的具体实现类
一个倒排索引对象包含了一个文档集合的倒排索引.
|
| IndexBuilder |
索引构造器
|
| IndexSearcher |
根据检索词检索文档
|
| LengthTermTupleFilter | |
| PatternTermTupleFilter | |
| Posting | |
| PostingList |
PostingList对象包含了一个单词的Posting列表.
|
| SimpleSorter |
实现计算命中文档得分,对命中文档数组根据得分进行排序的功能
实现接口:
Sort:实现计算得分和根据得分进行排序的方法
|
| Sort |
Sort定义了对搜索结果排序的接口
|
| StopWords |
停用词表类
|
| StopWordTermTupleFilter | |
| StringSplitter |
字符串分割类,根据标点符号和空白符将字符串分成一个个单词
|
| Term |
Term对象表示文本文档里的一个单词.
|
| TermTuple |
一个TermTuple对象为三元组(单词,出现频率,出现的当前位置).
|
| TermTupleScanner |
TermTupleScanner是一个AbstractTermTupleStream流对象,
它利用java.io.BufferedReader去读取文本文件得到一个个三元组TermTuple.
|
| TestBuildIndex |
测试索引构建
|
| TestSearchIndex |
测试搜索
|