Becomin' Charles

Channel: Becomin' Charles » lucene

Lucene笔记01

December 10, 2008, 12:24 am

由于项目需要，开始学习Lucene，现在手头在看的就一本书《Lucene in Action》，别的材料手头也没有，不过，有一点非常遗憾，就是这本书已经非常旧了，所以，决定一边看，一边验证，主要是参看一下源代码，也是没有办法的事情，就在博客上做点小笔记好了。 From the very beginning 第一章，就有两个小例子，用来展示一下Lucene的功能，可惜，那两个例子是基于Lucene...

View Article

Lucene笔记02

December 16, 2008, 10:15 pm

要完成最基本的建立索引的过程，Lucene需要以下几个对象的合作： IndexWriter——Lucene内部用来创建索引的最重要的组件。可以创建新索引，或者从文档增量地创建索引。...

View Article

Lucene笔记03

December 17, 2008, 5:40 pm

要完成最基本的搜索过程，Lucene需要以下几个对象的合作：...

View Article

Lucene笔记04

April 13, 2009, 9:34 am

使用Lucene建立索引，有三个主要步骤。提取文本。Lucene只能对纯文本建立索引，所以，任何需要建立索引的资料，都要进行过滤处理，从中提取到纯文本。比如对于Word和PDF，我们都要使用相关API将其中的纯文本提取出来，而对于XML和HTML，则意味着要过滤掉所有的tag。...

View Article

Lucene笔记05

April 13, 2009, 9:39 pm

Lucene是允许对索引的并发操作的，具体操作时，要遵循三条简单而严格的规则：任意数量只读操作可以并行。对于一个处于写状态的索引来说，也允许任意只读操作并行。索引的写操作不可以并行，只能有一个实例线程修改索引。 Lucene的并发规则非常简单，而且，这样的规则基本符合我们的直觉思维，因而非常容易记忆。事实上，Lucene并不强制遵守这些规则，但是违背规则，将带来不可预测的风险，例如索引损坏。...

View Article

Lucene笔记06

April 14, 2009, 4:36 am

在笔记03中，已经提到了使用Lucene进行搜索的几个必要组件： IndexSearcher——该对象内包含了很多search方法的重载，搜素一个索引，主要就是使用该对象的实例。 Query——该类是一个抽象类，其派生类产生的对象，是对各种形式搜索的封装。 TermQuery——匹配那些包含单个查询词语（term）的文档。可以使用BooleanQuery进行组合。...

View Article

Lucene笔记07——中文分词

April 28, 2009, 1:55 am

什么是分词？什么是中文分词？分词，就是将一段文字，按照语义上的最小单位切割开来。对于中文来说，虽然，很多汉字本身就具有相对独立的意思，但是更多情况下，单个的汉字是与其他一个或多个汉字组合在一起形成一个含义的。举个例子，“我是一个学生”，分词的结果是：“我/是/一个/学生”，再比如，“我/打算/去/做/分词/的/研究”。中文分词，就是将中文段落划分成词。...

View Article