Quantcast
Channel: Becomin' Charles » lucene
Browsing all 7 articles
Browse latest View live

Lucene笔记01

由于项目需要,开始学习Lucene,现在手头在看的就一本书《Lucene in Action》,别的材料手头也没有,不过,有一点非常遗憾,就是这本书已经非常旧了,所以,决定一边看,一边验证,主要是参看一下源代码,也是没有办法的事情,就在博客上做点小笔记好了。 From the very beginning 第一章,就有两个小例子,用来展示一下Lucene的功能,可惜,那两个例子是基于Lucene...

View Article



Lucene笔记02

要完成最基本的建立索引的过程,Lucene需要以下几个对象的合作: IndexWriter——Lucene内部用来创建索引的最重要的组件。可以创建新索引,或者从文档增量地创建索引。...

View Article

Lucene笔记03

要完成最基本的搜索过程,Lucene需要以下几个对象的合作:...

View Article

Lucene笔记04

使用Lucene建立索引,有三个主要步骤。 提取文本。Lucene只能对纯文本建立索引,所以,任何需要建立索引的资料,都要进行过滤处理,从中提取到纯文本。比如对于Word和PDF,我们都要使用相关API将其中的纯文本提取出来,而对于XML和HTML,则意味着要过滤掉所有的tag。...

View Article

Lucene笔记05

Lucene是允许对索引的并发操作的,具体操作时,要遵循三条简单而严格的规则: 任意数量只读操作可以并行。 对于一个处于写状态的索引来说,也允许任意只读操作并行。 索引的写操作不可以并行,只能有一个实例线程修改索引。 Lucene的并发规则非常简单,而且,这样的规则基本符合我们的直觉思维,因而非常容易记忆。事实上,Lucene并不强制遵守这些规则,但是违背规则,将带来不可预测的风险,例如索引损坏。...

View Article


Lucene笔记06

在笔记03中,已经提到了使用Lucene进行搜索的几个必要组件: IndexSearcher——该对象内包含了很多search方法的重载,搜素一个索引,主要就是使用该对象的实例。 Query——该类是一个抽象类,其派生类产生的对象,是对各种形式搜索的封装。 TermQuery——匹配那些包含单个查询词语(term)的文档。可以使用BooleanQuery进行组合。...

View Article

Lucene笔记07——中文分词

什么是分词?什么是中文分词? 分词,就是将一段文字,按照语义上的最小单位切割开来。对于中文来说,虽然,很多汉字本身就具有相对独立的意思,但是更多情况下,单个的汉字是与其他一个或多个汉字组合在一起形成一个含义的。举个例子,“我是一个学生”,分词的结果是:“我/是/一个/学生”,再比如,“我/打算/去/做/分词/的/研究”。中文分词,就是将中文段落划分成词。...

View Article
Browsing all 7 articles
Browse latest View live




Latest Images