一直搞不清楚nutch中的depth是什么意思,就照着字面意思理解,认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验,证明并不是这样,下面来看看
先在Tomcat里面建一个示例网站Test,网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1,内有1.html,在文件夹1中建文件夹2,建2.html。它们的链接关系:index.html中有a.html和1.html的链接,a.html中有b和c的链接,1.html中有2.html的链接。这个示例网站是按我原来的意思建的:第一层有四个文件,且包含了蜘蛛能访问到的链接,第二 ...
- 15:18
- 浏览 (1622)
- 评论 (2)
- 分类: lucene/nutch
- 进入论坛
Lucene是一个开源世界里最有名的搜索引擎包,关于它的介绍现在网络上也有很多了,特别是车东的文章http://www.chedong.com/tech/lucene.html,网上流传至广。现在还有一本《Lucene In Action》的电子书是详细介绍的Lucene,可以down下来看。今天先来对硬盘文件实现简单的索引和搜索功能。
用Lucene建立索引步骤:
[1]指定索引源文件夹(dataDir)和索引的文件夹(IndexDir);
[2]构造一个IndexWriter:IndexWriter构造器有三个参数,其中第一个参数可以是Lucene内建的类Directory,也可以 ...
- 19:25
- 浏览 (2732)
- 评论 (3)
- 分类: lucene/nutch
- 进入论坛
lucene在建立索引时不可能总是删了原来的再重建索引。在建索引的IndexWriter中最后一个参数是boolean类型的,用来确定是重建索引(true)还是增量索引。
IndexWriter writer = new IndexWriter(indexDir,new Analyzer(),true)
这样表示重建索引,当你运行索引类后如果indexDir中存在索引文件,都将被删除,这有时不是你的本意,也算是一种浪费,所以可以在需要的时候你可以把它设成false。
- 17:42
- 浏览 (1626)
- 评论 (3)
- 分类: lucene/nutch
- 浏览: 11033 次

- 详细资料
搜索本博客
我的相册
J2SE
共 1 张
共 1 张
最新评论
-
lucene中增量索引的方法!
仅是简单的将create参数设为false,操作不当可能造成索引重复。
-- by aya331 -
lucene中增量索引的方法!
-- by ckangtai -
lucene中增量索引的方法!
-- by baidongli -
SDK、JDK、JRE和JVM的 ...
和具体操作系统通讯的当然都是c了
-- by skyi -
一个比较偏的问题,java序 ...
javaeyes 写道做rome 解析RSS的时候发现一个奇怪的现象,先看代码 ...
-- by xin_wang






评论排行榜