2006-11-27
nutch爬行中的depth(层数,深度?)
一直搞不清楚nutch中的depth是什么意思,就照着字面意思理解,认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验,证明并不是这样,下面来看看
先在Tomcat里面建一个示例网站Test,网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1,内有1.html,在文件夹1中建文件夹2,建2.html。它们的链接关系:index.html中有a.html和1.html的链接,a.html中有b和c的链接,1.html中有2.html的链接。这个示例网站是按我原来的意思建的:第一层有四个文件,且包含了蜘蛛能访问到的链接,第二层有一个文件1.html,第三层为2.html。这是一个以文件夹为深度的例子。
启动nutch的爬虫爬行网站(配置可以网上查,很多)。
cmd代码
- nutch crawl urls -dir c:\Test -threads 5 -depth 1
先爬行一层,如果是以文件夹为深度,那么第一层的4个文件都将爬到。让我看下结果:
cmd 代码
- F:\code\nutch\bin>nutch readdb c:\Test\db -dumppageurl
- 061127 150112 parsing jar:file:/F:/code/nutch/nutch.jar!/nutch-default.xml
- 061127 150112 parsing jar:file:/F:/code/nutch/nutch.jar!/nutch-site.xml
- 061127 150112 No FS indicated, using default:local
- org.apache.nutch.db.WebDBReader@13f5d07
- Page 1: Version: 4
- URL: http://localhost:8080/Test/
- ID: 59ba405710e0b0a631562a040e30865c
- Next fetch: Wed Dec 27 14:55:52 CST 2006
- Retries since fetch: 0
- Retry interval: 30 days
- Num outlinks: 2
- Score: 1.0
- NextScore: 1.0
- Page 2: Version: 4
- URL: http://localhost:8080/Test/1/1.html
- ID: 2c6dadf23768abaca03c8f7135b99436
- Next fetch: Mon Nov 27 14:55:52 CST 2006
- Retries since fetch: 0
- Retry interval: 30 days
- Num outlinks: 0
- Score: 1.0
- NextScore: 1.0
- Page 3: Version: 4
- URL: http://localhost:8080/Test/a.html
- ID: a588737b7cd966929644a731445dffeb
- Next fetch: Mon Nov 27 14:55:52 CST 2006
- Retries since fetch: 0
- Retry interval: 30 days
- Num outlinks: 0
- Score: 1.0
- NextScore: 1.0
事实是只有三个网页被抓到了:index.html,1.html,a.html。b和c都没有抓进来。可以说nutch爬行深度是依据网页上的链接的,也就是说nutch把爬行的第一个页面上的链接当作第一层,依次类推第一层页面上的链接是第二层。还可以看三个数据的Num outlinks。index的有两个,1和a明明设了链接的值却为零。可见nutch爬虫在扫描页面链接的时候就把设定层外的链接给丢弃了。
把index中1的链接改成2的链接更可以验证nutch的深度是依据链接的。这样设计的爬虫容易控制。
- 15:18
- 浏览 (1621)
- 评论 (2)
- 分类: lucene/nutch
- 进入论坛
- 相关推荐
- 浏览: 11028 次

- 详细资料
搜索本博客
我的相册
J2SE
共 1 张
共 1 张
最新评论
-
lucene中增量索引的方法!
仅是简单的将create参数设为false,操作不当可能造成索引重复。
-- by aya331 -
lucene中增量索引的方法!
-- by ckangtai -
lucene中增量索引的方法!
-- by baidongli -
SDK、JDK、JRE和JVM的 ...
和具体操作系统通讯的当然都是c了
-- by skyi -
一个比较偏的问题,java序 ...
javaeyes 写道做rome 解析RSS的时候发现一个奇怪的现象,先看代码 ...
-- by xin_wang






评论排行榜