只显示主题贴
做和索引时一样的分词,在分词后的结果中找到匹配的项,然后高亮,然后合并周围的词成句子, 呵呵
- 进入论坛 Java 版
HighLight的时候还是要分词的,根据你分词后的Token和你的查询词比较确定高亮位置。标点在分词时已经去掉
- 进入论坛 入门讨论 版
Lucene将长文本无声无息的帮你截掉了,
在IndexWriter里面你可以看到这样的代码
/**
* Default value is 10,000. Change using {@link #setMaxFieldLength(int)}.
*/
public final static int DEFAULT_MAX_FIELD_LENGTH = 10000;
- 进入论坛 入门讨论 版
看你喜欢闭门造车。
多看看别人的实现,也许会好很多。比如你这个url去重,用Bloomfilter的话比MD5放内存就要好多了。
- 进入论坛 综合技术 版
其实这里关键的难点在于你不知道搜索结果中的Tag有多少,如果你想知道,那等于要遍历所有Document来统计Tag。如果Tag相对每次搜索固定,那lucene就能很好的解决啦,用一个Filter来做统计。代码就像下面这种
Filter filter = new Filter(userQuery);
Hits allHits = searcher.search(userQuery);
Hits tag1Hits = searcher.search(tag1Query,filter);
......这个速度 那是很快的啦。robbin说的TermVector不是那个意思吧,应该是Term在原文中的 ...
- 进入论坛 Java 版
不知道你的索引字段怎么设计的,像这样的类别,可以将父子设定为两个
Field。像这样:
Feild parent = new Field("parent","parent",YES,UNTOKENIED);
Field son = new Field("son","parent/son",YES,UNTOKENIED);
只搜父类别则搜parent字段,记住UNTOKENIED
- 进入论坛 Java 版
- 浏览: 11028 次

- 详细资料
搜索本博客
我的相册
J2SE
共 1 张
共 1 张
最新评论
-
lucene中增量索引的方法!
仅是简单的将create参数设为false,操作不当可能造成索引重复。
-- by aya331 -
lucene中增量索引的方法!
-- by ckangtai -
lucene中增量索引的方法!
-- by baidongli -
SDK、JDK、JRE和JVM的 ...
和具体操作系统通讯的当然都是c了
-- by skyi -
一个比较偏的问题,java序 ...
javaeyes 写道做rome 解析RSS的时候发现一个奇怪的现象,先看代码 ...
-- by xin_wang






评论排行榜