网页去重。据统计, 互联网中完全相同网页所占例超过20%。对于重复的网页我们没必要多次处理。所以, 在搜索引擎的实现中进行网页去重是很有必要的。网页去重操作工作流程如下:
1) 对于给定的网页抽取文档主题内容, 以此构建特征集合;
2) 根据特征集合信息完成信息指纹计算;
3) 根据Jaccard相似度来确定网页是否重复。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。