索引库更新。网站的页面信息是动态更新的, 由网络爬虫抓取得到的藏文网页倒排索引库也需要更新。搜索引擎的倒排索引更新有多种方式, 包括修改更新、覆盖更新和添加更新。鉴于目前上线的藏文网站数量少, 网络爬虫工作周期短, 藏文网页的倒排索引库更新可以采取添加更新加覆盖更新的策略。每次爬虫工作完成后, 建立新的索引库, 将查询引擎链接指向新的索引库, 同时保留近两期的索引库, 将更早的索引库删除。每次添加新的索引库后, 先将之前近两期的索引库保留一段时间备用。

长春网站建设

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。