网页去噪流程:

1) 节点分割。将网页映射为DOM树, 根据当前DOM节点的信息以及子节点信息进行节点分割, 完成信息块提取。

2) 检测分割条。首先利用网页的初始坐标和终止坐标作为初始化分隔条, 然后利用页面块与分割条之间的位置关系生成新的检测条。3) 利用分隔条的权值重构语义块, 沿着分隔条从低到高的方向进行迭代合并, 这样最终将网页分割成主题相关性很高的块的集合。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。