兰州seo|提供网站建设,网站优化,客户体验,关键词排名服务 >> seo资料 >> 宽度优先搜索的 Web网页爬行方法

宽度优先搜索的 Web网页爬行方法

关键词:搜索引擎 搜索

网页爬行器首先从一个由起始的 URL 构成的队列出发 , 这些 URL 被称为种子 , 它把队列中的第 1个 URL 移出队列 , 然后取得该 URL 所对应的网页 P0 , 然后从网页 P0 中提取它所包含的所有的 URL ,把这些 URL 按照某种策略加进网页爬行器需要爬行的 URL 队列中 , 网页爬行器再从 URL 队列中取下一个需要爬行的 URL , 重复如上所述过程 , 直到满足要求或 URL 队列为空。可以把网页爬行器爬行过的每个网页看成有向图中的一个节点 , 网页之间的链接看成是节点之间的有向边 , 则网页构成的有向图如图 1 所示 , 网页爬行器在 Web空间中爬行网页的过程就是对由网页构成的有向图的遍历。网页爬行器爬行网页的策略主要有两种 , 一种是深度优先搜索策略。另一种是宽度优先搜索策略 , MarcNajork等人的研究证明 , 爬行器采用宽度优先搜索策略爬行的网页质量要比采用深度优先搜索策略的要好[4~6〗, 因此 , 大多数网页爬行器采用宽度优先搜索策略或者是对这种策略的某些改进。其基本算法描述如下。

兰州seo
Breadth2 first Crawling Algorithm ()
{
·把种子 URLs加入到爬行器待爬行的队列 URLs - QUEUE中。
· While (当队列 URLs - QUEUE不为空和没有满足某种终止条件3
)
{
·从队列 URLs - QUEUE中移出一个 URL。
·取得 URL 所对应的网页 P。
·对网页 P进行存储、索引并解析 , 取得网页 P包含的所有 URLs。
·把取得的 URLs加入到队列 URLs - QUEUE中。
}
}


此处的“没有满足某种终止条件”是指爬行器的爬行过程到目前为止没有满足系统的要求 , 如爬行的网页数量不够。如果一个爬行器按照如上所述的宽度优先搜索策略在 Web 空间中爬行 , 它对所有的网页都采取一视同仁的态度 , 在爬行的过程中 , 没有考虑网页之间的超链接信息和网页内容 , 这样盲目爬行的结果就导致了它所爬行回来的网页质量不高。
转载请表明作者和出处:二十一@兰州seo
http://www.0931seo.cn

点击《宽度优先搜索的 Web网页爬行方法.pdf 》下载阅读

技术文章来之不易,你们的支持是我们的动力。

 

本站文章如转载,请注明:转载自兰州seo|提供网站建设,网站优化,客户体验,关键词排名服务 [http://www.0931seo.cn]

本文链接地址:http://www.0931seo.cn/seo-book/KuanDuYouXianSouSuoDe_WebWangYePaHangFangFa.html

下列内容与搜索引擎,搜索有着内在的联系,建议您一并阅读。