个人工具
名字空间
变换
操作

安徽11选5开奖结果:网页抓取

来自站长百科
跳转到: 导航, 搜索

网页抓取主要有三个方面:1、搜集新出现的网页;2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不再存了的网页,并从库中删除。

目录

网页抓取的优先策略

通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

什么是重要性高的网页呢,主要由这三个方面决定的:

链接欢迎度

链接欢迎度主要是由反向链接的数目和质量决定的。

链接重要度

链接重要度它是关于一个URL字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少斜杠的URL重要度高等。

平均链接的深度

平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该网页,那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。

相关条目

参考来源

留言

  • 人民网个人信息保护政策 2018-11-14
  • 中央纪委公开曝光八起违反中央八项规定精神问题 2018-11-14
  • 合肥市长二小橡树湾校区师生携手外教端午文化体验行 2018-11-13
  • 城区加大扬尘污染治理力度 所有施工现场必须安装视频监控 2018-11-12
  • 奇闻怪事:瑶族怪异风俗习惯之烟袋定情 2018-11-11
  • 紫光阁中共中央国家机关工作委员会 2018-11-11
  • 页岩气资源税减征30% 2018-11-10
  • 航拍江西南昌龙舟竞渡迎端午 2018-11-10
  • 河北永清:小麦丰收 秸秆变宝 2018-11-09
  • 吴昕孺:一轮明月照湖湘 文明自有温度 2018-11-09
  • 农民回答风水神,“勤劳的农民玩什么没有富起来”。(原创首发) 2018-11-08
  • 有人被逼作弊,有人收获爱情,和高考有关的60个瞬间 2018-11-07
  • 徐海东在周家岗设伏歼敌 2018-11-07
  • 高清:C罗帽子戏法科斯塔梅开二度 葡萄牙3 2018-11-06
  • 李睿的专栏作者中国国家地理网 2018-11-05
  • 927| 378| 229| 264| 421| 382| 22| 231| 319| 143|