导航菜单
首 页
模板
查询
套餐
代理
资讯
案例
关于
入口
您的位置:
首 页
>
新闻中心
>
资讯动态
> 新闻动态网页采集
官网公告
服务领域
企业网站建设
公司网站制作
企业网站设计
企业建网站
企业做网站
手机网站建设
网站SEO优化
动态观点
资讯动态
行业动态
资讯动态
行业动态
资讯动态
新闻动态网页采集
发布:2020-12-09 12:29:46 浏览:1533
网页采集
作为政府网站网页在线归档的首要环节,就是利用相关工具,以既定的频率和方式,及时选择值得保存的政府网页内容。
网页采集的第一步是要确定采集对象,政府网页归档保存的信息采集对象是域名中含有“gov.cn”的政府网站,为确保政府网页的采集质量,需要对目标网站进行评价,将那些信息规模大、原生性信息多、更新频繁的政府网站选定为采集对象。在确定要采集的目标政府网站之后,还应根据实际需求选择相应的采集方式。完整性采集和选择性采集是目前比较常用的网络资源采集方式,它们各有优缺点,为了弥补其各自的不足,可以实现两种采集方式的优势互补,采用融合二者优点的混合型采集方式,在对选定的政府网站中所有网页进行完整性采集的同时,通过人工干预的方式对网页内容进行甄别,对其中有证据价值、历史价值、研究价值的重要网页,有选择性地进行深层次的频繁采集,这样既考虑到了政府网页采集面的广度,同时又照顾到了重要网页采集的深度。
而网页的采集与捕获最终还需要依靠相应的网络爬虫工具来实现,目前面向网页存档的爬虫工具比较多,其中Heritrix、HTTrack最为常用,可利用这些工具来有针对性地完成对目标政府网站网页的自动批量在线采集。
>>> 查看
《新闻动态网页采集》
更多相关资讯 <<<
本文地址:http://nlpc.cn/news/html/22236.html
上一个:
新闻动态云下数据管理功能模块
下一个:
新闻动态高质量内容建设
首页
手机
分类
顶部
友情链接
谷歌地图
百度地图
HTML地图
TXT地图
华友机械
恒悦房地产
网站设计
天盛文旅
三瑞电池
三瑞蓄电池
广志建设工程
PHP开发
建站代理
赶快点击我,让我来帮您!