行业动态采集范围

采集范围。网页档案的采集有不同的采集策略，不同的采集策略决定了不同的采集范围，可分为完整型采集、选择型采集以及混合型采集。

完整型采集是对特定网域的全域进行自动化采集，采集范围广、内容多。美国的IA宗旨是保存互联网的全面记录，对全球公开的网站进行定期采集。每两个月，网站页面快照都会被互联网存档，自IA项目启动以来，互联网存档已经存储了2730亿个网页。

选择型采集是有针对性地捕获特定的网站，通常是根据事件、主题进行选择采集，采集范围小，需要借助人力。例如，澳大利亚的PANDORA项目只采集与澳大利亚相关，且具有文化意义的网站；美国国会图书馆的Library of Congress Web Archives（以下简称LCWA）项目，重点采集与国家利益主题相关的网页资源，包括美国选举、伊拉克战争和911事件；苏格兰的NRS网页档案项目，事先制定指南，根据指南采集其范围内组织创建和拥有的网站，包括苏格兰政府、苏格兰议会、苏格兰法院等。
混合型采集是将两种策略相结合，先大范围地对网站进行完整采集，再有重点地针对某些特定的网站进行深度、频繁的选择性采集。英国的UKWA项目，首先爬网内容是在英国发布的网站，如那些在英国顶级域名上的网站.uk、.cymru和.scot，以及可以手动识别出在英国发布的网站，再由工作人员定期关注、收集有关特定事件、主题或兴趣领域的网站。

本文地址：//www.xrqsnxx.com//article/21662.html

分享到：QQ空间新浪微博腾讯微博人人网微信开心网百度贴吧豆瓣网

中欧体育

行业动态采集范围