维护您的网站涉及拥有专门的备份策略。虽然备份是必不可少的,但它们并不是保护站点的唯一方法。备份的自然延伸是对网站进行归档——尽管它们是互补的过程。
有几种灵活的方法可以归档网站。好消息是它们都易于使用且易于访问。您只需为您的需要和要求选择正确的解决方案。
在这篇文章中,我们将看看如何归档网站。我们还将探索您会遇到的不同归档类型,汇总一些最突出的站点归档工具,并讨论一些有关归档站点的技巧。
- 网站归档简介
- 为什么要存档网站
- 您将遇到的不同类型的Web归档
- Internet存档工具和站点的初学者指南
- 什么是Web存档 (WARC) 文件格式?
- 管理离线档案的技巧
- 归档网站的4种方法
归档网站意味着保留内容、数据和媒体以供将来参考。使用诸如Wayback Machine之类的专用服务(尽管我们稍后会介绍其他解决方案),您可以查看网站的旧版本。
闪电博网站在2016年的样子
在技术层面上,爬虫会拍摄网站的快照,该网站构成了档案本身。如果您愿意,您可以使用简单的日历访问它并以时间线格式查看每个迭代。
闪电博网站的Wayback Machine日历存档
至于为什么会有Wayback Machine这样的解决方案,我们得追溯到2000年代初。互联网泡沫几乎破灭了;许多企业正在倒闭。一些受欢迎的网站被关闭或放弃,留下的记忆很少。
与互联网出现之前的其他媒体格式(例如音乐和电视)非常相似,这些网站具有历史和怀旧价值。拯救它们意味着让未来的互联网用户一瞥我们与早期技术的差距。
在互联网档案馆推出Wayback机器来帮助维护网站。如果网站已在那里存档,您可以看到该网站多年来的发展情况。
归档网站需要许多爬虫,包括可能需要数年才能完成的巨大的个人爬虫。执行爬行“探险”和存储结果快照所需的咕噜声是巨大的。
例如,Wayback Machine的第一台100TB服务器于2004年投入使用。到2020年底,Wayback Machine已存储超过70PB的数据。这超过70,000TB。
然而,并不是每个人都对Internet Archive所做的工作感到满意。基于网站存档是否破坏现有版权问题,已经有多次讨论和法律挑战。
尽管如此,鉴于存储的档案数量的显着增长,人们显然希望保留网站。
想要存档网站的原因有很多,而不仅仅是出于怀旧的原因。对于现实世界的类比,请查看GitHub。
GitHub的基础设施很像互联网档案
Github存储项目的存储库,以及所做的每个“提交”。将此与互联网存档进行比较,存储库代表整个存档,而提交则是快照。
就像Git存储库很有价值一样,存档也很有价值。例如,您可以查看网站以前的迭代(甚至是多年前的)以影响您当前的设计选择。
此外,您可能有法律义务对您的网站进行存档,尤其是在金融或法律行业。
最后,如果您不幸卷入了围绕您网站的诉讼,您的档案将成为宝贵的证据。如果您能提供清晰完整的网站档案,您甚至可以在法院介入之前解决纠纷。
在我们讨论可用的不同类型的Web归档之前,有必要回到我们之前提到的主题。在纸面上,站点备份和网站存档看起来很相似。然而,他们执行不同的工作,相互补充。简而言之:
- 备份是基于数据的。他们更关心保留您网站的数据。鉴于如果您需要恢复站点,备份至关重要,因此对数据进行完整备份至关重要。
- 档案保存数据的上下文。如果您浏览您最喜欢的网站的存档,您会注意到该功能通常是不完整的。但是,站点的设计和静态内容通常是完整的。
值得注意的是,归档并不打算完全避免数据保存工作。事实上,其中一项好处是让用户可以像在现场一样浏览您的网站。即便如此,考虑到诸如Wayback Machine之类的网站作为虚拟“记忆通道”存在,保持视觉效果完整比保留后端功能具有更高的优先级。
简而言之,您需要为您的站点同时使用备份和存档——前者作为日常保护以防最坏的情况发生,而后者作为帮助记录站点演变的附加方式。
网络归档不仅仅是一种风格。您会遇到几种不同的类型。以下是每个的细分:
- 客户端:它涉及最终用户保存相关网站的版本。它简单、可扩展,可让您轻松归档网站。
- 服务器端: Wayback Machine和其他方法被归类为服务器端归档。它使用爬虫和其他技术来存档网站,但它也需要客户端存档中没有的一定程度的同意。
- 基于事务:虽然这仍然基于服务器端归档,但它更复杂,需要站点所有者的明确同意。本质上,它归档了最终用户和服务器之间的站点事务。
对于具有静态数据的简单网站,再加上有组织的归档策略,客户端归档应该符合要求。然而,大多数其他站点更喜欢服务器端归档——大多数网站不需要基于事务的归档。
最后——我们将在整篇文章中更详细地讨论这一点——您还需要考虑存档的存储位置和方式。例如,本地存档并不是一个糟糕的选择,但如果您的计算机出现故障,您可能会看到它消失了。另一方面,如果您选择第三方解决方案,您对存档内容的控制就会减少。
正如您所期望的,这里的答案是使用多方面的方法来存档网站。我们建议将存档视为备份:将三个不同的副本保存在不同的位置并以某种方式同步。
您可能还希望使其中一个存档生效,以便您可以利用站点上的任何服务器端功能。结果是一个具有强大备份和存档策略的网站,对其他人仍然有用。
有很多解决方案可用于归档网站。我们将介绍一些较受欢迎的,以及我们对它如何适合您的看法。
Wayback Machine
首先,让我们讨论Wayback Machine。它是同类产品中的第一个,因此为其他归档工具设定了基准。
因此,在寻找存档网站时,它可能会成为第一个负责人。它有很多方法来创建和上传档案,甚至还有一个专门的API来连接到它的功能。值得注意的是,它也是一个服务器端归档解决方案。
也就是说,由于它抓取和归档网站的方式,Wayback Machine可能无法保留您网站的所有功能。尽管如此,它被认为是网络档案管理员的行业标准,并且完全可以免费启动。在本文后面,我们将向您展示如何使用Wayback Machine更详细地存档网站。
Archive.today网站
接下来是Archive.today。它在很多方面都与Wayback Machine相似——甚至是网站几乎“复古”的设计。它的数据服务器位于欧洲,但它的归档方式与Wayback Machine不同。
首先,Archive.today不是基于在网络上运行的爬虫。相反,您提交您的URL并同意将其包含在存档中。此外,它的功能列表比其他解决方案更简单。例如,没有强大的删除策略,并且存档过程排除了某些媒体和文件类型。
尽管如此,如果您想要一个免费的地方来存储档案,它仍然是免费且合适的。该站点甚至具有查找以前存档站点的搜索功能。
Heritrix网站
到目前为止,我们在这篇文章中几乎可以互换地提到Internet Archive和Wayback Machine。不过,Wayback Machine只是一项服务,除此之外,Internet Archive还提供其他一些存档产品。Heritrix是一个免费的开源工具,诞生于Internet Archive和北欧图书馆之间的合作。
它本质上是一个网络爬虫,而不是一个功能齐全的归档工具。但是,您可以将所有爬取的结果打包在一起。虽然过去并非如此,但Wayback Machine现在使用Heritrix来抓取站点以包含在其自己的站点中。更重要的是,大量图书馆和机构使用Heritrix来建立档案。
尽管具有令人印象深刻的功能,但安装Heritrix需要一些技术知识。没有用户友好的界面来为您安装它,因此您需要了解Git、GitHub和命令行。
与其他类似解决方案一样,Heritrix完全免费使用,因此适合作为经济高效的自存档解决方案。
Web归档集成层 (WAIL) 网站
如果您正在考虑使用Heritrix对网站进行存档,但对简单安装软件所需的技术知识感到厌烦,那么这里有一个潜在的解决方案适合您。网页存档集成层(WAIL)是一个免费和开源的跨平台的桌面应用程序,让你一个功能的图形用户界面(GUI)来使用,使用安装程序一起。
好消息是Heritrix是WAIL的爬行引擎。这意味着您可以利用Heritrix的强大功能,而不必遍历GitHub和命令行。此外,WAIL使用OpenWayback引擎来“重放”网络档案。
因此,您已准备好在您的机器上使用功能齐全的Web归档工具。我们还将在本文后面准确地向您展示WAIL的工作原理。
Stillio网站
我们的倒数第二个归档工具被称为自动解决方案,可以按设定的时间间隔拍摄快照。Stillio是一项高级服务,在外观和感觉上都与其他归档解决方案不同。
该网站看起来很漂亮,并为您提供了无数选项来创建满足您确切要求的档案。例如,您可以向URL添加标签和自定义标题。
此外,您可以选择将档案存储到Dropbox、Google Drive和其他第三方服务。
然而, Stillio有一个巨大的缺点:它不支持后端归档。您只能使用网站的屏幕截图,而不是完整的数据存档。对于许多应用程序,这还不够。
但是, Stillio在某些情况下可能很有用,例如用作品牌管理和跟踪工具。例如,您可以截取竞争对手网站或搜索引擎结果的屏幕截图。它也非常适合内容验证。
Stillio的起价为每月29美元,并通过四个等级上升至每月299美元。这是一个很大的问题,尤其是当有具有更强大功能的免费替代品时。但如果它完全适合您的用例,那么值得一看!
Pagefreezer网站
我们的最终解决方案是另一个自动化工具。Pagefreezer提供许多与Stillio相同的好处,但它还可以存档社交媒体内容、文本消息、完整站点和企业级协作平台。
从表面上看,Pagefreezer似乎是比Stillio更强大的解决方案,并且在各种用例中具有更大的价值。
例如,如果法律要求您完全归档站点,Pagefreezer就可以满足要求。它允许您自动化快照数量并使用站点存档浏览器和比较工具查看它们。
总体而言,Pagefreezer是一款出色的企业级工作场所归档解决方案。使用Yammer或Salesforce的Chatter的公司会被这种类型的解决方案所吸引,Workplace用户也会如此。
如果您正在研究如何归档网站,您会遇到Web归档 (WARC)格式。它是您站点存档的各种文件的打包组合,因此具有便携性和自包含性。
互联网档案馆创建了WARC来长期保存网络数据。国际互联网保护联盟 (IIPC) 已发布文件格式的完整规范。它将存储图像、元数据以及您的站点独立运行所需的几乎所有内容。
虽然它最初只是一种方便的文件格式,但WARC现在是数字档案的国际ISO标准。因此,它已被政府和其他官方机构采用。事实上,有几个用例WARC文件至关重要:
- E-discovery:这是诉讼期间的过程,在该过程中,数字记录被研究并呈现以纳入审判。对于社交媒体记录,WARC文件符合E-discovery法律标准。
- 信息自由(FOI): 有许多国家的政府和使用该FOI官方机构和打开记录的作用是提供一个“知情权”(RTK)服务状态成分。WARC格式在涉及数字记录的情况下是理想的。
许多不同的归档解决方案和爬虫都使用WARC,例如StormCrawler和Apache Nutch。您还可以调整命令行工具(例如Wget)的设置,以将请求提取并打包为WARC文件。我们很快就会更详细地讨论这个问题。
还有很多其他工具也可以输出到WARC文件。比如开源网页保存工具wallabag就可以做到这一点。
作为替代方案,grab-site是一个基于Web的应用程序,可帮助将档案抓取为WARC文件。
打开WARC文件取决于您使用的工具。无论您喜欢哪种解决方案,请记住,其中一些工具已经有一段时间没有更新了。
因此,您需要确保您选择的解决方案适用于您当前的系统,并且将来可以使用。如果您在归档项目的过程中避免使用可能会终止或放弃的工具,您将省去很多麻烦。
在我们讨论如何归档网站之前,让我们花几分钟时间来帮助您整理现有的档案。我们已经谈到了这个主题,但采用可靠的方法将使您的档案更易于管理。您网站的用户也将从组织良好的档案中得到更多的利用。
您必须牢记三个关键要素:
- 频率: 决定您想要多久归档一个站点。几乎每天都在变化的庞大、动态、复杂的站点将需要比静态站点更频繁的快照。
- 位置:就像备份一样,您应该将档案保存在多个不同的位置,包括云。遵循3-2-1 规则以获得额外保证。如果您想捕捉网站的全部深度,我们还建议您提供更多信息。
- 结构:就像您的计算机目录一样,您应该使用明确的文件夹,细分为站点存档的名称和特定站点的存档日期。
虽然您可以进一步扩展您的归档管理,但这三个技巧将开始您的归档工作。
下面,我们将建议五种不同的网站存档方式。我们已经根据它们的相对难度对解决方案进行了排序。但是,如果您发现一个您认为可以满足您当前需求的解决方案,请随时深入了解并找到更多。
让我们讨论最直接的解决方案。如果您需要存档单个页面,那就太好了,甚至更好的是,几乎每个浏览器都已经具备该功能。
首先,打开您最喜欢的浏览器并前往您要存档的网站。页面加载后,导航到浏览器的文件菜单并找到页面另存为选项:
接下来,单击保存页面的选项,此时浏览器将显示一个对话框。
在这里,为您的页面选择一个名称(尽管默认值很好)。此外,请确保您保存的是整个页面,而不仅仅是HTML。它将以尽可能多的功能保留站点。
如果不向您展示Wayback Machine的工作原理,任何教程都是不完整的。幸运的是,这个过程很简单。也就是说,请注意,此方法仅允许您存档单个页面(尽管订阅Archive-It服务确实允许您存档完整站点)。
对于这种方法,请前往Wayback Machine主页并查看“Save Page Now”表单:
Wayback Machine网站上的“Save Page Now”表单
要存档页面,只需将您希望保存的URL添加到此表单,然后点击Save Page。根据页面的大小或复杂程度,您可能需要等待几分钟,让爬虫和引擎完成它们的工作。可能是页面看起来好像崩溃了。我们在测试中遇到了一段时间的死亡白屏 (WSoD)。
但是,一旦页面被归档,Wayback Machine会将您重定向到新的专用页面。
存档在Wayback Machine上的页面
请注意,您也可以使用书签和浏览器扩展程序来存档网站。事实上,当前的大多数浏览器都具有这些开箱即用的选项,包括Google Chrome、Firefox和Safari。
使用这种方法的第一步是下载WAIL本身并安装它。幸运的是,该工具有一个专用的安装程序(尽管因为该程序是用Python编写的,所以它使用了PyInstaller模块)。
安装过程轻而易举。无论您使用何种操作系统 (OS),您都可以执行以下操作:
- 导航到WAIL网站并下载适合您操作系统的安装程序。
- 对于Windows版本解压缩文件,或者为macOS安装DMG映像。
- 在macOS的结果对话框屏幕上,将应用程序图标拖到您的应用程序文件夹中。对于Windows用户,只需将解压缩的文件夹拖到根C:驱动器即可。
- 启动WAIL.app或WAIL.exe(取决于您的操作系统)。
WAIL打开后,您将看到它的最小界面:
WAIL界面为您提供了三个选项
您现在可以选择三个选项:查看存档、检查其状态或存档网站。按钮有点令人困惑,因为您的自然倾向可能是从左到右阅读。但是,在首次发布时,您的档案中将一无所有。
相反,输入要存档的站点的URL,然后单击Archive Now!您会看到WAIL开始抓取网站。您可以在Advanced > Heritrix选项卡上检查您的抓取状态:
WAIL显示抓取作业的当前状态
完成后,它会向您显示“成功”消息。此时,您可以单击“Basic”选项卡上的“View Archive”按钮。这将在浏览器中打开您的存档站点,供您查看。
对于我们归档网站的最终方法,在开始之前您需要做一些事情:
- 命令行访问您的计算机
- 合适的命令行工具,例如Windows命令提示符或macOS和Linux上的终端
- Wget安装在您的计算机上
您可能已经拥有前两个。
在macOS上,您可以使用命令通过Homebrew安装Wget。请注意,您还需要安装Homebrew,但只需几秒钟。在Linux上,大多数主要发行版都预装了Wget。
如果您是Windows用户,则在您的计算机上安装Wget可能会更加困难。虽然网络上有可用的教程,但它们的指导在机器之间似乎不一致。相反,我们建议您前往官方Wget网站并查看一些可用的Windows二进制文件,因为它们更有可能适合您。
不管怎样,一旦你安装了Wget,使用它就很简单了。首先,导航到新终端窗口中的目录。在这里,我们也在创建目录,但此步骤是可选的:
请注意,Wget会将所有下载内容拉入任何工作目录中。在这种情况下,我们为我们的文件指定了一个文件夹。
接下来,您需要抓取站点并提取文件。使用命令调用每个操作,您需要使用以下格式:
按Enter键将开始将www.wbolt.com下载到index.html文件并创建一个名为kins-00000.warc.gz的WARC文件。
存档为WARC文件的站点
Wget功能强大,您可以使用许多命令和选项。例如,您可以使用该命令创建一个包含站点完整镜像的WARC 文件。您也可以使用该命令来写入未压缩的文件,尽管这显然会在每次下载时占用更多空间。使用内置压缩机是最佳方法。
Web归档源于对快速变化的互联网形态进行记录的需求。它现在有多个有效的应用程序——例如,在法律文件和要求的情况下。无论您需要什么,拥有结构良好且组织良好的存档都可以补充您的整体备份策略。