他把互联网“存”了起来!
Posted 码农翻身
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了他把互联网“存”了起来!相关的知识,希望对你有一定的参考价值。
在刘慈欣的《三体》中,太阳系将要被二维化时,程心乘坐飞船来到了太阳系边沿的冥王星,在这里她遇到了曾经的执剑人罗辑。
罗辑向她介绍了人类的墓碑:地球文明博物馆。
在这里,人类希望把自己的文明信息保留十亿年!
但是当时的量子存储器,只能保存两千年。
U盘和硬盘,能保存五千年。
特殊金属制成的光盘, 10万年。
特殊的纸张和油墨制成的印刷品,20万年。
后来科学家们发现,唯一可行的办法是:把字刻在石头上!这样也许能保存1亿年。
最后,人类文明就变成了冥王星“石头”上的字迹。
每次看到这里我都挺震撼的,信息的长时间保存真难啊!
科幻总是能让人产生联想, 虽然不需要保存地球文明,但是想想我们的互联网,有多少数据早已经销声匿迹了?
有个统计说网页的平均寿命低得吓人:只有区区75天!
很多网页即使能被搜索引擎找到,打开时也经常会遇到404 not found。
能不能把全球互联网网页都找个地方保存起来呢?永不丢失呢?
这是个疯狂的想法,不过,还真有人这么干了!
照片中这位老帅哥叫做Brewster Kahle, 他的梦想就是做这件事情:把整个互联网都存起来!
像曾经的被战火摧毁的亚历山大图书馆那样,保存人类文明的知识。
很明显,这需要钱,很多钱。
幸运的是,Kahle是一位成功的连续创业者,是一位亿万富翁。
Kahle毕业于麻省理工,1992年创立了一家叫做WAIS的电子出版公司,可以让华尔街日报,纽约时报和大英百科全书之类的出版物在互联网上发布。
1995年,Kahle把这套系统卖给了美国在线,赚了1500万美元。
随后他又创立了Alexa Internet ,这个网站估计很多人听说过吧。
Alexa 以提供互联网流量数据,网站全球排名等信息闻名,1999年又以2.5亿美元被亚马逊收购。
在创立Alexa的时候,他很“狡猾”地在其中加入了一份合同,要求Alexa收集的所有内容副本都提供给他创立的另外一家非盈利机构: Internet Archive (互联网档案馆)。
这才是Kahle毕生追求的梦想。
(Internet Archive 总部)
到目前为止,互联网档案馆已经保存了:
5880 亿个网页
2800 万本书籍和文本
1400万 录音(包括22万场现场音乐会)
600万个视频(包括200万个电视新闻节目)
350 万张图片
580,000 个软件程序
(互联网档案馆的服务器)
仅仅是单个副本就占用了70多PB的空间(所有的内容至少存储两个副本)。
冷冰冰的数字可能大家可能没有感觉, 我分享一个我自己的故事。
20年前,我使用郑州商都信息港的免费空间,建立了一个个人主页, liuxin.shangdu.net。
这么多年过去了, 商都信息港早就没有了,这个网站也早就不能访问了。
但是,我却能在Kahle的互联网档案馆找到它的备份!
给大家瞅瞅,说实话,看到20年前的东西心情非常激动。
20年前的东西还能给你扒拉出来,你说牛不牛?
如果你也想找古老的资料,也可以去试一试:https://web.archive.org/
互联网档案馆不仅仅保存网页,还保存书籍。
为了把书籍数字化,他还制造了一个叫做Scribe的特殊扫描仪。
扫描仪分辨率超高,当然价格不菲, 扫描一页的成本是10美分,平均每本书300页,也就是一本书30美元,美国国会图书馆,有2600万本书,如果都扫描的话,需要花费在7.5亿美元。
有很多志愿者帮助扫描,如果你为它服务了三年,互联网档案馆会为你建立一座自己的雕像,以示感谢。
(据说仿秦始皇兵马俑,看起来有点吓人的不是?)
当然,Kahle就是再有钱,也架不住这么造下去,现在互联网档案馆是一家在美国运营的非营利组织。它的年度预算为 1000 万美元,主要收入来源于网络爬虫服务、合作伙伴、捐赠和Kahle-Austin 基金会。
总之,这是一个非常有意义,也非常有趣的项目,大家也可以去玩一下,看看自己的“老古董”是否也收藏在其中:
网页:
http://www.archive.org/web/web.php
视频:
http://www.archive.org/details/movies
音频:
http://www.archive.org/details/audio
软件:
http://www.archive.org/details/software
电子书:
http://www.archive.org/details/texts
(完)
最后,再介绍一下我的一个备份号“想躺平的程序员”,防止被人投诉后失联,请小伙伴们保存一下吧。
这个号不会空着,经常会发一下轻松有趣的东西,让大家在紧张的工作之余乐呵一下。
以上是关于他把互联网“存”了起来!的主要内容,如果未能解决你的问题,请参考以下文章