科技就是发展。
而科技发展的另一面,就是对旧有生活的反叛。
如果给原始人打火机,原始人第一件事情就是扔掉打火石。
如果中国两轮电动车企给布隆迪捐助电瓶车
,奥德彪们都会纷纷弃暗投明。

如果塞给2006年的宅男一块装满外国视频的硬盘,他或许会卖掉自己的外国杂志。
互联网也是一样,而且更加残酷。
互联网的更新迭代,不仅要摧毁产品,更要摧毁信息。
比如说,当大家开始用视频网站看视频了。DVD光碟就会成了被时代遗弃的废品,许多狂野的导演也可能因此失去了自己的创意大舞台。
当人们开始玩QQ了,聊天室就会被纷纷抛弃。

那么当现在,有人把佟大为笑称为佟 Dark 为的时候。

没人记得他曾经也是个站在互联网风口的小鲜肉,扮演在聊天室里谈情说爱的网民“痞子蔡”。

无数的聊天室的聊天记录,那些故事与网民们共有回忆的信息,都会消逝。
互联网的发展就像一个吞噬一切的巨兽一样,吞噬过去,迈向不可知的深渊。
不久前,一篇《中文互联网正在加速崩塌》的文章刷屏社交媒体,里边讲了很多细思极恐的例子。
比如说,如果你搜索1998年到2005年之间的关于马云的资料,只有一条结果。

明明90年代到00年代是互联网蓬勃发展的黄金年代,可是你用先进的互联网搜索引擎就是找不到相关消息。
这个事情不止发生在中国。
全世界都在面临着信息消失的问题。
美国的皮尤研究中心做了一项调查,显示2013~2023年间存在的网页中,有1/4的网页已经无法访问。
这还没有统计更早的网站。
站长不干了、服务器不租了、合伙人闹掰了、站长去世了……各种原因都有可能让我们曾经乐于浏览的页面消失。
比如说,有个叫做RushB的专业CS攻略网站,就因为站长去世,一度陷入了停站风波,最后在网友的关注与帮助下得以解决。

甚至政治格局变化也会让互联网消息丢失。
比方说中国的域名是.cn,而南斯拉夫的域名是.yu,在南斯拉夫解体后,这个.yu 域名之下的网页内容就全部消失了。

遥想00年代,老师教给我们的是,字写在笔记本上,笔记本可能会丢,就跟寒假作业一样。但放在互联网上,可以帮你保存一辈子。
可现在看来,很难。
01 黑暗时代来临
2005年,20岁的精神小伙亚历克斯·图想到了一个超越时代的创意。

他建立了“百万美元主页”网站,里边有100万个像素可供购买,每个像素1美元起拍。买了有什么用?当然是承袭互联网商业的老祖宗:打广告。
不到一年,100万个像素广告位销售一空,最后一个像素更是拍卖到38100美元的天价。

精神小伙用50欧元的域名成本换来百万富翁的身份,可谓以小搏大的奇迹。

这个创意影响了后来Reddit的绝活“像素大战”
如今再去访问“百万美元主页”,其中至少有40%的超链接已经无法访问或被重新定向。
这块互联网早期的活化石,难逃“失忆”的命运。
从曾经的旅游胜地,变成了如今的互联网墓地。
当原始网页不可访问,我们还能通过搜索引擎的缓存服务窥见它们的样貌。
然而像是百度快照、Google Cached这类缓存服务,都在近几年陆续关闭。
类似“百万美元主页”的事件,还在不断发生。
皮尤研究中心 2024 年 5 月的报告提到,2013 年的网络内容里,有 38% 已经无法访问。
但这只是个数据,如果细化到微观视角。
那就是榕树下、千千静听、快播这类承载了人类精神食量的网站,不是倒闭就是关闭。
校内网、开心网这类化石级社交网站早已消失,偷菜和抢车位永远停留在一代人的青春回忆里。

有许多网民从快播中扩展了国际视野,获取了文娱的养料。
听到说快播倒闭,都说欠他一个VIP。
但殊不知,这不是个体的问题,这是互联网时代的积弊。

互联网的“阿尔茨海默病”已经是全世界都在面临的问题,而且失忆的速度可能比我们想象的更快。
1997 年,国际图书馆协会联合会上,有人提出一个术语叫“数字黑暗时代”,担心当前的主流存储介质可能在未来无法读取,其中保存的资料就此湮灭在历史中。
2015 年,设计了 TCP/IP 协议的互联网之父温特·瑟夫也对数字黑暗时代深感担忧。
这可不是杞人忧天,打孔带、软盘、磁带……曾经流行的存储介质如今已成为“硬核玩家”的专属玩具。
存储介质的变化,带来旧存储信息的流逝。

《赛博朋克2077》就在愚人节时候整了个活,把游戏放进97619张软盘里,需要2个月时间才能安装完
有网友找到了家里抽屉中的老软盘,想要缅怀一下软盘里的回忆,结果一打开,差点电脑中毒。

为什么互联网的信息那么容易丢失,究竟是不是人类文明发展的哪个环节出现了关键性bug?
出于对此的好奇,我必须深入对互联网历史探究一番。
02 从四个节点到万物互联
为什么今天的互联网正在加速崩塌?
因为我们的内容生产和消费模式产生了天翻地覆的变化。
互联网上最早出现信息崩溃的例子,发生在1969年。
1969年,L和O这两个字母从加州大学洛杉矶分校的电脑里出发,穿行566公里抵达斯坦福研究所的电脑里。
这两个字母就是人类用网络传输的第一条信息,背后有什么含义?其实,当时操作电脑的查理·克莱恩本想输入“LOGIN”(登录),没想到只输入了两个字母,系统就崩溃了。

对互联网第一条信息的文字记载,右侧的CSK就是查理·克莱恩的名字缩写
这个崩溃的系统名为“阿帕网”,是人类历史上最早的计算机网络之一。最早的阿帕网只有4个节点,随着后来节点越来越多,问题也越来越多。
最明显的是,阿帕网采用的NCP协议没有给网络里的每台设备指定唯一地址。
当设备太多时就容易找不到目标,信息丢失、运行效率低都是常事。你看,“失忆”从网络诞生开始就是顽疾。

再加上当时的电脑种类庞杂,软硬件标准互不兼容,很难接入阿帕网。
想实现真正的万物互联,急需搞一个统一的通信标准。
于是1974年,一篇名为《A Protocol for Packet Network Intercommunication》的论文打开了新局面,里边设计了一种全新的TCP/IP通信协议,捏住NCP的痛点狠狠改进。

每台设备都有唯一的地址,通过反复握手确认,保障数据传输时不丢失,偶尔丢包也能通过校验、重传等方法纠错。
凭着这些碾压级创新,TCP/IP定义了网络之间传输信息的方法,论文的两位作者文顿·瑟夫和罗伯特·卡恩在日后共享“互联网之父”的头衔。

1990年底,英国计算机学家蒂姆·伯纳斯-李实现了第一次超文本传输协议(HTTP)的通讯。
此后,无数超链接交织在一起,形成一个存在于赛博空间里的万维网。
World Wide Web这三个单词也是世界上第一个网页浏览器的名字,为了避免混淆“万维网”和“万维网浏览器”,浏览器后来更名成Nexus。

这也就是我们熟悉的多彩的互联网雏形。
但web1.0时代有一个巨大的问题,信息几乎是单向流动的,你打开一个大型网站,获得信息,关闭网站,结束了。
你要是想要点赞、转发、一键三连,那不太可能。
所以,为了解决大家的互动问题,互联网加速进入2.0时代,数据存储的问题却开始显现了。
为web2.0做出核心突破之一的是谷歌。2003 年后,谷歌连续发了三篇研究,这三篇研究都成了谷歌玩转大数据的基础。
先是Google File System,这种分布式文件系统把数据存储在大量廉价硬盘上,通过多个副本、冗余和故障检测机制保护数据安全,直接降低了数据的存储成本。
也就是说,你的信息不是存在“互联网”上,而是藉由“互联网”,存在硬盘中。
然后是MapReduce,把输入的数据打散成多个小块,多个任务并行处理,极大提高了数据的处理效率。
最后是BigTable数据存储系统,用来管理大规模数据,吞吐量高,延迟低。

这三板斧的核心就一个词:降本增效。
没有人想要被信息淹没,那最好的方式就是把信息压缩、打散,用最廉价的方式存储起来,毕竟,用户不是随时随地都需要所有信息的。
就好像之前有人发现微信头像越来越褪色,就有可能是微信为了信息存储,而压缩的画质。

但光压缩还不够,存储成本对于内容行业来说,Web 2.0让普通人也能享有创作内容的资格,但背后却是更大的“失忆”风险。
曾经的个人网站必须在文章里加入多媒体素材,才能顺应时代潮流。
可翻倍的存储成本怎么办?
所以,最早遇到存储困境的受害者们,就是那些坚持自己建网站写博客的人,现在可能比扬子鳄还要濒危。

网络提供的解决方式是,你们小散户就别存储数据了,我们提供一个内容平台,把数据存储在我们这儿,我们再优化管理,就可以降低存储成本了。
就好像是大家每个人都做一道西红柿炒蛋,需要用的、洗的盘子就很多。但要是有一个中央厨房,用一口大锅炒菜,就可以降低做菜损耗。
于是无数心怀梦想的创作者们一股脑涌进平台里一片繁荣之下,暗流汹涌。
“失忆”的第一个风险出现了:中心化的平台掌握了数据的生杀大权。
只要平台脑子一抽,或者某个网站倒闭,海量内容灰飞烟灭。
比如说天涯。

天涯社区曾经是无数人的精神乌托邦,但2023年4月人们发现,天涯社区已经无法访问,今年又传出天涯社区破产的消息。
从天涯“逃亡”的人群规模浩浩荡荡,不亚于2023年年初《魔兽世界》停服时候的“赛博移民”。

除此之外,我们知道要去搜索内容,就要用搜索引擎搜索。
这看起来是一句废话。
但其实潜藏着第二个风险:搜索去中心化。
当人们越来越沉迷于视频、音频这类“非文本”的内容形式时。
就意味着一个结果,你在搜索引擎很难搜索到你想要的视频片段,除非有人对此做出标注。
毕竟网络搜索是靠爬虫抓取文本信息,如今有价值的内容都被塞进视频、音频里,就像在图书馆外边盖上一堵柏林墙,外边的爬虫进不去,里边的内容出不来。
当人们很难搜索到关键信息,它跟丢失了有什么区别?
盖上最后一层棺材板的是第三个风险:信息孤岛化。
如今几乎每个平台都在圈地自萌,不提供 PC 网页端,不下载APP不给看内容,甚至禁止网络爬虫收集信息。比如就在几天前(5月27日),有网友发现知乎开始禁止谷歌、必应爬取数据。
就说个看起来十分简单的,你能把抖音的视频直接转发到微信视频号吗?
从搜索引擎里“隐身”的网站,化身成“深网”的一部分,成为只存在于手机里的“小而美”。
当孤岛化成为常态,不想被大数据推送和茧房效应围困的人,必须熟知几十种 app 的搜索规则,才能拨开云雾找到有用的信息。
如今我们身处Web 2.0的末期,体验到的一切都与互联网的“开放精神”背道而驰,我们被困在一张张网里,不再互联。
那么,难道就没有解决办法,存储这些正在消失的数据吗?
有的,建立档案馆。
03 信息存档异闻录
你想要文件不丢,就把文件存储起来。
这看起来又是一句废话。
但实际上存在着两个问题,一、存储在哪个能永久地维护的地方,二、什么存储方式不会丢失?
比方说埃及法老,想到的永恒存储方法,就是当自己死了,把自己尸体里的内脏挖出来,然后往里面填上香料,接着在墓地里安上各种机关,最后盖一个大金字塔上去。

类似的还有1868 年,英军入侵缅甸,缅甸的文化很可能毁于一旦。缅甸君主为了保存《巴利文大藏经》,让人将其刻在石碑上,安置在新修建的圣祠里。圣祠本身就是一部经文,跟《三体》里“把字刻在石头上”如出一辙。
信息的濒临灭绝与绝境重生,伴随着人类的整个历史。
就在提出数字黑暗时代概念的前一年,“互联网档案馆”成立,里边保存了大量的书籍、电影、音乐等等内容。

甚至包括东西半球最强法务部名下的内容
这里不仅保存媒体资料,还把很多实物给虚拟化了。比如这个计算器馆,里边的计算器真的能按键(点击鼠标)操作。

当然,它最主要的功能是使用“网站时光机”保存网页,前提是用户需要手动提交希望保存的网址。想保存日新月异的海量互联网内容?只能是杯水车薪。
一个习惯了白嫖的互联网,用户看完视频别说一键三连了,可能点赞都不会给,你怎么要求他们自发去上传存储网站,很难。
所以,最好的方式就是发动国家力量。
很多国家机构也冲在对抗数字黑暗时代的前线。
我国的国家图书馆在2003年启动“互联网信息战略保存项目”,首个项目是存档新浪微博,于是在2019年,经常逛微博的网友纷纷“留言上墙”,荣获青史留名的资格。

哇塞,我的微博存档啦
学术机构和科研人员同样存档网络资料,如“北京大学李晓明”保存了2002 ~2016年的中国互联网网页,数据量大约有 200 TB。
最近AI大模型爆火,好多人找李晓明拷贝这组数据,这着实为中国的AI模型训练助力不少。

在对抗数字黑暗时代的过程里,还有一群民间爱好者正在作出努力。
2023年初,任天堂宣布要关闭WiiU和3DS的网络商城,1000多款没有发行过实体卡带的纯数字版游戏即将陪葬。YouTube频道“The Completionist”站了出来,花费2万多美元把这些游戏都买下,数据总量大概有1.5TB,全部捐赠给“电子游戏历史基金会”。

Archive Team由一群国外爱好者组成,在Reddit, Imgur, DeviantArt更改服务条款、删除大量内容之前,他们及时把宝贵的数据从“焚书坑儒”里拯救出来。

Save the Web Project由一群中国爱好者组成,存档过“半次元”“抽屉”等众多网站。如果有人把空的硬盘寄给他们,就能收获一块装满“消失的某个网站”的礼物。

Save the Web Project的Logo
他们也遇到过无力的时刻。“诗生活网”截止到2023年关站时已有23年的历史,要知道中国互联网起步于1994年,到现在也只有30年的历史,所以这个网站有“中文互联网活化石”的美誉。
但当Save the Web Project得知关站消息的时候,“活化石”的服务器已经关闭,错过了抢救数据的最佳时机。

这个小组的成员经常求“哪里有便宜的服务器”“谁能送我们几块闲置的硬盘”,真的是为爱发电。
哪有什么英雄主义,只是一群心怀理想的人默默做着他们认为重要的事情。
但靠着这样的组织、机构,就能对抗数字至暗时代了吗?
04 每个人都要作出选择
2008年,一位ID是Clash-Cash-Car的豆瓣网友开始活跃,他不知从什么地方找到一堆冷门音乐资料,在几年里编写了6000多个条目。直到2016年去世后,网友才得知他是一位普通的保安。
就像《大佛普拉斯》里的肚财,直到离世后,才有人发现他的内心丰富充沛,闪着炫目的光辉。

每个不起眼的普通人,可能都在不知不觉间对抗着数字黑暗时代,方法就藏在冲浪段子手都用过的包浆表情包里。

电子包浆当然没法对抗数字黑暗时代?但背后的下载、转发、上传一条龙却可以。
前边说过,Web 2.0末期最麻烦的是信息孤岛化,平台之间各玩各的,分享个链接还要被迫转换成不知所云的“&%…^$# 长按复制¥#”乱码,简直反人类。
现在的年轻人发扬电子包浆精神,截图录屏一键转发,谁跟你玩乱码?

在B站看抖音,这何尝不是一种NTR
信息孤岛化,没想到被电子包浆打破了。
《哈利·波特与火焰杯》 里,邓不利多有一句名言:“黑暗与艰困的时代就要来临,很快我们就会被迫面临抉择,选择对的,还是方便的。”
当“数字黑暗时代”像达摩克利斯之剑一样悬在头顶时,也许我们都要做一些正确但艰难的事情。
还好,我们前方有很多先行者,而且每个你我他,都能在这条路上继续前行。
来源网易号 酷玩实验室 https://www.163.com/dy/article/J4GARJOA0511BCOA.html
该文章在 2024/6/14 8:32:38 编辑过