走廊沐浴在刺眼的白色中,这是一种led的虚构。沿着墙壁,门无穷无尽地向远处退去。每个门的底部都有一个蓝色的皇冠,除了你之前走过的门,它们会发出深紫色的光。但这些不过是城门沙漠中的沙粒。
你在寻找什么东西。
你准备好了一段艰难的旅程。在第一扇门前,你会来到一个基座上。放在底座上的盒子尽管和周围的墙壁一样朴素,却给人一种镀金的感觉。它没有标题,但它的名字会在你的脑海中直观地回响:答案框。一块牌匾上写着:
我爬过了每一扇门。不仅仅是这个走廊上的门,还有所有现存的走廊上的门,门中的门,还有一些我不敢给你看的门,那些会让你吓得逃跑的门。我什么都看过了。我是公正的。我把你的利益放在心上。我知道你想知道什么,而且我知道。我有你想要的答案。
你的手指抚摸着门闩。
网络编目从一开始就注定要失败。1993年夏天,马修·格雷(Matthew Gray)创建了万维网漫游者(www),可以说是第一个互联网机器人和网络爬虫。在第一次正式尝试索引网络时,“漫游者”从探险中带回了130个网址。但即使在互联网的婴儿时期,这个列表也不完整。
为了理解一个简单的网络爬虫是如何工作的,想象一下制作一个包含三个城市的旅行行程:纽约、东京、巴黎。在游览每个目的地的时候,听听其他地方的提及,并把它们添加到你的行程中。当你访问了你不断增长的列表上的所有城市时,你的世界爬行就完成了。到旅行结束时,你会看到很多地方吗?毫无疑问。但你见过整个世界吗?几乎可以肯定不会。总会有一些城市,或者整个城市网络,在这个过程中实际上是不可见的。
类似地,网络爬虫会查询url列表,并递归地访问它看到的任何链接。但由此产生的索引不应与不存在的互联网综合目录相混淆。
我有一个技术理论,把每一个信息产品放在一个范围内,从医生到图书管理员。
医生的主要目的是保护你不受语境的影响。在诊断或治疗你的过程中,他们利用多年的训练、研究和个人经验,但他们不是以原始的形式向你展示这些信息,而是浓缩和综合。这是有充分理由的:当你去看医生的时候,你的主要目的不是激发你的好奇心或深入研究第一手资料;你想要答案,以诊断或治疗的形式。医生节省了你的时间,并保护你免受可能被误解或不必要的焦虑的信息。
相反,图书管理员的主要目的是为你指出上下文。在回答你的问题时,他们会利用多年的培训、研究和个人经验,并利用这些来把你拉进一个知识系统,以及这个知识系统背后的人的对话中。图书管理员可以让你更快地到达目的地,从而在短期内节省你的时间。但从长远来看,他们的希望是,目的地将显示自己是一个门户。他们认为思考是丰富的,而不是费力的,他们认为自己的专长是寻找出路,而不是解决问题。有时候,你问图书管理员一个问题,他们会给你指一本书,里面有你根本没想过要问的问题的答案。有时,你走到书架前取书,却发现另一本书吸引了你的眼球。这也是图书管理员的成功。