网络爬虫进化史
---原来你是这样的爬虫!
(一)
作者:19数媒技1班刘子豪
“导语
”年一个平淡的一天,累了一天的你打开手机,发现满朋友圈“手把手教你写Python爬虫爬取小姐姐照片”的广告,有没有疑惑过爬虫究竟是个啥?怎么突然就这么火了?莫不是在养蛊?
那么接下来这个系列的文章将会告诉你爬虫是如何从一只小虫进化成布满整个互联网、在所有人面前张牙舞爪的可怕巨虫的。
出生之前
我们的故事要从年的瑞士开始。在瑞士日内瓦西部与德国的边境处有一片荒野,在这片荒野里,一群智商高达的精英们躲在这儿偷偷研究着世界上最小的物质——这里建立着世界上最大的粒子物理学实验室:欧洲核子研究委员会总部(CERN)。八十年代,切尔诺贝利事故的阴影笼罩在整个欧洲上空,然而年轻的蒂姆·伯纳斯·李(TimothyJohnBerners-Lee)和其他CERN的科学家们却没有停下脚步,仍然在继续探索研究。
话说这蒂姆并不是很有名气的资深教授,CERN的研究也轮不上他,但是Boss也不能让他闲着,看在蒂姆的爸妈都参与了第一台商业电脑曼切斯特1型(ManchesterMarkI)发明的份上,就让他开发一个计算机软件,目的是能让CERN与其他国家的研究室更加便捷地交流。
蒂姆虽然拿到了牛津的荣誉物理学士学位,本该研究物理,但他还是接了这项工作。令人出乎意料的是,不久之后,在年的夏夜,世界上第一个Web服务器和客户端出现在了CERN的一台NeXT计算机上。他将这项技术命名为WorldWideWeb,也就是WWW,或者叫做万维网,自此,互联网的青春开始了。
等等,你不是要讲爬虫吗,怎么讲起万维网来了?
别急,蒂姆发明万维网的同时,还带来了三项关键技术,这三项技术为爬虫的诞生构建了温床,那就是URI、HTML和HTTP。
先说最基础的