不到兩個月,2018年春節(jié)要來了。
“今年我得早下手,搶張回家的低價機票。”在北京打工的小王對科技日報記者說,由于老家在云南,春節(jié)機票太貴,他都選擇坐兩天兩夜的火車回去,長途跋涉,苦不堪言。
然而,就在小王摩拳擦掌,準備使出“洪荒之力”搶張便宜機票時,看到網(wǎng)上曝出這樣一則消息:航空公司放出的低價機票,80%以上被票務公司的“爬蟲”搶走,普通用戶很少能買到。
小王傻眼了,“爬蟲”究竟是什么鬼?它又是怎么搶機票的?難道就沒有辦法治理嗎?
借助超鏈接信息抓取網(wǎng)頁
“‘爬蟲’技術是實現(xiàn)網(wǎng)頁信息采集的關鍵技術之一,通俗來說,‘爬蟲’就是一段用來批量、自動化采集網(wǎng)站數(shù)據(jù)的程序,幾乎不需要人工干預。”北京理工大學網(wǎng)絡科學與技術研究院副教授閆懷志告訴科技日報記者。
閆懷志介紹,“爬蟲”又稱網(wǎng)頁“蜘蛛”、網(wǎng)絡機器人,它是一種按照一定規(guī)則自動抓取網(wǎng)頁信息的程序或者腳本,通常駐留在服務器上。在Web網(wǎng)頁中,既包含可供用戶閱讀的文字、圖片等信息,還包含一些超鏈接信息。網(wǎng)絡“爬蟲”正是借助這些超鏈接信息來不斷抓取網(wǎng)絡上的其他網(wǎng)頁。
“這種信息采集過程很像一個爬蟲或蜘蛛在網(wǎng)絡上漫游,網(wǎng)絡‘爬蟲’或網(wǎng)頁‘蜘蛛’因此得名。”閆懷志說,“爬蟲”最早應用在搜索引擎領域,比如谷歌、百度、搜狗等搜索引擎工具每天需要抓取互聯(lián)網(wǎng)上數(shù)百億的網(wǎng)頁,它們需要借助龐大的“爬蟲”集群來實現(xiàn)搜索功能。
當前,“爬蟲”已被廣泛用于電子商務、互聯(lián)網(wǎng)金融等諸多領域。比如,“爬蟲”可以抓取航空公司官網(wǎng)的機票價格,發(fā)現(xiàn)低價或緊俏機票后,“爬蟲”可以利用虛假客源的真實身份信息實現(xiàn)搶先預訂。再有,很多互聯(lián)網(wǎng)瀏覽器都推出了自己的搶票插件,以高訂票成功率來推廣瀏覽器。
根據(jù)抓取任務和目標的不同,網(wǎng)絡“爬蟲”可大致分為批量型、增量型和垂直型。批量型“爬蟲”的抓取范圍和目標較為明確,可以是網(wǎng)頁的設定數(shù)量,也可以是消耗時間的設定。增量型“爬蟲”主要用于持續(xù)抓取更新的網(wǎng)頁,以適應網(wǎng)頁的不斷變化。垂直型“爬蟲”主要是用于特定主題內容或特定行業(yè)的網(wǎng)頁。