來源:巨靈鳥軟件 作者:進銷存軟件 發(fā)布:2019/9/15 瀏覽次數(shù):4463
這個問題讓我不禁想到了一個詞——爬蟲
等等,圖片錯了,應該是這樣的爬蟲
爬蟲就是一個探測機器,它的基本操作就是模擬人的行為去各個網站溜達,點點按鈕,查查數(shù)據(jù),或者把看到的信息背回來。就像一只蟲子在一幢樓里不知疲倦地爬來爬去。你可以簡單地想象:每個爬蟲都是你的“分身”。就像孫悟空拔了一撮汗毛,吹出一堆猴子一樣。你每天使用的百度,其實就是利用了這種爬蟲技術:每天放出無數(shù)爬蟲到各個網站,把他們的信息抓回來,然后化好淡妝排著小隊等你來檢索。搶票軟件,就相當于撒出去無數(shù)個分身,每一個分身都幫助你不斷刷新 12306 網站的火車余票。一旦發(fā)現(xiàn)有票,就馬上拍下來,然后對你喊:土豪快來付款。正好在上周末,一位黑客盆友御風神秘兮兮地給我發(fā)來一份《中國爬蟲圖鑒》,這哥們在騰訊云鼎實驗室主要負責加班,順便和同事們開發(fā)了很多黑科技。比如他們搞了一個威脅情報系統(tǒng),號稱能探測到全世界的“爬蟲”都在做什么。我吹著口哨打開《圖鑒》,但一分鐘以后,我整個人都不好了。我看到了另一個“平行世界”:
就在我們身邊的網絡上,已經密密麻麻爬滿了各種網絡爬蟲,它們善惡不同,各懷心思。而越是每個人切身利益所在的地方,就越是爬滿了爬蟲。
看到最后,我發(fā)現(xiàn)這哪里是《中國爬蟲圖鑒》,這分明是一份《中國焦慮圖鑒》。
我們今天要說的,就和這些 App 有關。
一、爬蟲的“騷操作”
爬蟲也分善惡。像谷歌這樣的搜索引擎爬蟲,每隔幾天對全網的網頁掃一遍,供大家查閱,各個被掃的網站大都很開心。這種就被定義為“善意爬蟲”。但是,像搶票軟件這樣的爬蟲,對著 12306 每秒鐘恨不得擼幾萬次。鐵總并不覺得很開心。這種就被定義為“惡意爬蟲”。(注意,搶票的你覺得開心沒用,被掃描的網站覺得不開心,它就是惡意的。)給你看一張圖:
這張圖里顯示的,就是各行各業(yè)被爬“叨擾”的比例。(注意,這張圖顯示是全世界,不是全中國。)而每一個色塊背后,都是一條真實而強大的利益鏈條。接下來,中哥就給你科普一下里面的騷操作。1、排名第一的是出行出行行業(yè)中爬蟲的占比最高(20.87%)。在出行的爬蟲中,有89.02%的流量都是沖著 12306 去的。這不意外,全中國賣火車票的獨此一家別無分號。你還記得當年12306 上線王珞丹和白百何的“史上最坑圖片驗證碼”么?
這些東西不是為了故意難為老老實實賣票的人的,而恰恰是為了阻止爬蟲(也就是搶票軟件)的點擊。剛才說了,爬蟲只會簡單的機械點擊,它不認識白百何,所以很大一部分爬蟲就被擋在了門外。你可能會說,不對啊,我現(xiàn)在還可以用搶票軟件搶到票啊。沒錯。搶票軟件也不是吃素的。它們在和鐵總搞“對抗”。有一種東西叫做“打碼平臺”,你可以了解一下。打碼平臺雇傭了很多叔叔阿姨,他們在電腦屏幕前不做別的事情,專門幫人識別驗證碼。那邊搶票軟件遇到了驗證碼,系統(tǒng)就會自動把這些驗證碼傳到叔叔阿姨面前,他們手工選好哪個是白百何哪個是王珞丹,然后再把結果傳回去?偣驳倪^程用不了幾秒時間。當然,這樣的打碼平臺還有記憶功能。如果叔叔阿姨已經標記了這張圖是“鍋鏟”,那么下次這張圖片再出現(xiàn)的時候,系統(tǒng)就直接判斷它是“鍋鏟”。時間一長,12306 系統(tǒng)里的圖片就被標記完了,機器自己都能認識,叔叔阿姨都可以坐在一邊斗地主了。
來源:巨靈鳥 歡迎分享本文
上一個文章:技術一旦被用來作惡,究竟會有多可怕(二)
下一個文章:聲紋識別