來源:巨靈鳥軟件 作者:進(jìn)銷存軟件 發(fā)布:2019/9/15 瀏覽次數(shù):4153
4、接下來是 O2O 和搜索引擎
你還記得上車之前,我問了你一個(gè)問題嗎?你在大眾點(diǎn)評(píng)上看到的信息,真是吃貨們點(diǎn)評(píng)的嗎?答:大部分時(shí)候是,但有時(shí)候不是。這里面的影響因素還是爬蟲。御風(fēng)告訴我,這些爬蟲很可能被用來做兩件事:1、大眾點(diǎn)評(píng)畢竟是最好的點(diǎn)評(píng)網(wǎng)站。很多網(wǎng)站都會(huì)爬取大眾點(diǎn)評(píng)的數(shù)據(jù),用來豐富自己的信息。2、很多剛上點(diǎn)評(píng)的商戶,信譽(yù)值不高,可以用爬蟲來模擬留言、點(diǎn)贊,刷高自己的信譽(yù)值。所以,理論上講一旦大眾點(diǎn)評(píng)對(duì)這些爬蟲對(duì)抗出現(xiàn)松懈,就會(huì)有一些不三不四的店鋪被“刷”到頂部。而與之相似的,是爬蟲針對(duì)搜索引擎的進(jìn)攻。你可能了解,搜索引擎決定哪個(gè)網(wǎng)頁排名靠前,(除了廣告以外)主要一個(gè)指標(biāo)就是看哪個(gè)搜索結(jié)果被人點(diǎn)擊的次數(shù)更多。
既然這樣,那么我就派出爬蟲,搜索某個(gè)特定的“關(guān)鍵詞”,然后在結(jié)果里拼命地點(diǎn)擊某個(gè)鏈接,那么這個(gè)網(wǎng)站在搜索引擎的權(quán)重里自然就會(huì)上升。這個(gè)過程就叫做 SEO(搜索引擎優(yōu)化)。
舉個(gè)例子:
我隨意搜索一個(gè)關(guān)鍵詞。
它排在前面的網(wǎng)址,有可能就是經(jīng)過 SEO 的。作為任何一個(gè)搜索引擎,都肯定不允許外人對(duì)于自己的搜索結(jié)果動(dòng)手動(dòng)腳,否則就會(huì)喪失公立性。它們會(huì)通過不定期調(diào)整算法來對(duì)抗 SEO。尤其是很多賭博、黃色網(wǎng)站,搜索引擎如果敢收廣告費(fèi)讓他們排到前面,那就離倒閉不遠(yuǎn)了。所以黃賭毒網(wǎng)站只能利用黑色 SEO,強(qiáng)行把自己刷到前面。直到被搜索引擎發(fā)現(xiàn),趕緊對(duì)它們“降權(quán)”處理。不過御風(fēng)算了算,這些黃色網(wǎng)站如果能把自己刷到前幾位一兩個(gè)小時(shí),賺來的錢就遠(yuǎn)遠(yuǎn)超過 SEO 的費(fèi)用。這也就解釋了為什么有時(shí)我們“眾里尋他千百度”,驀然回首,卻看到“有人正在脫褲褲”了。5、最后再說說政府部門你看這張圖,全是爬蟲針對(duì)政府信息的爬取。
第二名,北京市預(yù)約掛號(hào)統(tǒng)一平臺(tái)。這個(gè)鍋,板上釘釘要號(hào)販子來背。其他的,例如法院公告、信用中國、信用安徽,為什么爬蟲要爬這些信息呢?因?yàn)橛行┬畔ⅲ侵挥姓块T才掌握的。比如,誰被告過,哪家公司曾經(jīng)被行政處罰,哪個(gè)人曾經(jīng)進(jìn)入了失信名單。這些信息綜合起來,可以用來做一個(gè)公司或者個(gè)人的信譽(yù)記錄。我試著打開了一下排名第四位的“信用中國”。
在這個(gè)平臺(tái)上,你只要輸入一個(gè)身份證號(hào)或者手機(jī)號(hào),就可以查詢到一個(gè)人的信用情況。拉到最底下一看,這個(gè)網(wǎng)站果然是是根紅苗正的。
如果一家公司要對(duì)外做信譽(yù)庫的服務(wù),它必須先把信用中國的信息下載到自己的庫里,然后才能和其他數(shù)據(jù)進(jìn)行綜合運(yùn)算。如此,信用中國被爬,也就很容易解釋了。不過剛才那張表格里,排名第七的是四川住建廳。這又是什么騷操作?根據(jù)御風(fēng)的推測,這很可能是某些公司提供的一項(xiàng)“特殊服務(wù)”:他們把四川省各個(gè)地區(qū)的招標(biāo)情況匯總起來,然后實(shí)時(shí)提醒那些房地產(chǎn)公司:別睡了,起來投標(biāo)了。二、爬蟲戰(zhàn)爭說了這么多,我猜你會(huì)有幾個(gè)疑問。問題 1、爬蟲搞出這么多姿勢,它究竟是不是違法呢?這個(gè)問題還真的不簡單。我打開中國網(wǎng)安第一大法《網(wǎng)絡(luò)安全法》仔細(xì)看了半小時(shí),在里面沒有發(fā)現(xiàn)“爬取網(wǎng)絡(luò)公開信息被認(rèn)定為違法”的條款。于是我又繼續(xù)搜索,發(fā)現(xiàn)了幾條司法解釋:未經(jīng)授權(quán)爬取用戶手機(jī)通訊錄超過50條記錄;未經(jīng)授權(quán)抓取用戶淘寶交易記錄超過500條;未經(jīng)授權(quán)讀取用戶運(yùn)營商網(wǎng)站通話記錄超過500條;未經(jīng)授權(quán)讀取用戶公積金社保記錄的超過50000條的。以上這些情況可以入刑。
但是仔細(xì)看看,如果我只是用機(jī)器代替了人的手點(diǎn)擊鼠標(biāo)敲擊鍵盤,接觸的都是公開信息,并不觸犯這些司法解釋。(這只是我簡單查詢后的結(jié)果,不代表任何官方意見)但是,對(duì)企業(yè)來說,爬蟲卻著實(shí)傷害了自己。有句話說:“主救自救者。”他們得組織“民兵”自己保衛(wèi)自己。問題 2、爬蟲戰(zhàn)爭誰會(huì)贏?爬蟲和被爬企業(yè)越來越勢不兩立。說白了,他們的對(duì)抗都是在阻擋對(duì)方的財(cái)路。所以下手都挺重。企業(yè)經(jīng)典的對(duì)抗方式,大概有幾種:圖片驗(yàn)證碼、滑塊驗(yàn)證、封禁 IP、給訪問者增加一些加解密運(yùn)算,耗費(fèi)爬蟲的程序資源等等。。。
除了剛才這些小模塊,企業(yè)還可以通過 WAF(Web 應(yīng)用防火墻)來防護(hù),WAF 的功能就是通過設(shè)置一些規(guī)則,攔截掉那些不符合規(guī)則的請(qǐng)求。但是,爬蟲的請(qǐng)求,和真人的請(qǐng)求真的太像了。我覺得,對(duì)這種戰(zhàn)爭一個(gè)形象的比喻就是抗癌。癌細(xì)胞的目的就是拼命躲過免疫細(xì)胞的識(shí)別,而免疫細(xì)胞的目標(biāo)就是拼命分辨哪個(gè)是好細(xì)胞哪個(gè)是癌細(xì)胞。在我看來,這場對(duì)抗爬蟲的常規(guī)戰(zhàn)眼看就要升級(jí)為“智能戰(zhàn)”,而且戰(zhàn)線會(huì)向云端轉(zhuǎn)移。比如騰訊云的 WAF,聽說最近就要通過人工智能的方法來識(shí)別爬蟲。這里就不幫他們打廣告了。還有很多其他的云安全廠商,也開始主推反爬蟲的技術(shù)。不過,就像人類目前難以消滅癌癥一樣,企業(yè)也難以完全消滅爬蟲。但是我相信,在對(duì)抗中這條戰(zhàn)線會(huì)達(dá)到一個(gè)精妙的平衡。這個(gè)戰(zhàn)線每向前推進(jìn)一步,都需要安全研究員付出艱辛的努力。三、《中國焦慮圖鑒》最后,中哥幫你搞到了一張秘密表格。這是被監(jiān)測到的受爬蟲侵?jǐn)_最多的 Top50。(采樣數(shù)據(jù),僅供參考)
這張表里,除了google、Youtube、ask、亞洲航空這四家企業(yè)之外,應(yīng)該全是中國企業(yè)(或機(jī)關(guān))。正是從這些名字背后,我體會(huì)到了很多人的辛酸和焦慮。爬蟲是趨利的,它們永遠(yuǎn)會(huì)向有利益的地方爬行。而爬蟲覺得有利益的地方,往往是我們不忍提及的隱痛。你看,排名第1的“中國鐵路路客戶服務(wù)中心”無數(shù)像幺哥一樣的游子,他們奮斗在一個(gè)遠(yuǎn)離家鄉(xiāng)的城市,為了讓家人有更幸福的生活。正是他們難以買到過年回家車票的事實(shí),才把 12306 推上了爬蟲榜的第一名。你看,排名第8的“最高人民法院公告查詢”在中國,我們的信用體系還很不完善,騙子和老賴還可以繼續(xù)蒙騙新人。所以才催生了爬蟲收集法院公告,形成民間信用記錄的服務(wù)。你看,排名第15的“北京市預(yù)約掛號(hào)統(tǒng)一平臺(tái)”我們的醫(yī)療改革在進(jìn)行,但像你我一樣的普通人仍然看病難,看病貴。又便宜又好的醫(yī)療資源需要爭奪,這才有了“一號(hào)難求”的現(xiàn)實(shí),才有了黃牛用爬蟲拼命搶號(hào)的現(xiàn)象。自不用說那些神坑的虛假廣告,沖榜刷量,背后都有爬蟲的影子。有人說技術(shù)有罪,有人說技術(shù)無罪。
我不知道技術(shù)是否有罪,我只知道,這些盤踞在我們廣袤版圖上數(shù)以十億計(jì)的爬蟲,無時(shí)無刻不在提醒著我們:
抱怨不會(huì)讓這個(gè)世界變得更好,你想生活在一個(gè)怎樣的世界,就要用自己的雙手去創(chuàng)造它。
對(duì)了,這份《中國爬蟲圖鑒》我也從云鼎實(shí)驗(yàn)室的朋友那里要到啦,如果你想閱讀的話,可以上網(wǎng)找來看,也可以加微信跟我要~
另外云鼎實(shí)驗(yàn)室的技術(shù)可以探測到全網(wǎng)的惡意威脅,還是挺酷的。他們還有其他的報(bào)告放出~
來源:巨靈鳥 歡迎分享本文
上一個(gè)文章:語音識(shí)別與語義識(shí)別究竟有何區(qū)別
下一個(gè)文章:技術(shù)一旦被用來作惡,究竟會(huì)有多可怕(二)