1
昨天朋友圈被一個小道消息刷屏了,大家可以看一看這個內(nèi)容,先自己感受一下。
這個案例一出來,很多人都在哀嚎大數(shù)據(jù)讓人無所遁形之類的云云,還有人在講嫖這個行業(yè)的種種。
但是作為一個風(fēng)控從業(yè)者,并且真的和多地公安合作過各種神奇項目(包括抓逃)的人,我看到這個新聞的第一反應(yīng)是離譜。
很多人對于大數(shù)據(jù)的理解是數(shù)據(jù)無所不能,沒錯,但是大數(shù)據(jù)發(fā)揮威力是有很多前提條件的。
套用到這個場景里面,大數(shù)據(jù)可以做到,但是實現(xiàn)不了。
再感受下這句話,可以做到,但是實現(xiàn)不了。
我先舉個簡單的例子,核彈牛逼不牛逼?牛逼炸了對不對。
但是想讓核彈產(chǎn)生威力,你得先有辦法把核彈丟到該丟的地方去,這就要求你有特別強的運載能力,以及定位能力和導(dǎo)航能力。
同時,你還得有非常強的防干擾,防擊落,防偽裝能力,不然你的東西會被攔下來。
然后,想讓核彈爆炸,引爆也是一個非常復(fù)雜的專業(yè)領(lǐng)域,你以為是拿個錘子砸兩下就能把核彈砸爆的?
最后,你以為核彈炸完就完事兒了?事后要怎么處理爛攤子,更考驗綜合實力。
所以你看,核彈非常牛逼,但是牛逼也是有條件的。
同樣的道理,大數(shù)據(jù)的威力很牛逼,但這個牛逼也是有很多前提條件在里面的。
為啥我說這個案例特別離譜?
因為這里面透露出來的要素都是非常離譜的,因為我自己做過很多公安的數(shù)據(jù)項目。
你用大數(shù)據(jù)做任何事情,天字第一件事兒一定是你的數(shù)據(jù)從哪來。
沒數(shù)據(jù)你做個屁大數(shù)據(jù)。
那問題來了,數(shù)據(jù)從哪來,有4個問題。
1-數(shù)據(jù)源選擇問題
2-數(shù)據(jù)源獲取問題
3-數(shù)據(jù)應(yīng)用(清洗)問題
4-數(shù)據(jù)源合法性問題
大家這時候再看這個截圖,你對照一看,就覺得離譜。
數(shù)據(jù)源選擇問題,說的很明白,爬TM和JD的數(shù)據(jù)。
這時候看數(shù)據(jù)源獲取。
爬數(shù)據(jù),也就是爬蟲工程,這里分2種。
一種是外部爬取,就是你自己寫一堆爬蟲,去爬對方暴露在外的界面,一般電商大戰(zhàn)的時候,各家都會實時去爬對手的爆品的單價,自己也會有策略動態(tài)跟著調(diào)價,這塊兒數(shù)據(jù)是暴露在網(wǎng)頁端orAPP端的,很容易爬,只要有IP池就行,這種內(nèi)容都是暴露在所有公共視野里面的。
一種是內(nèi)部爬取,就是不暴露在公眾視野里面,但是有授權(quán)就可以爬取。
例如你JD和TM的交易記錄,只要你愿意授權(quán)給他們,他們就爬取你登錄后的頁面,爬你私人的歷史訂單,以及收貨地址,以及瀏覽記錄的這種信息。
這種內(nèi)部爬取是必須你自己授權(quán),而且只能授權(quán)你自己看到的你自己的信息,這不是公開信息。
那么問題來了,大家自己打開TM和JD的商品頁面,自己看看銷售記錄,你能看到的所有數(shù)據(jù)都是脫敏or加鹽的,還有大量匿名的,你根本看不到這些人的手機號,地址以及郵箱信息,就連ID信息都不全,一堆星號,抓一堆這種數(shù)據(jù)出來,有啥用?你知道誰是誰?
有人說可以用模糊匹配,例如半****佛,可以直接匹配庫里的半****佛,這倆大概率是一個人。
那問題來了,你庫里的數(shù)據(jù)哪里來的?合法嗎?
就算合法,誰告訴你半***佛就一定等于半***佛?
不同電商平臺的數(shù)據(jù)加鹽規(guī)則都是不同的,一個空格算一個*還是兩個*?字母算幾個*?漢字算幾個*?我們都知道漢字在電腦里是2個字符,字母是一個字符。而且,允不允許標(biāo)點符號的存在?
你有本事破解TM和JD的規(guī)則,你還創(chuàng)個屁業(yè)。
就算這個你搞定了,你怎么搞定*的具體內(nèi)容?
兩個半***佛,脫敏之后,完全可以是半小胖子佛和半大帥比佛,你能說這倆是一個人?這不鬧嗎?
就算這倆半***佛,脫敏后都是半大帥比佛,也不能代表是一個人。
為啥?
因為網(wǎng)絡(luò)又不是ID獨占的,別人完全可以申請一樣的ID,同理,一個人在不同的平臺ID本身就不同。
為啥我在知乎叫半佛仙人,在B站叫硬核的半佛仙人,在微博叫半佛仙人正在裝。
不是我有創(chuàng)意,而是ID被別人用了好不好。
同樣的,我為啥要在不同平臺叫一個ID呢?
在淘寶可以叫半淘寶,在拼多多可以叫半拼多多,在京東可以叫半京東,順豐發(fā)件我叫半順豐,誰把我數(shù)據(jù)賣了我可以溯源到問題平臺。
在這種情況下,你怎么做邏輯匹配呀?這東西根本就不準(zhǔn)呀。
還是模糊的邏輯匹配,邏輯網(wǎng)的Key如何設(shè)計?誰要是能把這個都搞定,建議直接去幣圈,還創(chuàng)個屁業(yè),直接去幣圈當(dāng)中本聰?shù)臓敔敗?/p>
知道為什么我只說了TM和JD,沒有去說通話記錄么,明明截圖里還有說通話記錄的事情。
因為如果做不到TM和JD的身份鎖定,你有一堆通話記錄你也不知道要咋匹配。
這就和萬事俱備,就差一個程序員一樣搞笑。
好了,假如現(xiàn)在有個技術(shù)天才,真的搞定了這一切。
甚至可以直接從TM和JD拿到精準(zhǔn)的脫敏數(shù)據(jù)。
那么他將面臨的可能是法律的制裁。
你這么去爬大平臺的數(shù)據(jù),做自己的應(yīng)用,你在找死嗎?
過去兩年多少大數(shù)據(jù)精英因為這個進去撿肥皂了?
而且這里面還有通話記錄,運營商讓你爬了嗎?知道因為這個事情,多少爬蟲公司進去了?
還是說這是運營商or公安給你的數(shù)據(jù)?他們給你數(shù)據(jù)的時候,用戶授權(quán)了嗎?主動授權(quán)了嗎?
這可和綠碼之類的東西不一樣,總不能我買東西還授權(quán)一個驗嫖功能吧。
而且你能不能告訴我,一個TX投資(還不是控股)的小公司,會不會被TM和JD弄死?
TX自己都不敢做這種事情,南山必勝客真不是浪得虛名。
頭條和微信基于用戶頭像都打了得有300個回合了,菜鳥和順豐前兩年因為用戶數(shù)據(jù)打的多難看?
你覺得哪個小公司做了這種事情不會被制裁?
而且別以為大公司的安全團隊是擺著看的,人家的盾都是按禮拜升級的,有時候不用升級盾,業(yè)務(wù)換個命名規(guī)則你就涼了。
另外,更重要的是,不說平臺讓不讓你爬,用戶允許你爬了嗎?
你爬了這么多用戶的信息,你侵犯隱私了朋友,現(xiàn)在是法治社會。
我坦率的告訴你,大數(shù)據(jù)能做的騷事情多了去了,最大的問題就是不合法。
好了,現(xiàn)在又有人說了,這是公安用,公安抓嫖用。
這就是外行對公安模塊的不理解了。
十多年前什么開房記錄之類的還有人操作,現(xiàn)在口子基本都堵的死死的。
誰告訴你公安用數(shù)據(jù)不用在意用戶隱私的?公安現(xiàn)在受的監(jiān)管是非常嚴(yán)的。
你知道一個警察在公安系統(tǒng)里面想看任何數(shù)據(jù),都必須得有合理合法的緣由嗎?而且就這樣,還不一定能審批通過。
你知道每個地方的公安,對于數(shù)據(jù)調(diào)取都有嚴(yán)格的限額嗎?超過限額要么卡死,要么問詢。
你知道公安系統(tǒng)數(shù)據(jù)有多少人盯著嗎?你知道現(xiàn)在追責(zé)是無限制追責(zé)嗎?而且連你上級公安一起追責(zé)。
你知道公安數(shù)據(jù)任何涉外都有一個中轉(zhuǎn)服務(wù)器叫警務(wù)通嗎?警務(wù)通不僅僅是那個手持PDA,更是一套機制。
你知道公安發(fā)函想要調(diào)取數(shù)據(jù)的時候,大公司其實都不配合或者打太極拳嗎?
公安是真正的帶著鐐銬跳舞。
我做公安項目的時候,各種審批和限額弄得我頭禿。
你幻想中公安無所不能,但是除非你真的有案子或者有重大嫌疑并且被認(rèn)定了,并且上級審批了,才能用。
例如那個微博罵烈士的SB。
不然天天跑數(shù)據(jù)庫干嘛,很多地方的公安服務(wù)器也頂不住你這么跑。
重器只有在關(guān)鍵的時候才能用。
說真的,抓嫖這點破事兒,根本上升不到這么重要的地位。
要是抓嫖真的這么重要,都不用這么麻煩,直接開房數(shù)據(jù)做匹配就好了。
根本不用通話記錄和網(wǎng)購這些花里胡哨的東西,一個是不準(zhǔn),一個是這年頭誰還打電話整嫖,只要用開房數(shù)據(jù)就好了。
分分鐘就把買的多的和賣的多的都抓了。
不需要別的,開房數(shù)據(jù)做聚合就夠了。
要是覺得抓的不夠多,再讓電商配合把收貨地址和外賣做交叉匹配,還能抓一批樓鳳和樓少。
再極端點,支付寶和微信支付外加銀聯(lián)的數(shù)據(jù)做轉(zhuǎn)賬勾稽,還能再抓一批二奶和鴨子。
真的毫無限制,能做的事情多了去了。
但還是那句話。
要合法。
公民隱私在現(xiàn)在這個年代,誰敢亂碰這條線,誰也別抓嫖了,自己先進去吧。
別以為我在開玩笑,是真的會進去的。
數(shù)據(jù)這東西之所以限制多,不是因為沒用。
而是太有用了,有用到你不限制住,很快你人就沒用了。
聯(lián)系客服