爬蟲已經(jīng)成為數(shù)據(jù)的一個重要來源,作為社會主義接班人的數(shù)據(jù)分析師們,怎么能不關(guān)注數(shù)說君推薦的這篇爬蟲好文章?
1、微貸行業(yè)中判斷一個人是否有能力還貸款有一套傳統(tǒng)的方法。那就是查看這個人的購物習(xí)慣,客戶提供的賬單流水信息等。這種方法相信一個人若是經(jīng)常在網(wǎng)上購物、有詳細的銀行賬單并且有正常的通話記錄,那么這個人是一個正常的且有一定的經(jīng)濟能力的人。也就是說,這樣的人是有能力還貸款的。相對于發(fā)達國家健全的征信系統(tǒng),在中國這種評價方式在一定時間內(nèi),是可行有效的。
2、另一方面,我們相信絕大多數(shù)的騙子并不是來普惠貸完款后才變成騙子的。騙子來普惠貸款之前就已經(jīng)是騙子。那么在騙子的行騙生涯中,或多或少的會在互聯(lián)網(wǎng)上留下痕跡。比如,有許多專門曝光騙子老賴的網(wǎng)站,也有許多騙子在一些社交網(wǎng)站上有人針對曝光。針對這些曝光的數(shù)據(jù),大數(shù)據(jù)中心使用聚焦爬蟲進行爬取,然后將爬取到的數(shù)據(jù)保存到普惠的黑名單中。
有上面兩點可以看出來,不管是爬取交易賬單等信息,還是抓取曝光的騙子等數(shù)據(jù),都離不開聚焦爬蟲的應(yīng)用。
普惠大數(shù)據(jù)中心現(xiàn)有百多人的團隊在開發(fā)和維護風(fēng)控系統(tǒng),從成立至今,普惠大數(shù)據(jù)中心的數(shù)據(jù)來源由單一的幾個網(wǎng)站增長到了現(xiàn)在上百個網(wǎng)站,信用評價指標達到上千個維度。在不斷完善,發(fā)現(xiàn)和創(chuàng)新中,大數(shù)據(jù)中心傳統(tǒng)方式的風(fēng)控水平已經(jīng)到達行業(yè)領(lǐng)先水平。
然而,隨著互聯(lián)網(wǎng)的不斷發(fā)展變化,人們對微貸行業(yè)的逐漸了解。一些置身大數(shù)據(jù)風(fēng)控的人逐漸發(fā)現(xiàn),通過傳統(tǒng)方式做風(fēng)險控制越來越困難。通過傳統(tǒng)方式爬取的數(shù)據(jù),基本都是屬于一個人的點狀數(shù)據(jù),并且是片面的點狀數(shù)據(jù)。何為點狀數(shù)據(jù)?若是把所有人看成一個整體數(shù)據(jù),那么最形象的結(jié)構(gòu)就是一張人物關(guān)系數(shù)據(jù)網(wǎng)。每個人都是網(wǎng)中的一個節(jié)點,即每個人的數(shù)據(jù)就是一個點狀的數(shù)據(jù)。由于個人隱私的原因,我們無法也不可能得到一個人的全方位數(shù)據(jù),只能截取其中的一個或幾個片面(交易紀錄,信用卡信息等)。通過這些數(shù)據(jù)來判斷一個人的信用等級有兩個弊端,一是數(shù)據(jù)的不全面會導(dǎo)致判斷的失準,這個弊端無法避免,只能盡可能多的得到數(shù)據(jù),并制定更優(yōu)化的算法模型;二是點狀的數(shù)據(jù)隨著互聯(lián)網(wǎng)的發(fā)展有了更多造假的可能性。比如說電商的交易記錄,若是有心造假,很容易就可以制造一批完全符合高信用等級的交易記錄。因此,點狀數(shù)據(jù)在未來的風(fēng)控系統(tǒng)中所占的比重會逐漸減少。
相對應(yīng)于點狀數(shù)據(jù)的不足,爬蟲界有人提出了建立網(wǎng)狀數(shù)據(jù)的可能性?;鞠敕ㄊ?,通過聚焦爬蟲爬取各大社交網(wǎng)站,根據(jù)這些數(shù)據(jù)建立人物關(guān)系網(wǎng)絡(luò),在關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)中,給每個人添加補充各個維度的數(shù)據(jù)。其理想的數(shù)據(jù)集合是每個來普惠貸款的人都存在于普惠大數(shù)據(jù)中心的人物關(guān)系網(wǎng)絡(luò)中。并且我們知道其關(guān)系密切的人的標簽(畫像)。例如張三來普惠貸款,大數(shù)據(jù)中心不但要知道張三的信用評價,還要知道與張三關(guān)系緊密的若干人的信用評價。這有什么用呢?假設(shè)張三貸款的場景如下:張三通過大數(shù)據(jù)中心的傳統(tǒng)信用評價方式,得到了信用良好的評價。但是,我們通過關(guān)系網(wǎng)絡(luò)發(fā)現(xiàn)與張三關(guān)系密切的人中,有多個人在信用評價中得到了信用低下的評價,甚至在普惠的黑名單中。這個時候我們就要懷疑張三的數(shù)據(jù)是否是精心假造的。根據(jù)物以類聚,人以群分的道理,我們相信這種懷疑是很有必要的。
由上張圖可以發(fā)現(xiàn),張三信用良好的評價并不可靠。恰恰相反,貸款給張三的風(fēng)險反而會很大。傳統(tǒng)的風(fēng)控方式顯然并不能規(guī)避這種風(fēng)險,但是這種風(fēng)險會隨著騙貸人越來越了解貸款公司的信用評價方式而越來越多。試想,在未來的時間里,由于騙貸人對公司的風(fēng)控有了大致方向的了解,從而在某一方面或很多方面?zhèn)卧炝肆己玫挠涗?。大?shù)據(jù)中心爬取了這些數(shù)據(jù)從而錯誤的判斷了信用等級,那貸款公司所承受的風(fēng)險將會急劇擴大。
針對未來這種風(fēng)險,人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)給出了解決的可能性。若是沒有完善且可靠的官方征信系統(tǒng)的出現(xiàn),人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)將是未來無抵押貸款公司風(fēng)險控制的主流方式。然而建立人物關(guān)系數(shù)據(jù)網(wǎng)絡(luò)并不是一朝一夕的事情。
每一個社交網(wǎng)站都有海量的數(shù)據(jù),和海量數(shù)據(jù)成正比的是社交網(wǎng)站的防爬蟲策略。這就對爬蟲提出了更高更嚴格的要求,也更細化了不同爬蟲之間的差異。然而一成不變不是互聯(lián)網(wǎng)的主調(diào),依存互聯(lián)網(wǎng)生存的公司,更要學(xué)會擁抱變化,甚至預(yù)測變化,方能在未來乘風(fēng)破浪,越行越遠。