前兩年,有本書(shū)叫《大數(shù)據(jù)時(shí)代》風(fēng)靡世界,作者在書(shū)里提出了大數(shù)據(jù)的三大思維,一是要全集不要采樣,二是要混雜不要精確,三是要相關(guān)性不要因果性。前英特爾中國(guó)研究院院長(zhǎng)吳甘沙在混沌研習(xí)社進(jìn)行了一次演講,對(duì)上面三大思維進(jìn)行了反思,提出了以下三個(gè)觀點(diǎn)。
第一,不是說(shuō)數(shù)據(jù)越多預(yù)測(cè)就越準(zhǔn)確。
傳統(tǒng)采樣是這么做的,一萬(wàn)個(gè)樣本,我選一百個(gè)來(lái)處理,這樣做處理數(shù)據(jù)的速度就變快了,但有些重要的數(shù)據(jù)可能我們采不到。所以《大數(shù)據(jù)時(shí)代》這本書(shū)里才說(shuō),要全集不要采樣。但今天每個(gè)公司都有自己的數(shù)據(jù),所以想要拿到所有的數(shù)據(jù)基本上很難。另外,如果真的采集到了所有的數(shù)據(jù),投入是非常高的,但是產(chǎn)出卻沒(méi)期望的那么大。大數(shù)據(jù)就像一個(gè)貧礦,價(jià)值密度很低,如果沒(méi)把握,最好不要規(guī)劃采集全部數(shù)據(jù)。
第二,吳甘沙說(shuō),如果數(shù)據(jù)沒(méi)有辨識(shí)度就沒(méi)有意義。
《大數(shù)據(jù)時(shí)代》說(shuō),要混雜的數(shù)據(jù),不要精確的數(shù)據(jù),因?yàn)楝F(xiàn)實(shí)中的數(shù)據(jù)都是混在一起的,所以沒(méi)辦法避免混雜。確實(shí),混雜性是客觀存在的,但不一定就是我們需要的。因?yàn)閿?shù)據(jù)的價(jià)值就在于它的真實(shí)性、辨識(shí)度和準(zhǔn)確性。所以,數(shù)據(jù)的質(zhì)量依然非常重要。如果沒(méi)有辨識(shí)度,那這個(gè)數(shù)據(jù)就沒(méi)有意義了。舉個(gè)例子,我們上網(wǎng)的時(shí)候,瀏覽過(guò)什么網(wǎng)頁(yè),都會(huì)被記錄下來(lái)。但過(guò)了兩個(gè)月,我的網(wǎng)頁(yè)改版了,這些信息就沒(méi)有用了,這些缺乏辨識(shí)度的數(shù)據(jù)就應(yīng)該扔掉了。
再舉個(gè)例子,谷歌曾經(jīng)用搜索來(lái)預(yù)測(cè)流感,因?yàn)楣雀璋l(fā)現(xiàn),如果一個(gè)地方很多人都在搜索“流感”這個(gè)詞的時(shí)候,這個(gè)地方很可能正在發(fā)生流感。所以,根據(jù)流感的被搜索次數(shù),谷歌就能知道哪里發(fā)生流感了。但后來(lái)谷歌的很多預(yù)測(cè)都是不準(zhǔn)確的,有些沒(méi)發(fā)生流感的地方也被預(yù)測(cè)得了流感。這是因?yàn)?,那些搜索流感的人,不一定就得了流感。就算是去醫(yī)院看流感的人,大部分也都沒(méi)得流感,谷歌的預(yù)測(cè)就不準(zhǔn)了。所以,谷歌這個(gè)預(yù)測(cè)失敗的原因之一就是混雜性很高,因?yàn)橛辛?ldquo;發(fā)燒、打噴嚏”這樣的數(shù)據(jù),不代表一個(gè)人一定得了流感,這么預(yù)測(cè)就是不準(zhǔn)的。
第三,吳甘沙認(rèn)為,不能讓這種所謂的數(shù)據(jù)相關(guān)性主宰我們的生活。
今天很多人都覺(jué)得,我們知道是什么就行了,不用知道為什么。比如,啤酒和尿布放在一起賣(mài),賣(mài)得很好,但為什么賣(mài)得好,你用不著知道,直接放一起賣(mài)就行了。還有人說(shuō),男人一看球,女人就網(wǎng)購(gòu),這也是一種相關(guān)性,你也不用知道為什么,營(yíng)銷(xiāo)上直接利用這一點(diǎn)就是了。其實(shí),如果只是根據(jù)表面的相關(guān)性就推出一個(gè)結(jié)論,這樣做是有問(wèn)題的。
舉個(gè)例子,美國(guó)印地安納州,是美國(guó)肺癌死亡率最高的州。你馬上就會(huì)覺(jué)得,這個(gè)地方空氣肯定不好。其實(shí),這里空氣特別好,就是因?yàn)榭諝馓昧?,所以很多肺癌病人都搬到那里了,而且都死在那里,于是就有了這樣的數(shù)據(jù)。如果你不明就里,拿著空氣凈化器跑來(lái)推銷(xiāo),很明顯會(huì)失敗。所以,你必須了解數(shù)據(jù)背后的因果性。
大數(shù)據(jù)處理信息服務(wù)商金盛網(wǎng)聚認(rèn)為,大數(shù)據(jù)的開(kāi)發(fā)和利用是一項(xiàng)系統(tǒng)工程,其中涉及多個(gè)層面及維度的研究。大數(shù)據(jù)本身體現(xiàn)出的情況固然重要,但其背后的成因以及表現(xiàn)出的真實(shí)性都是需要經(jīng)過(guò)分析研究的。以輿情為例,針對(duì)某一話題,充斥于網(wǎng)絡(luò)的各種聲音自然都是大數(shù)據(jù)的一部分,面對(duì)魚(yú)龍混雜的數(shù)據(jù),首先要判別出輿論中感性判斷與理性分析的成分,其次就理性內(nèi)容進(jìn)行篩查,看其觀點(diǎn)是否立得住,是否是出于利益考量而被裹挾。經(jīng)過(guò)多重分析方可相對(duì)客觀地了解話題的輿論傾向性。
金盛網(wǎng)聚(北京)科技有限公司成立于2012年,是一家數(shù)據(jù)處理與信息咨詢服務(wù)商,公司擁有自主核心技術(shù)與服務(wù)咨詢的團(tuán)隊(duì), 公司“WJFbaric-互聯(lián)網(wǎng)大數(shù)據(jù)信息監(jiān)測(cè)SaaS平臺(tái)”目前注冊(cè)使用客戶將近上萬(wàn)個(gè),為企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、成功人士等提供在線信息收集、展示、閱讀、存儲(chǔ)的免費(fèi)平臺(tái),公司遠(yuǎn)景致力于通過(guò)數(shù)據(jù)+計(jì)算形成可視化的人工智能決策平臺(tái)。