現(xiàn)在大數(shù)據(jù)離生活越來越近,我們也越來越依賴大數(shù)據(jù)做決策。但也有一種聲音表示,大數(shù)據(jù)這東西看起來挺好,但有時也會誤導(dǎo)我們。這可不是說大數(shù)據(jù)本身有什么問題,它是沒問題的,有問題的是我們采集數(shù)據(jù)的方式。一旦這個過程出了問題,大數(shù)據(jù)反而會幫我們的倒忙。那采集數(shù)據(jù)的時候究竟可能會出現(xiàn)什么錯誤呢?
第一種錯誤叫選擇誤差,如果選擇的樣本不平均,就會出現(xiàn)這類錯誤。比如說,美國大選前都要做民意測試,但根據(jù)這種方式預(yù)測的結(jié)果并不準確,因為測試的方式有問題,調(diào)查民意時需要選民支付30美元才能參與,能來支付這筆錢的人也許是熱衷政治,也許是中產(chǎn)階級,總之不能代表全民的平均水平。這類錯誤還有很多其他案例,比如說在機場做消費問卷調(diào)查就可能有偏差,因為坐飛機的人相對來講比一般人更富裕些。所以說,一旦選擇的樣本出錯,那得出的結(jié)論肯定有問題。
第二種錯誤叫幸存者誤差,就是說,選擇的樣本里有過高或者過低數(shù)據(jù),那得出的結(jié)論就會有問題。打個簡單的比方,一個屋子里如果坐著姚明,那屋子里人的平均身高肯定就會偏高嘛。美國的一所大學(xué)曾經(jīng)有個報告,說他們學(xué)校地理系的畢業(yè)生平均年收入水平最高,這就很讓人費解了,因為地理系不是這個學(xué)校的熱門專業(yè),也不是社會上的高薪職業(yè),怎么會出現(xiàn)這樣的結(jié)果呢?原來啊,這是因為,NBA超級球星喬丹就是這家學(xué)校地理系畢業(yè)的,他一個人就拉高了整個學(xué)校的平均水平。所以,為了避免出現(xiàn)這種幸存者誤差,有時候做統(tǒng)計往往要去掉一個最高分,去掉一個最低分,再把平均下來的分數(shù)作為最終得分。
第三種錯誤叫回憶誤差。什么意思呢?就是說,你選擇的數(shù)據(jù)樣本,會受到大腦回憶的影響,從而產(chǎn)生誤差。這個誤差的形成完全是心理作用,我們都愿意將現(xiàn)狀理解為過去發(fā)生的必然結(jié)果,就是喜歡把現(xiàn)狀和過去用因果關(guān)系對應(yīng)上,尤其是對一些特別糟或者特別好的情況。比如說,哈佛大學(xué)曾經(jīng)做了一個心理實驗,找來一組患有乳腺癌的女性,還有一組健康的女性,讓她們共同回憶自己早年的飲食習(xí)慣。結(jié)果發(fā)現(xiàn),那些患病的女性回憶過去的時候,覺得自己攝入的脂肪含量比實際上要高很大一截,但健康女性那組就沒出現(xiàn)這種情況。這就是回憶誤差。如果你根據(jù)這個研究得出結(jié)論:患乳腺癌的婦女在年輕的時候攝入了太多的脂肪。那就太荒謬了。
第四種錯誤叫健康用戶誤差,這個說法源于一個邏輯比喻,就是每天按時吃維生素片的人身體更健康,但并不代表吃維生素這個舉動就可以完全決定一個人是否健康。比如說曾經(jīng)有個研究證明,幼年時期穿紫色睡衣的孩子,長大后成才的概率更高,98%的哈佛畢業(yè)生在小時候都穿過紫色睡衣,因為紫色更有助于幼兒大腦發(fā)育。這種說法聽起來很有道理,數(shù)據(jù)看起來也無法反駁,但事實上犯了健康用戶誤差這個錯誤,最終能決定一個人成功的因素多種多樣,年幼穿紫色睡衣可能只是其中很小的一個。
如果你逃過了以上四個錯誤,還有第五個最不容易察覺的在等著你,叫發(fā)表錯誤。以上那些都是我們在選擇數(shù)據(jù)樣本或者數(shù)據(jù)分析時容易犯的毛病,而最后一個卻跟發(fā)表研究成果的“潛規(guī)則”有點關(guān)系。從認知角度講,人們更喜歡正面的結(jié)果,所以傳播領(lǐng)域也傾向于發(fā)表這樣的東西。比如說醫(yī)學(xué)界研究玩游戲和患結(jié)腸癌之間的關(guān)系,抽樣調(diào)查了100個數(shù)據(jù),前99個數(shù)據(jù)都是沒什么關(guān)系,但有一個數(shù)據(jù)顯示可能有點聯(lián)系,從傳播的角度來看,99個沒有關(guān)系的數(shù)據(jù)沒什么可吸引眼球的,但如果說玩游戲可以在一定程度上預(yù)防結(jié)腸癌,相信會有更多人愿意看到。所以說,發(fā)表錯誤的問題不在于數(shù)據(jù)本身,而是你向公眾傳達的時候會以偏概全,這也是為什么現(xiàn)在打開網(wǎng)頁滿屏幕都是標題黨的原因了。
大數(shù)據(jù)處理信息服務(wù)商金盛網(wǎng)聚認為,大數(shù)據(jù)樣本的選取要求我們使用正確的采集和對待數(shù)據(jù)的方式。只有做到正確抓取和利用數(shù)據(jù),我們才能通過數(shù)據(jù)樣本提供的各種線索,接觸到事物的本質(zhì)和真相,進而為我所用。大數(shù)據(jù)的基礎(chǔ)在于,以事實為依據(jù),以客觀為追求,盡量避免“取悅”式的結(jié)論發(fā)表。因為“片面強調(diào)”有悖于大數(shù)據(jù)發(fā)展的初衷,沒有普世價值的結(jié)論無法為受眾提供核心價值。
金盛網(wǎng)聚(北京)科技有限公司成立于2012年,是一家數(shù)據(jù)處理與信息咨詢服務(wù)商,公司擁有自主核心技術(shù)與服務(wù)咨詢的團隊, 公司“WJFbaric-互聯(lián)網(wǎng)大數(shù)據(jù)信息監(jiān)測SaaS平臺”目前注冊使用客戶將近上萬個,為企業(yè)、政府、學(xué)術(shù)機構(gòu)、成功人士等提供在線信息收集、展示、閱讀、存儲的免費平臺,公司遠景致力于通過數(shù)據(jù)+計算形成可視化的人工智能決策平臺。