現(xiàn)在大家都講大數(shù)據(jù),覺得大數(shù)據(jù)神乎其神。但有時(shí)候如果你用錯(cuò)了數(shù)據(jù),很有可能就被忽悠了。最近,科普作家蔣迅在科學(xué)網(wǎng)上寫了篇文章說,我們就常被數(shù)據(jù)里的極端值給忽悠了。
講個(gè)統(tǒng)計(jì)學(xué)的小笑話。話說有一年,美國北卡州立大學(xué)地理系做了一次統(tǒng)計(jì),看看畢業(yè)生的收入情況,結(jié)果發(fā)現(xiàn),地理系畢業(yè)生的平均起步薪水,不光比其它專業(yè)高,還比其它學(xué)校的地理系都高。于是得出一結(jié)論:要想起薪高,就得上北卡大學(xué)的地理系。奇怪吧,怎么學(xué)地理的能掙著那么多錢呢?說來也簡單,那一年北卡州立大學(xué)地理系畢業(yè)了一個(gè)學(xué)生,叫邁克爾·喬丹,就是當(dāng)年NBA那位籃球之神,因?yàn)樗粋€(gè)人,拉高了整個(gè)地理系的平均薪水。喬丹的工資在這兒就叫做極端數(shù)據(jù),因?yàn)榻y(tǒng)計(jì)的時(shí)候把這個(gè)極端數(shù)據(jù)加了進(jìn)去,所以造成了這種錯(cuò)覺。
這樣的例子還有。很多人說:演員的收入那么高,而我們的科學(xué)家收入遠(yuǎn)不如這些演員,真是世風(fēng)日下啊。但事實(shí)真的是這樣嗎?起碼美國就不是,美國勞工部做過統(tǒng)計(jì),如果排除極端情況,科學(xué)家的收入要遠(yuǎn)遠(yuǎn)高于演員,因?yàn)槌四切﹤€(gè)別收入極端的知名演員,絕大多數(shù)演員的收入狀況其實(shí)并不理想。這也就是為什么,在評(píng)選的時(shí)候要去掉最高值和最低值,就是怕極端數(shù)據(jù)影響了整體判斷。
大數(shù)據(jù)處理信息服務(wù)商金盛網(wǎng)聚WJFabric認(rèn)為,大數(shù)據(jù)相較于普通數(shù)據(jù),重要的區(qū)別不僅在于數(shù)據(jù)樣本的量級(jí),同樣在于其多維度與普遍性。如果只是一味地進(jìn)行無序收集而缺乏條理性與層次感,不對(duì)數(shù)據(jù)進(jìn)行價(jià)值判斷,那么這樣的數(shù)據(jù)研究實(shí)質(zhì)上是脫離客觀性且很難以此做出正確的判斷。事實(shí)上,大數(shù)據(jù)開發(fā)是一項(xiàng)系統(tǒng)工程,前期對(duì)數(shù)據(jù)樣本的選擇和收錄直接影響著后續(xù)開發(fā)工作的進(jìn)展。選取目標(biāo)領(lǐng)域內(nèi)客觀、公正、具有普適性的數(shù)據(jù)成為大數(shù)據(jù)研究的重要基石。
金盛網(wǎng)聚(北京)科技有限公司成立于2012年,是一家數(shù)據(jù)處理與信息咨詢服務(wù)商,公司擁有自主核心技術(shù)與服務(wù)咨詢的團(tuán)隊(duì), 公司“WJFbaric-互聯(lián)網(wǎng)大數(shù)據(jù)信息監(jiān)測SaaS平臺(tái)”目前注冊(cè)使用客戶將近上萬個(gè),為企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、成功人士等提供在線信息收集、展示、閱讀、存儲(chǔ)的免費(fèi)平臺(tái),公司遠(yuǎn)景致力于通過數(shù)據(jù)+計(jì)算形成可視化的人工智能決策平臺(tái)。