大數(shù)據(jù)不靠譜?這聽(tīng)起來(lái)有些不可思議,在今天,大數(shù)據(jù)已經(jīng)表現(xiàn)出了強(qiáng)大的生產(chǎn)力。但哈佛大學(xué)數(shù)學(xué)系博士、華爾街前投資顧問(wèn)凱西·奧尼爾(Cathy O’neal),一名依靠大數(shù)據(jù)縱橫投資界的行家,就寫(xiě)了一本新書(shū)給大數(shù)據(jù)潑冷水,書(shū)的名字叫Weapons of Math Destruction,可以翻譯成《“殺傷性武器”大數(shù)據(jù)》,副標(biāo)題是:大數(shù)據(jù)是如何制造社會(huì)不平等和威脅民主制度的。本文通過(guò)其中的兩個(gè)例子說(shuō)明,僅依靠大數(shù)據(jù)決策是如何引發(fā)大問(wèn)題的。
我們先來(lái)看一個(gè)美國(guó)司法系統(tǒng)的例子。在美國(guó),大數(shù)據(jù)不僅在生活中運(yùn)用得很普遍,假設(shè)你不小心犯罪了,你的刑期都可能是大數(shù)據(jù)來(lái)協(xié)助判定的。美國(guó)司法機(jī)構(gòu)早就開(kāi)始使用判刑輔助軟件了,該軟件依靠整個(gè)美國(guó)的犯罪檔案數(shù)據(jù)庫(kù),分析犯罪嫌疑人,推測(cè)他再次犯罪的可能性。如果軟件判斷你再犯的可能性高,那么司法機(jī)構(gòu)就會(huì)延長(zhǎng)你的刑期。
用數(shù)學(xué)模型協(xié)助法官判刑,這聽(tīng)起來(lái)很科學(xué),但大數(shù)據(jù)專(zhuān)家?jiàn)W尼爾卻認(rèn)為,這會(huì)帶來(lái)很多社會(huì)問(wèn)題。像是軟件推斷一個(gè)犯人是否會(huì)再犯時(shí),依據(jù)的是犯人的住址和犯人親戚的犯罪記錄,而這兩點(diǎn)事實(shí)上都對(duì)黑人不利。美國(guó)有相當(dāng)一部分黑人住在犯罪率較高的街區(qū),而之所以住在這種地方是因?yàn)榉績(jī)r(jià)相對(duì)便宜,而且住在這種地方的,除了無(wú)可奈何的黑人,往往還有他們的黑人親戚。
再來(lái)看“判刑輔助軟件”的推測(cè)依據(jù)——來(lái)自高犯罪率街區(qū)的犯人容易再犯,家族有案底的犯人也容易再犯——所以被軟件認(rèn)為“極有可能再犯”的黑人幾乎就沒(méi)辦法逃脫刑期延長(zhǎng)的命運(yùn)。但美國(guó)因此更安全了嗎?沒(méi)有。因?yàn)樾唐谠介L(zhǎng),犯人刑滿釋放后再犯的可能性就越高。如此一來(lái),黑人便陷入循環(huán)陷阱中:他們生于貧窮,因此被軟件認(rèn)為可能再次犯罪,刑期被延長(zhǎng),又因?yàn)樾唐谘娱L(zhǎng),導(dǎo)致出獄后更容易再犯……
說(shuō)完了大數(shù)據(jù)對(duì)司法領(lǐng)域的影響,我們?cè)賮?lái)看看大數(shù)據(jù)對(duì)福利政策的錯(cuò)誤引導(dǎo)。上世紀(jì)八十年代,里根政府發(fā)布了一份報(bào)告,標(biāo)題叫《危機(jī)中的國(guó)家》。報(bào)告聲稱,美國(guó)正處于危機(jī)的邊緣,因?yàn)槊绹?guó)學(xué)生的SAT平均成績(jī),也就相當(dāng)于中國(guó)高考的平均成績(jī),且一直在下降。報(bào)告認(rèn)為,整個(gè)國(guó)家的SAT平均成績(jī)逐年下滑,意味著國(guó)家的基礎(chǔ)教育出了問(wèn)題,倡導(dǎo)新自由主義的里根政府一向反對(duì)高福利,這份報(bào)告似乎就證明了,美國(guó)的公共教育制度是國(guó)家福利的蛀蟲(chóng),這給政府削減公共教育經(jīng)費(fèi)提供了借口。但在奧尼爾看來(lái),公立教育系統(tǒng)里的學(xué)生卻被害慘了。美國(guó)桑迪亞國(guó)家實(shí)驗(yàn)室指出,當(dāng)時(shí)SAT成績(jī)下降,主要是因?yàn)閰⒓覵AT的學(xué)生人數(shù)飛漲??紤]到SAT是進(jìn)入大學(xué)的敲門(mén)磚,學(xué)生數(shù)量的飛漲其實(shí)恰恰反映了美國(guó)中學(xué)生對(duì)上大學(xué)這件事越來(lái)越自信,以至于過(guò)去可能不會(huì)參加考試的人現(xiàn)在也想試一下,正是他們的加入拉低了平均分。既然公立教育的目的是讓更多人得到受教育的機(jī)會(huì),那么我們就可以認(rèn)為,當(dāng)時(shí)美國(guó)的公立教育系統(tǒng)是很成功的。然而正是因?yàn)槭艿綀?bào)告的批評(píng),公立教育經(jīng)費(fèi)被大量縮減,以至于目前的教學(xué)質(zhì)量反而不如上世紀(jì)八十年代。
聽(tīng)完了兩則案例你可能會(huì)問(wèn),為什么會(huì)這樣,大數(shù)據(jù)怎么了?是算法出問(wèn)題了嗎?奧尼爾認(rèn)為,不是算法出了問(wèn)題,而是運(yùn)用算法的數(shù)學(xué)模型出了問(wèn)題。不同的模型隱含不同的理念,奧尼爾將模型稱之為:“內(nèi)含著觀點(diǎn)的數(shù)學(xué)方法”。數(shù)學(xué)和數(shù)學(xué)模型的關(guān)系,就像槍械和軍火,數(shù)學(xué)沒(méi)有價(jià)值觀,是中立的,但數(shù)學(xué)模型難免隱含偏向。這樣的偏向如果體現(xiàn)在國(guó)家政策中,那就可能會(huì)造成難以估量的危害。
當(dāng)然,奧尼爾不是想說(shuō)明,大數(shù)據(jù)有害,而是說(shuō)我們不應(yīng)該盲信酷炫的算法技術(shù)。尤其是在涉及政策決策時(shí),依據(jù)大數(shù)據(jù),也要慎重。
大數(shù)據(jù)處理信息服務(wù)商金盛網(wǎng)聚WJFabric認(rèn)為,數(shù)學(xué)模型是大數(shù)據(jù)技術(shù)的核心,在掌握大量數(shù)據(jù)樣本后,如何利用數(shù)據(jù)推導(dǎo)結(jié)論就成為數(shù)學(xué)模型需要解決的問(wèn)題,其中對(duì)于數(shù)據(jù)樣本的甄選便是首要問(wèn)題,而針對(duì)目標(biāo)進(jìn)行有效數(shù)據(jù)的篩選需要多維度的考量。例如上文中的第二個(gè)例子,假如不考慮參加考試人數(shù)激增的原因以及新增考生個(gè)人的基本情況,單純以考試結(jié)果來(lái)衡量教育質(zhì)量,很容易“劍走偏鋒”。數(shù)據(jù)的有效性暗含“相對(duì)標(biāo)準(zhǔn)化”之意,任何極端與偏頗的數(shù)據(jù)均有可能影響研究的進(jìn)程方向。有價(jià)值的結(jié)論植根于有效能的數(shù)據(jù),了解數(shù)據(jù)來(lái)源,理解數(shù)據(jù)背后的成因,方能獲取真實(shí)有效的目標(biāo)數(shù)據(jù)。
金盛網(wǎng)聚(北京)科技有限公司成立于2012年,是一家數(shù)據(jù)處理與信息咨詢服務(wù)商,公司擁有自主核心技術(shù)與服務(wù)咨詢的團(tuán)隊(duì), 公司“WJFbaric-互聯(lián)網(wǎng)大數(shù)據(jù)信息監(jiān)測(cè)SaaS平臺(tái)”目前注冊(cè)使用客戶將近上萬(wàn)個(gè),為企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、成功人士等提供在線信息收集、展示、閱讀、存儲(chǔ)的免費(fèi)平臺(tái),公司遠(yuǎn)景致力于通過(guò)數(shù)據(jù)+計(jì)算形成可視化的人工智能決策平臺(tái)。