大數(shù)據(jù)是這幾年的一項熱門技術(shù)。它和人工智能、云計算一起,已經(jīng)成為大科技公司的技術(shù)標(biāo)配。但是該如何理解大數(shù)據(jù)技術(shù)?這項技術(shù)對我們有什么影響?這些基本的問題,不少人卻并不清楚。谷歌的數(shù)據(jù)科學(xué)家賽斯(賽斯•史蒂芬斯-大衛(wèi)德維茨Seth Stephens-Davidowitz)寫了一本書《數(shù)據(jù)、謊言與真相》(Everybody Lies:Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are ),里面對這些問題給出了他的回答。
大數(shù)據(jù)這個名字本身會給人一種誤解,認(rèn)為大數(shù)據(jù)的關(guān)鍵在于數(shù)據(jù)量很大。不過,賽斯說,數(shù)據(jù)集的大小經(jīng)常被高估。其實所需要的數(shù)據(jù)集的大小,跟數(shù)據(jù)本身的效果、數(shù)據(jù)的真實程度等都有關(guān)系。
舉個例子,一個火熱的爐子,你只需要碰到一次就明白,熱爐子很危險,會燙傷你。但是,你可能需要喝幾千杯咖啡才能確定,咖啡是否會讓你頭疼。原因就在于,熱爐子本身的效果強度很高,因此,只需要一項數(shù)據(jù),就能顯現(xiàn)出結(jié)果。
賽斯在這本書里引用了大量人們在谷歌中搜索的數(shù)據(jù)。谷歌的數(shù)據(jù)之所以這么有價值,其實原因也不完全是因為谷歌能拿到的龐大的數(shù)據(jù)量,還因為,人們在自己的電腦上輸入關(guān)鍵詞進行搜索時,都很誠實。他們不需要考慮社交壓力、周圍人的眼光等等。
用賽斯的話說,“你未必總是需要大數(shù)據(jù)才能得出重要見解,你需要正確的數(shù)據(jù)。”大數(shù)據(jù)革命跟收集更多的數(shù)據(jù)無關(guān),而是跟收集正確的數(shù)據(jù)有關(guān)。還是以谷歌為例,谷歌不是僅僅憑借著能夠比其他搜索引擎搜索到更多的內(nèi)容,就成為世界上最大的搜索引擎公司,它憑借的是,可以搜索到更好的數(shù)據(jù)。這跟谷歌的算法有關(guān)。谷歌的算法,按照一個網(wǎng)頁被鏈接的數(shù)量來對搜索結(jié)果排序。
賽斯介紹了大數(shù)據(jù)的四種力量。這四種力量也并不都同數(shù)據(jù)集本身的大小相關(guān)。
大數(shù)據(jù)的第一種力量是,提供了新類型的數(shù)據(jù)。比如,包括弗洛伊德在內(nèi)的思想家,都會從性的角度,來解釋人類的很多行為。但是,這些思想家更多還是在觀念層面進行思考。而現(xiàn)在,大數(shù)據(jù)時代的研究者,有了一項讓那些過往思想家羨慕不已的數(shù)據(jù):人們在互聯(lián)網(wǎng)上搜索和觀看色情作品的數(shù)據(jù)。這些獨特的數(shù)據(jù)來源能夠讓研究者進入以前只能靠推理和猜測的領(lǐng)域。
大數(shù)據(jù)的力量在于,重新想象什么東西有資格成為數(shù)據(jù),提供之前從來沒有收集過的信息讓人們可以研究。
作者舉了一個例子。他曾經(jīng)把2004年至2011年的失業(yè)率輸入到谷歌的數(shù)據(jù)挖掘工具Google Correlate中,結(jié)果發(fā)現(xiàn),跟失業(yè)最相關(guān)的搜索,一個是色情網(wǎng)站,另一個是蜘蛛紙牌。作者猜測,原因也很簡單,因為失業(yè)者會有很多空閑時間。所以他就發(fā)現(xiàn),“利用一些跟消遣相關(guān)的搜尋組合,就能追蹤失業(yè)率,而且是預(yù)測失業(yè)率最佳模式的一部分。”
大數(shù)據(jù)的第二種力量是,提供了誠實的數(shù)據(jù)。在數(shù)字時代出現(xiàn)之前,可想而知,由于考慮到社會壓力等因素,人往往會隱藏起來那些會讓自己難堪的想法。即使面對詢問也不會坦誠相告。但是,在數(shù)字時代,雖然人們?nèi)匀粫诂F(xiàn)實生活中隱藏起一些真實想法,但是在互聯(lián)網(wǎng)上,尤其是可以匿名的網(wǎng)站上,人們往往會袒露心聲。
“大數(shù)據(jù)使我們終于可以看清人們真正想要什么和真正做了什么,而不是人們說自己要什么和做了什么。”
知名投資人彼得•蒂爾說過,偉大的企業(yè)建立在秘密之上??赡苁顷P(guān)于自然的秘密,也可能是關(guān)于人的秘密。人的秘密指的是跟自己有關(guān)但自己卻不知道,或者不想讓別人知道的事。
舉個例子,流媒體公司奈飛,曾經(jīng)讓用戶設(shè)置一個自己以后想看的電影播放列表。奈飛發(fā)現(xiàn),用戶確實會把電影添加到這個列表中,但是,盡管奈飛會提醒用戶看這些電影,用戶卻很少真的去看。因為,人們說自己想要的,跟自己實際想要的不一致。
后來,奈飛不再要求用戶告訴自己他們想看什么電影,而是根據(jù)用戶點擊和觀看的數(shù)據(jù)建立一個模型,用模型來推測用戶想看什么電影。結(jié)果,用戶果然越來越頻繁地造訪奈飛,在上面看了越來越多的電影。
所以,奈飛前數(shù)據(jù)科學(xué)家澤維爾•艾瑪特里安說:算法比你更了解你自己。
大數(shù)據(jù)的第三種力量是,讓我們可以把焦點放在人口中的一個很小的子集進行研究。
當(dāng)然,這要求對小的子集,也有大數(shù)據(jù)量。打個比方,為了將照片的一小部分放大后還能看清楚,照片需要有很高的像素。同樣,為了能夠清楚放大檢視數(shù)據(jù)的小子集,每一個小子集中都需要大量的數(shù)據(jù)。比如,某一個球隊有多受1978年出生的男性的歡迎。只對幾千人進行的小調(diào)查,樣本根本不夠大,1978年出生的男性人數(shù)肯定不夠多。
這樣做的意義在什么地方呢?作者通過數(shù)據(jù)研究發(fā)現(xiàn),是否成為一個球隊的粉絲,跟這個球隊在一個人特定年齡段的表現(xiàn)有關(guān)系。如果在一個人對運動最癡迷、最容易喜歡上某項運動的時間段,這個球隊的表現(xiàn)越好,那它獲得這個年齡段的球迷就越多。
而且,美國人政治觀點的形成也類似。很多美國人會在14歲到24歲這個關(guān)鍵時期,形成個人的政治偏好。其中,形成政治觀點最重要的年紀(jì)是18歲。受歡迎的共和黨總統(tǒng)或不受歡迎的民主黨總統(tǒng),將影響很多年輕人成為共和黨人。反之亦然。“大數(shù)據(jù)允許我們有意義地放大檢視數(shù)據(jù)集的細部,獲取新的洞察。”
第四種力量是,允許研究者進行因果關(guān)系實驗。大數(shù)據(jù)可以允許研究者進行快速而且可控的因果關(guān)系實驗,而不僅僅是相關(guān)性。
這種測試在很多互聯(lián)網(wǎng)公司被稱作是A/B測試。臉書(Facebook)每天能進行上千次A/B測試。所謂的A/B測試指的是,在同一個時間維度,分別讓相似的兩組訪客隨機訪問這些版本,收集數(shù)據(jù),來評估出用戶更喜歡的版本。比如,兩個標(biāo)題,哪一個點擊量更高;放哪種類型的照片,更能讓用戶喜歡等等。
有一家網(wǎng)站的CEO說:“你不能假設(shè)任何事,必須針對每件事都進行測試才行”,“如果我們了解人性,根據(jù)我們的生活經(jīng)驗就能判斷答案是什么,那么測試就不會有價值。但事實上,我們不了解人性,所以測試才這么有價值。”
這種方法,互聯(lián)網(wǎng)公司已經(jīng)大量使用,而現(xiàn)在和將來,社會科學(xué)家也可以使用,從而把以往模糊的研究變得更科學(xué)。
大數(shù)據(jù)處理信息服務(wù)商金盛網(wǎng)聚WJFabric認(rèn)為,大數(shù)據(jù)技術(shù)的發(fā)展為人類研究事物的方式提供了重要基礎(chǔ),使思考不再局限于單純的猜測和推斷。隨著技術(shù)的深入,數(shù)據(jù)的真實性、精準(zhǔn)性將愈加增強,因而數(shù)據(jù)在使用方面也將更加多元。針對不同目標(biāo)而進行的數(shù)據(jù)樣本甄選與研究將更有利于結(jié)論的獲得。大數(shù)據(jù)行業(yè)的通識和通用性將進一步促進傳統(tǒng)行業(yè)向精細化方向發(fā)展。
金盛網(wǎng)聚(北京)科技有限公司成立于2012年,是一家數(shù)據(jù)處理與信息咨詢服務(wù)商,公司擁有自主核心技術(shù)與服務(wù)咨詢的團隊, 公司“WJFbaric-互聯(lián)網(wǎng)大數(shù)據(jù)信息監(jiān)測SaaS平臺”目前注冊使用客戶將近上萬個,為企業(yè)、政府、學(xué)術(shù)機構(gòu)、成功人士等提供在線信息收集、展示、閱讀、存儲的免費平臺,公司遠景致力于通過數(shù)據(jù)+計算形成可視化的人工智能決策平臺。