我們讀過的那些小說,在感性的文字背后,還隱藏著怎樣的數(shù)學(xué)規(guī)律和理性之美,這些“意外驚喜”是可以通過大數(shù)據(jù)技術(shù)來發(fā)掘的。本文將就這一話題通過大數(shù)據(jù)的測(cè)試結(jié)果展開論述。
今年2月份的《科學(xué)美國(guó)人》雜志刊登出一篇文章,綜合了兩份關(guān)于文學(xué)作品的研究報(bào)告。這兩個(gè)研究都是用數(shù)學(xué)方法去分析文學(xué),這種理性和感性的碰撞研究,得出的結(jié)果非常有意思。
首先,小說中的情感走勢(shì)和悲喜變化都是有套路的,而且只要六種套路就能基本概括。美國(guó)佛蒙特大學(xué)做了一項(xiàng)研究,他們從世界上第一個(gè)數(shù)字圖書館計(jì)劃“古登堡計(jì)劃”中,選取了1327部10萬字以下的英文虛構(gòu)小說,然后將小說的情緒變化可視化,也就是根據(jù)所用詞語的情緒高低,或者說悲喜程度,畫出了小說從開篇到結(jié)尾的情感走勢(shì)圖。
這一千多本小說的走勢(shì)圖畫下來后他們發(fā)現(xiàn),其中有大約85%的小說,它們的情感走勢(shì)都屬于以下六個(gè)類型之一:
第一種被稱為“麻雀變鳳凰”型,情感走勢(shì)圖是一條從低到高上揚(yáng)的弧線,就是開頭悲苦、結(jié)尾喜悅;第二種是典型的悲劇型,弧線從高滑到低,意味著喜劇開頭、悲劇結(jié)尾;第三種,是兩頭高中間低,形成一個(gè)U形,就是開頭喜悅,中間經(jīng)歷了悲慘,最后再歡喜收尾;第四種和第三種相反,是兩頭低、中間高的拱橋狀,意思是悲傷開頭,中間歡喜,結(jié)尾再跌回到悲傷;第五種就像大寫的英文字母N,從低處開始,經(jīng)歷一起一落,最后再升高,喜劇收尾;第六種又和第五種相反,一開始就在高昂的情緒上,先降再升再降,最后悲劇結(jié)尾。
佛蒙特大學(xué)的研究人員把這三對(duì)大致兩兩相對(duì)稱的弧線稱作小說的“情感弧線”。可別小看這六條簡(jiǎn)單的弧線,大量數(shù)據(jù)就擺在這里了,絕大多數(shù)小說都跳不出這六種套路。
關(guān)于小說的數(shù)學(xué)規(guī)律,還有另外一個(gè)有意思的研究來自波蘭的核物理研究院。他們選取了113部由不同語言寫成的文學(xué)名著,從頭到尾分析它們的句子長(zhǎng)短排列,并根據(jù)句子的長(zhǎng)度畫出了柱狀圖。他們觀察這些密密麻麻排列的柱子,看它們的波動(dòng)規(guī)律,發(fā)現(xiàn)這些統(tǒng)計(jì)圖經(jīng)常能形成分形圖案。
什么叫分形圖案呢?簡(jiǎn)單說來,就是一個(gè)整體的幾何形狀,它由好幾個(gè)小部分組成,這些小部分的形狀跟整體的形狀一樣,或者至少是非常類似。我們舉個(gè)例子,一棵西蘭花,你掰下其中一小朵,會(huì)發(fā)現(xiàn)這朵西蘭花的形狀跟整棵西蘭花很像,再從這一小朵上掰下更小的分支來看看,它的形狀還是像整棵西蘭花。分形圖案就類似這樣,一層一層地嵌套下去。
在這個(gè)研究中,統(tǒng)計(jì)圖形成了分形圖案,這意味著什么呢?比如說,一篇小說的句子長(zhǎng)短排列順序整體呈現(xiàn)出了一種規(guī)律,我們放大一點(diǎn)看其中的某一章,這一章的句子長(zhǎng)短也呈現(xiàn)同樣的規(guī)律,再從這一章里面挑一節(jié)來看,這一節(jié)的句子長(zhǎng)短還是差不多的規(guī)律。而且,意識(shí)流小說和傳統(tǒng)類小說還不一樣,意識(shí)流小說的統(tǒng)計(jì)圖呈現(xiàn)出了更加明顯的分形圖案,也就是說,意識(shí)流小說更符合這個(gè)特點(diǎn),而傳統(tǒng)小說的特點(diǎn)就沒有那么明顯。
那么用數(shù)學(xué)方法研究文學(xué)有什么用呢?佛蒙特大學(xué)的研究人員說,通過研究人類基因組計(jì)劃中的海量數(shù)據(jù),人類已經(jīng)發(fā)現(xiàn)了大量前所未知的、關(guān)于基因的知識(shí),那么同理,用提取數(shù)據(jù)、理性分析的方法來研究文學(xué),或許也能發(fā)現(xiàn)更多關(guān)于文學(xué)作品的秘密。
事實(shí)上,所謂的“情感弧線”是與讀者的感情預(yù)期相符的。即使是悲劇的結(jié)局,同樣與讀者的認(rèn)知水平并不違和。因此說,即使“天不遂人愿”,但依舊“在情理之中”。大數(shù)據(jù)處理信息服務(wù)商金盛網(wǎng)聚WJFabric認(rèn)為,以數(shù)據(jù)挖掘的方式研究文學(xué)透露出多張“底牌”,其中一張便是,通過新技術(shù)的運(yùn)用進(jìn)行跨界研究極具潛力。通過技術(shù)驅(qū)動(dòng)實(shí)現(xiàn)傳統(tǒng)行業(yè)的迭代升級(jí)已是大勢(shì)所趨,而從運(yùn)營(yíng)角度來講,為傳統(tǒng)行業(yè)注入跨界基因則更具現(xiàn)實(shí)意義。除了業(yè)務(wù)操作層面的創(chuàng)新,模式創(chuàng)新成為市場(chǎng)的期待,而跨界作為最值得試水的模式創(chuàng)新方式之一,意在從本質(zhì)上對(duì)行業(yè)進(jìn)行全新解構(gòu),而大數(shù)據(jù)作為新技術(shù)基建的代表,已成為實(shí)現(xiàn)行業(yè)發(fā)展模式創(chuàng)新的“先遣軍”。
金盛網(wǎng)聚(北京)科技有限公司成立于2012年,是一家數(shù)據(jù)處理與信息咨詢服務(wù)商,公司擁有自主核心技術(shù)與服務(wù)咨詢的團(tuán)隊(duì), 公司“WJFbaric-互聯(lián)網(wǎng)大數(shù)據(jù)信息監(jiān)測(cè)SaaS平臺(tái)”目前注冊(cè)使用客戶將近上萬個(gè),為企業(yè)、政府、學(xué)術(shù)機(jī)構(gòu)、成功人士等提供在線信息收集、展示、閱讀、存儲(chǔ)的免費(fèi)平臺(tái),公司遠(yuǎn)景致力于通過數(shù)據(jù)+計(jì)算形成可視化的人工智能決策平臺(tái)。