韋小寶到底有什么厲害之處?今天,讓我們從數(shù)據(jù)分析“韋小寶最愛(ài)誰(shuí)”的角度來(lái)做一些揭秘吧!
分析方法綜述
本文基于文本的描述來(lái)分析。根據(jù)分析目標(biāo),將描述性分析定位在人物分析的層面,從出場(chǎng)頻次、出場(chǎng)時(shí)間、親密程度、稱謂變化來(lái)解析作者對(duì)人物的刻畫(huà)。
文本數(shù)據(jù)結(jié)構(gòu)化
非結(jié)構(gòu)化,直接進(jìn)行統(tǒng)計(jì)分析是沒(méi)法進(jìn)行的。所以,要預(yù)處理,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)成結(jié)構(gòu)化的信息以供分析。這里面所用的方法就是確定分析的目標(biāo)和對(duì)象,從《鹿鼎記》中提取信息。
目標(biāo):小說(shuō)主要人物及主要稱謂
1、韋小寶:小桂子,韋香主,小寶,韋大人,韋爵爺,相公
2、康熙帝:小玄子,皇帝,皇上
3、雙兒:好雙兒、雙雙
4、阿珂:陳珂,美貌小姑娘,師姊
5、蘇荃:洪夫人,教主夫人
6、建寧公主:公主
7、沐劍屏:小郡主,小老婆
8、方怡:方師姐、方姑娘、怡姐姐
9、曾柔
10、韋春花
11、陳近南
12、鄭克塽
13、吳應(yīng)熊
14、茅十八
從稱謂的內(nèi)容和數(shù)量上看,小寶會(huì)給喜歡的人起昵稱哦,這一點(diǎn),我們?cè)诤彤愋韵嗵幍臅r(shí)候可以借鑒。
七位夫人(圖片來(lái)源于網(wǎng)絡(luò)
分析單位:可以以句子為分析單位,也可以以段落為單位,本文涉及的段落450字——480字為一個(gè)分析單位,(以WORD文檔統(tǒng)計(jì),全文1227969字,每頁(yè)固定40行,每行固定30字統(tǒng)計(jì),共有2727頁(yè),也就是有2727個(gè)分析單位。)
小貼士:
事實(shí)上,我們都對(duì)文本非常熟悉,工作和生活中都存在著大量的文本數(shù)據(jù)比如:網(wǎng)頁(yè)、新聞、論壇、社交媒體(微博、微信)、評(píng)論(新聞評(píng)論、購(gòu)物評(píng)論等)這些都是典型的文本數(shù)據(jù),在海量的文本數(shù)據(jù)中蘊(yùn)含著豐富的價(jià)值,對(duì)文本大數(shù)據(jù)的分析和挖掘具有重要意義,而它的典型應(yīng)用又有輿情監(jiān)控、商業(yè)智能、趨勢(shì)預(yù)測(cè)、精準(zhǔn)營(yíng)銷等等。
出場(chǎng)頻次
小說(shuō)對(duì)各個(gè)人物的著墨如何?這反映了不同人物的分量輕重。總體來(lái)說(shuō),采用了計(jì)數(shù)詞頻的方式,具體來(lái)說(shuō),圍繞這兩個(gè)問(wèn)題展開(kāi)。
1、如何定義一個(gè)人物?
2、怎樣出場(chǎng)可以記一次?
以主人公韋小寶為例,定義這個(gè)人物最簡(jiǎn)單的方式就是書(shū)中出現(xiàn)“韋小寶”這個(gè)名詞,但是這樣做還是會(huì)有漏洞。小說(shuō)中稱呼他的方式還有很多,比如韋爵爺、小桂子等。因此,需要按照之前的數(shù)據(jù)準(zhǔn)備,將同一個(gè)人的不同稱呼都對(duì)應(yīng)到“韋小寶”這個(gè)人物上來(lái)。
數(shù)據(jù)結(jié)果可以看出來(lái),小說(shuō)中男主角韋小寶的出現(xiàn)次數(shù)是最多的,其次是雙兒和阿珂,她倆不分伯仲,小郡主和方怡緊隨其后。我們?cè)陂喿x小說(shuō)時(shí)也能感覺(jué)到,小寶對(duì)雙兒和阿珂是最特別的了。也許,雙兒和阿珂中間,就能產(chǎn)生韋小寶的最愛(ài)。
從這個(gè)角度,我們也能看出來(lái),多和異性接觸,一定是會(huì)增進(jìn)感情的,有想法要行動(dòng)起來(lái)才有結(jié)果。
出場(chǎng)時(shí)間
人物的出場(chǎng)時(shí)間同樣重要,這個(gè)愛(ài)情中,講究情敵的出場(chǎng)順序一樣。這里可以將每個(gè)分析單位按照順序編號(hào):1,2,3……,T。時(shí)間點(diǎn)就可以理解為這些編號(hào)。然后對(duì)于每一個(gè)人物而言,可以統(tǒng)計(jì)其出場(chǎng)的時(shí)間點(diǎn)。
1、 韋小寶:68 69 70……
2、 雙兒:856 857 858……
3、 阿珂:1321 1322 1323……
4、 蘇荃:1004 1005 1006……
5、 建寧公主:1067 1068 1069……
6、 沐劍屏:472 473 474……
7、 方怡:574 575 576……
8、 曾柔:1127 1128 1129……
可以看出,出場(chǎng)最早的是小郡主,其次是小郡主的師姐方怡,再然后是和小寶最親厚的雙兒,其他人也都陸續(xù)在1000到1150,也就是小說(shuō)的中間悉數(shù)登場(chǎng)。被很多人公認(rèn)為小寶最愛(ài)的女人阿珂是出場(chǎng)最晚的。
而從親密值的角度,也可以再深入分析一下小寶與女人們的關(guān)系。為了說(shuō)明更簡(jiǎn)便,只針對(duì)雙兒、阿珂和沐劍屏來(lái)分析。
親密值公式:親密密度=出場(chǎng)次數(shù)÷出場(chǎng)單元數(shù)量
可以比較明顯的看出來(lái),從親密程度來(lái)說(shuō),小寶與雙兒更親厚。雙兒可能是小寶的最愛(ài)。
可見(jiàn),與異性相處,想獲得親厚的關(guān)系,需要努力增加存在感,并且要?jiǎng)?chuàng)造更多與對(duì)方一起完成的任務(wù)哦。
人以群分
前文的描述性分析已經(jīng)基本反映了本書(shū)主角之間的關(guān)系。還可以通過(guò)人物進(jìn)行聚類分析,理清人物關(guān)系。
詞向量工具:就是講詞映射到歐氏空間的一種表示,其中,兩個(gè)詞語(yǔ)的寓意越詳細(xì),距離越近。
如何得到詞向量?
這個(gè)模型通過(guò)對(duì)文本進(jìn)行神經(jīng)網(wǎng)絡(luò)的分析,該模型通過(guò)學(xué)習(xí)訓(xùn)練語(yǔ)料獲取詞向量和概率密度函數(shù),把詞映射到低維向量空間,詞向量之間cos距離的大小代表了詞語(yǔ)之間關(guān)系的遠(yuǎn)近。詞向量利用開(kāi)源工具word2vec而得。
為了簡(jiǎn)單表達(dá),用下面的圖片來(lái)說(shuō)明一下分析過(guò)程。
由于中文特殊性,訓(xùn)練詞向量需要先對(duì)文本進(jìn)行分詞,去除停用詞(比如了、的這樣的表意特征不明顯的詞)
事實(shí)上,在金庸的武俠世界中,已經(jīng)給各個(gè)人物分好類,這就是他們的背后的幫派。比如天地會(huì)、皇宮、沐王府、青木堂、神龍教等等。主要的區(qū)別,在于他們武功路數(shù)和立場(chǎng)不同。比如天地會(huì)經(jīng)常說(shuō)反清復(fù)明,而皇宮常說(shuō)捉拿叛徒。
詞向量的分析維度可以按照這些說(shuō)法展開(kāi),本文不過(guò)多贅述,如想了解詳細(xì)方法,可以在公眾平臺(tái)提問(wèn)。
雖然,小寶的幾位夫人最初與他的立場(chǎng)多有不和,比如阿珂最是反抗小寶,她自己刺殺吳三桂失手后,本來(lái)一心希望和鄭克塽遠(yuǎn)走高飛,在揚(yáng)州麗春院,懷了韋小寶的骨肉,后又發(fā)現(xiàn)鄭克塽的本性,且逐漸意識(shí)到韋小寶對(duì)自己的好,轉(zhuǎn)愛(ài)上他,終隨歸隱。
如果耐心等待,女神也會(huì)是你的。