中國數(shù)學(xué)會是中國數(shù)學(xué)工作者的學(xué)術(shù)性法人社會團(tuán)體,是中國科學(xué)技術(shù)協(xié)會的組成部分。中國數(shù)學(xué)會的宗旨是團(tuán)結(jié)廣大數(shù)學(xué)工作者,為促進(jìn)數(shù)學(xué)的發(fā)展,繁榮我國的科學(xué)技術(shù)事業(yè),促進(jìn)科學(xué)技術(shù)人才的成長與提高...
大數(shù)據(jù)時代的現(xiàn)實生活
發(fā)布時間:2012-09-27
●改變我們生活的科學(xué)革命停留在了自然科學(xué)的邊界上,從沒有逾越而觸及人類。
●如果我們像研究自然現(xiàn)象一樣研究人類,我們就能夠預(yù)測人類行為。
●一旦收集到足夠多的數(shù)據(jù),就可以提出這個基本的問題:我們的可預(yù)測性有多高?并且會得到一個令人震驚的答案。
■艾伯特·巴拉巴西
人類不愿被放在顯微鏡下觀察
某種程度上來講,有關(guān)人類行為的統(tǒng)計確實有很重要的意義。大量有關(guān)人類行為的數(shù)據(jù)該怎樣為我們所用呢?我是一個物理學(xué)家,也可以說是一個自然科學(xué)家,我認(rèn)為自然現(xiàn)象是可以被解析、描述,被量化的,并且是可以預(yù)測、可以控制的,這一點無可厚非。這是科學(xué)家應(yīng)該做的,也是推動科學(xué)家研究的動力。那么,如果我們用人類來代替之前提到的自然現(xiàn)象呢?剛才那句話將變成:人類是可以被解析、描述,被量化,并且是可以預(yù)測、可以控制的。這顯然是一個會令人感到非常恐慌的陳述。
然而,我們無須恐慌,這其實是一個好消息。在科學(xué)領(lǐng)域有一個我們從不去探討的小秘密,改變我們生活的科學(xué)革命停留在了自然科學(xué)的邊界上,從沒有逾越而觸及人類。
我們不會阻止科學(xué)家去預(yù)測電子移動軌跡,卻不愿預(yù)知電子危機(jī)、金融危機(jī)等;我們不介意科學(xué)家去研究基因,卻不愿預(yù)知戰(zhàn)爭、重大的危機(jī)等。原因非常簡單。人類和細(xì)菌或其他有機(jī)體有一個根本的不同,即細(xì)菌不會因為被放到顯微鏡下而惱怒,月亮也不會因為飛船登陸到它的表面而提出控訴。
預(yù)測需要數(shù)據(jù)
想要預(yù)測,必須要掌握大量數(shù)據(jù),那些說自己不需要數(shù)據(jù)就可以作預(yù)測的人不是看手相的就是商業(yè)顧問。
在對人類行為的預(yù)測方面,我們現(xiàn)在擁有了大量數(shù)據(jù)的支持。我們發(fā)出的每封郵件都留下了一個人的社會關(guān)系、愛好等生活線索。銀行了解我們的支付能力、品味、購買意愿以及購物地點。雖然我們常常選擇不去想這些,但事實是我們已經(jīng)將自己放在了記錄事實的多倍顯微鏡下,這些數(shù)據(jù)細(xì)節(jié)讓他人可以迅速了解我們的生活。
《爆發(fā)》講的就是數(shù)據(jù)統(tǒng)計給掌控人類行為的研究帶來的改變。這里面包括方方面面的數(shù)據(jù),其中之一是隱私方面的數(shù)據(jù)。《爆發(fā)》一書雖然提到了隱私,卻不是在講隱私。它講的是我們的社會正在變成一個大實驗室,自動收集的數(shù)據(jù)揭示了人類行為模式。
說到人類行為,我首先要解釋一個問題:“為什么一個物理學(xué)家要關(guān)注人類行為?”事實是,物理學(xué)家關(guān)心人類行為,是想了解其背后復(fù)雜的系統(tǒng)。這里有很多復(fù)雜的體系值得研究。大腦是一方面,還有經(jīng)濟(jì)、細(xì)胞,以及計算機(jī)系統(tǒng)。去年我們發(fā)現(xiàn),要了解個人行為,社會是最好的平臺。這些數(shù)據(jù)幫助我們了解到每個人的日常行為,比如每一個神經(jīng)元每一刻都在做什么,或者說每一個基因都有什么作用。因為這套個人統(tǒng)計數(shù)據(jù)統(tǒng)計了每個人的行為,包括他們的行為模式、運動模式,以及方方面面,所以如果你想實用一些,并且相信每一個復(fù)雜體系都是相似的,那么你就在朝著掌握更多數(shù)據(jù)、取得更大進(jìn)展的方向前進(jìn)。過去的五年、十年中,人類社會朝著逐步變成一個本源的復(fù)雜體系、一個便于我們掌控的體系的方向發(fā)展,但這是一個漫長的過程。
所謂“爆發(fā)”,是一個人人都在遵循的行為模式,如果你觀察現(xiàn)實生活中人們的行為模式:什么時候發(fā)郵件,什么時候打電話,什么時候瀏覽網(wǎng)頁,你一定會發(fā)現(xiàn)確實存在這樣的模式,我們在這一方面掌握了大量數(shù)據(jù)。這些行為都不是隨機(jī)的,而是聚集,最終爆發(fā)。也就是說,你會在一段很短的時間里發(fā)出大量郵件,然后在接下來很長一段時間里什么都不做,然后接下來又是一個爆發(fā),打電話也是一樣。所以,在過去十年我們關(guān)于人類行為一個很重要的發(fā)現(xiàn)就是,人類行為不是隨機(jī)的,而是聚集帶來的爆發(fā)。而最重要的是這些行為都遵循“冪律分布”。
當(dāng)然沒有人認(rèn)為自己的行為模式是隨機(jī)的,這從來就不是問題所在。問題是,隨機(jī)行為的特點是什么?爆發(fā)是特點之一,而且爆發(fā)也會將我們引向下一個問題,這個我在前面也提到了。如果我們像研究自然現(xiàn)象一樣研究人類,我們就能夠預(yù)測人類行為。
預(yù)測本身其實就是一個令人感到恐懼的詞。我們要預(yù)測什么?我們要預(yù)測今晚會夢到什么嗎?我們要預(yù)測下次升職是什么時候嗎?或者預(yù)測我們會偶遇誰?所有這些預(yù)測都需要數(shù)據(jù)的支持,需要大量數(shù)據(jù)的支持。我們作預(yù)測的能力取決于我們掌握多少數(shù)據(jù),有了這些數(shù)據(jù)我們才能說預(yù)測的可能性有多大。所以,幾年前我開始思考這個問題時,我決定從收集人類行為軌跡的相關(guān)數(shù)據(jù)開始,即我們在哪里,接下來又要去哪里。我當(dāng)時沒有收集他人數(shù)據(jù)的渠道,卻又非常好奇作預(yù)測的可能性,所以我決定從收集自己的數(shù)據(jù)開始。
進(jìn)入大數(shù)據(jù)時代
其實,很多人行為軌跡的數(shù)據(jù)都被收集了?,F(xiàn)在還有人不用手機(jī)嗎?當(dāng)然,人們不會自欺欺人地去否認(rèn)這個事實:即你的手機(jī)廠商知道你每一時刻都在哪里。他們不僅知道你的位置信息,還知道你打的每一通電話(為了統(tǒng)計話費)。他們不僅知道你在哪里,也知道其他成千上萬的客戶在哪里。所以,相對于我所收集的關(guān)于自己的數(shù)據(jù),他們掌握的數(shù)據(jù)要豐富很多。有了這些數(shù)據(jù),人們就可以對不同的個體進(jìn)行比較。當(dāng)然,手機(jī)商很擔(dān)心這些數(shù)據(jù)會外泄,因為他們要保持用戶對他們的信任,同時外泄信息還會受到法律的處罰。但是近幾年,他們逐步意識到這些數(shù)據(jù)的價值所在,于是開始將數(shù)據(jù)提供給研究者和其他公司。我的研究小組也得到了大量有關(guān)人類行為軌跡和通話模式的信息,信息的主人當(dāng)然是匿名的,我們不知道主人是誰,也不知道他們的電話號碼。我們只是將他們看做在宇宙中移動的小個體,就像組成汽油的溴一樣。
有了這些數(shù)據(jù),我們終于可以問:人類行為的可預(yù)測性是多少?人的行為可以預(yù)測嗎?
我們之前提出的問題之一是:人們每天會移動多遠(yuǎn)?答案很簡單。如果你想要查一查移動這么遠(yuǎn)的人有多少,這是一個典型的行車距離,大部分人都會移動這么遠(yuǎn)。你會發(fā)現(xiàn)大部分人傾向于在一個相對小的范圍內(nèi)移動。當(dāng)然也有少數(shù)住在城郊的人會移動一段相當(dāng)長的距離,移動范圍較小的人的數(shù)量對比移動范圍較大的人的數(shù)量正好符合一個精確的“冪律分布”。所以,如果你掌握了大量數(shù)據(jù),就可以預(yù)測有多少人是旅行者,有多少人在很遠(yuǎn)的地方上班,有多少人大多數(shù)時間待在附近,或是在家中工作。這是我們研究的第一步。這已經(jīng)表明,在研究一個龐大的人群時,我們會發(fā)現(xiàn)不同人的行為是迥異的。下一步,我們用得出的行為軌跡算出每個人的熵。
什么是熵呢?整個體系的熵是零,就是說這個系統(tǒng)的狀態(tài)很明朗,你知道每一個點在哪里,每一個點的位置都是完全確定的,這也就是我們所說的:“熵為零?!?span id="4euya4i" class="GramE">熵是衡量隨機(jī)性的值。原則上,如果可以根據(jù)個人過去出現(xiàn)的地點寫出數(shù)據(jù)挖掘運算法則,那么就可以百分之百地精確算出他將出現(xiàn)的地點,他的可預(yù)測性是1,也就是說這個人的運動完全沒有隨機(jī)性。他每天在同一時間往返于家和單位。
我們認(rèn)為人與人之間的行為模式存在很大差異,很多人的行為很難被預(yù)測,因為他們的生活豐富,并且行動無計劃性。但是還有一些人可能更容易被預(yù)測,這種人是我們一開始就提到的,他們的行為發(fā)生在一個確定范圍內(nèi)。于是我們分別計算出了這些人的平均值,并將他們的可預(yù)測性標(biāo)記在圖中。我們測量的是大批手機(jī)用戶的可預(yù)測性,首先應(yīng)該注意到的就是這個預(yù)測基數(shù)很大,峰值是93,也就是說,對于一個普通人來講,如果我們知道他過去去過的地方,原則上有93%的可能性可以準(zhǔn)確預(yù)測出他接下來將出現(xiàn)的地方。而且所有人的可預(yù)測性都高于80%。
因此,一旦收集到足夠多的數(shù)據(jù),就可以提出這個基本的問題:我們的可預(yù)測性有多高,并且會得到一個令人震驚的答案?如果我們談到對未來的預(yù)測,我們可以說:“如果我們擁有足夠的數(shù)據(jù),是不是所有事情都是可以預(yù)測的?”這是我們現(xiàn)在要思考的問題。
(作者系美國東北大學(xué)
《中國科學(xué)報》 (
數(shù)學(xué)會獎項
華羅庚獎
華羅庚先生是我國著名數(shù)學(xué)家
華羅庚先生是我國著名數(shù)學(xué)家,他熱愛祖國,獻(xiàn)身科學(xué)事業(yè),一生為發(fā)展我國的數(shù)學(xué)事業(yè)和培養(yǎng)人才做出了卓越貢獻(xiàn)。
陳省身獎
陳省身教授是一位國際數(shù)學(xué)大師
國際數(shù)學(xué)大師陳省身教授是美籍華裔數(shù)學(xué)家、中國科學(xué)院外籍院士。他非常關(guān)心祖國數(shù)學(xué)事業(yè)的發(fā)展,幾十年來在發(fā)展我國數(shù)學(xué)事業(yè)、培養(yǎng)數(shù)學(xué)人才等方面做了大量工作。
鐘家慶獎
鐘家慶教授生前對祖國數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)切
鐘家慶教授生前對祖國數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)注,并為之拚搏一生。為了紀(jì)念并實現(xiàn)他發(fā)展祖國數(shù)學(xué)事業(yè)的遺愿,數(shù)學(xué)界有關(guān)人士于1987年共同籌辦了鐘家慶基金,并設(shè)立了鐘家慶數(shù)學(xué)獎,委托中國數(shù)學(xué)會承辦。
關(guān)注微信
掃描二維碼關(guān)注