中國數(shù)學(xué)會是中國數(shù)學(xué)工作者的學(xué)術(shù)性法人社會團(tuán)體,是中國科學(xué)技術(shù)協(xié)會的組成部分。中國數(shù)學(xué)會的宗旨是團(tuán)結(jié)廣大數(shù)學(xué)工作者,為促進(jìn)數(shù)學(xué)的發(fā)展,繁榮我國的科學(xué)技術(shù)事業(yè),促進(jìn)科學(xué)技術(shù)人才的成長與提高...
數(shù)據(jù)科學(xué)與信息服務(wù)產(chǎn)業(yè):海量信息和海量數(shù)據(jù)的時代, 互聯(lián)網(wǎng),計算技術(shù)
發(fā)布時間:2012-08-27
來源:科學(xué)網(wǎng)
我們生活在一個信息時代,一個海量信息和海量數(shù)據(jù)的時代:互聯(lián)網(wǎng),計算技術(shù),電子商務(wù)和各種其它的新興技術(shù)使我們獲取數(shù)據(jù)、分析數(shù)據(jù)和利用數(shù)據(jù)的能力有了一個本質(zhì)的變化。這個變化正在不斷深入地、全面地影響著我們的日常生活。由此也影響著社會、文化、國防和國民經(jīng)濟的發(fā)展。信息服務(wù)產(chǎn)業(yè)已成為發(fā)達(dá)國家經(jīng)濟轉(zhuǎn)型的主要支柱。以谷歌和臉書為代表的信息服務(wù)企業(yè),在短短幾年的時間里就進(jìn)入了全世界最大、最受矚目的企業(yè)的行列。它們的發(fā)展速度是在傳統(tǒng)的工業(yè)模式下難以想象的。它們的成功也展示了信息服務(wù)產(chǎn)業(yè)巨大的發(fā)展空間。另外,數(shù)據(jù)和信息資源已成為繼人力資源和物質(zhì)資源以外的第三大資源。數(shù)據(jù)資源的開發(fā)和利用將是未來社會和經(jīng)濟發(fā)展的主要手段之一,也應(yīng)該成為制定國家長遠(yuǎn)發(fā)展計劃需要考慮的主要因素之一。
我們自然要問,信息時代對社會,對政府,特別是對我們的教育和科學(xué)研究體制提出了什么樣的新的要求;信息服務(wù)產(chǎn)業(yè)的科學(xué)基礎(chǔ)是什么?
傳統(tǒng)工業(yè),尤其是制造業(yè)的科學(xué)基礎(chǔ)是自然科學(xué)。物理學(xué)提供了自然科學(xué)最基本的原理。在此之上、化學(xué)、生命科學(xué)、地球物理、天文學(xué)以及各種各樣的工程科學(xué)為傳統(tǒng)工業(yè)提供了科學(xué)指導(dǎo)。從大學(xué)、科研機構(gòu),到企業(yè)、政府部門,我們都已經(jīng)建立起了一整套教學(xué)、科研、開發(fā)、生產(chǎn)到市場的機制。
信息服務(wù)產(chǎn)業(yè)的科學(xué)基礎(chǔ)是數(shù)據(jù)科學(xué)。簡單說來,它由兩個部分組成:即用數(shù)據(jù)的方法來研究科學(xué)和用科學(xué)的方法來研究數(shù)據(jù)。
先談第一點??茖W(xué)研究有兩個最基本的模式,姑且叫做開普勒模式和牛頓模式。開普勒關(guān)于行星運動的三大定律完全是從前人所觀察到的數(shù)據(jù)中所總結(jié)出來的。而牛頓則更進(jìn)了一步,他尋求的是基本原理。他對行星運動規(guī)律的認(rèn)識是建立在基本原理的基礎(chǔ)之上的。牛頓不僅知其然,而且知其所以然。牛頓的認(rèn)識無疑比開普勒要深刻得多。所以牛頓模式成了科學(xué)研究的首選模式。幾百年來的科學(xué)研究都是沿著一條以尋求基本原理為目標(biāo),而從根本上認(rèn)識世界,認(rèn)識自然這樣一條道路走過來的。
時至今日,科學(xué)家們在對基本原理的尋求方面取得了長足的進(jìn)步。隨著量子力學(xué)的建立,人們已經(jīng)基本了解了在生命科學(xué)、化學(xué)、能源、環(huán)境等與日常生活息息相關(guān)的領(lǐng)域所需要的基本原理?,F(xiàn)實的困難在于這些系統(tǒng)的復(fù)雜性——從基本原理出發(fā)去理解這些系統(tǒng)在目前和不太遙遠(yuǎn)的未來基本上都是一件不可能的事情。牛頓模式因此而面臨著難以逾越的困難。而另一方面,由于人們獲取數(shù)據(jù)和分析數(shù)據(jù)能力的提高,從數(shù)據(jù)中直接總結(jié)出客觀規(guī)律的開普勒模式的優(yōu)勢就體現(xiàn)了出來。生物信息學(xué)的成功就是一個很好的例子。
再談第二點。從傳統(tǒng)的角度來看,分析數(shù)據(jù)屬于統(tǒng)計學(xué)的范疇。但近年來,隨著機器學(xué)習(xí)、數(shù)據(jù)挖掘、生物信息、圖像處理、信號處理等方面的發(fā)展,數(shù)據(jù)分析已經(jīng)深入到了計算機科學(xué)、社會學(xué)、電子工程、生命科學(xué)、天文、地理、氣象等各個領(lǐng)域。而且,從數(shù)據(jù)分析的角度來看,這些不同學(xué)科中的不同問題有著相當(dāng)程度的統(tǒng)一性。正是這種統(tǒng)一性,使得數(shù)據(jù)科學(xué)有存在和發(fā)展的必要。
這里特別值得一提的是數(shù)學(xué)的作用。從根本上來講,自然科學(xué)的基本原理來自于物理;而數(shù)據(jù)科學(xué)的基本原理則來自于數(shù)學(xué)。數(shù)據(jù)分析的主要手段就是給數(shù)據(jù)建立起數(shù)學(xué)結(jié)構(gòu)。這種數(shù)學(xué)結(jié)構(gòu)可以是多方面的:拓?fù)涞?、幾何的、或代?shù)的。最簡單的結(jié)構(gòu)是圖的結(jié)構(gòu)。這也可以看作是一種拓?fù)浣Y(jié)構(gòu)。傳統(tǒng)的統(tǒng)計學(xué)中最最常用的是分析方面的結(jié)構(gòu),如參數(shù)化模型。所以數(shù)據(jù)科學(xué)給數(shù)學(xué)也帶來了許多根本性的問題:例如怎樣把數(shù)據(jù)集(如網(wǎng)頁)坐標(biāo)化?怎樣給數(shù)據(jù)集定義拓?fù)浣Y(jié)構(gòu)或曲率?怎樣利用數(shù)據(jù)集中可能隱含的對稱性?怎樣設(shè)計高效的算法?怎樣處理噪聲,等等?數(shù)據(jù)和數(shù),方程以及圖形一樣,也將成為數(shù)學(xué)研究的基本元素之一。這不僅能給數(shù)學(xué)的各個領(lǐng)域提供了新的問題,同時也會加深我們對數(shù)學(xué)中一些最基本的概念的認(rèn)識。
數(shù)據(jù)科學(xué)中最受矚目的成就之一是小波理論。系統(tǒng)的小波理論出現(xiàn)之前,人們對在信號處理中引進(jìn)局部基函數(shù)和對信號按尺度作分解都有過很多的嘗試。但這些工作都是經(jīng)驗性的,缺乏系統(tǒng)性。小波理論從根本上解決了這一問題。它使這些嘗試性的工作由經(jīng)驗變成了科學(xué)。這樣的轉(zhuǎn)變是本質(zhì)性的。它所帶來的變化也是有目共睹的。壓縮感知理論也經(jīng)歷了一個類似的過程。它所產(chǎn)生的影響也將是巨大的。
另外需要強調(diào)的一點是,由自然科學(xué)的成就轉(zhuǎn)換成工業(yè)產(chǎn)品往往要經(jīng)過一個漫長的過程。而數(shù)據(jù)科學(xué)則不同,數(shù)據(jù)科學(xué)與應(yīng)用,與產(chǎn)業(yè)有著更為密切的聯(lián)系。從小波理論的出現(xiàn)到它在圖像處理方面的應(yīng)用僅僅經(jīng)過了幾年的時間。正因為如此,對數(shù)據(jù)科學(xué)的研究更應(yīng)該努力地走在最前沿:因為落后一步就意味著徹底失去機會。
目前數(shù)據(jù)科學(xué)的發(fā)展存在著如下幾個問題:一是缺乏一個統(tǒng)一的平臺。數(shù)據(jù)科學(xué)被瓜分到計算機科學(xué)、統(tǒng)計、數(shù)學(xué)、生物等等學(xué)科。他們之間還缺乏應(yīng)有的聯(lián)系。這使數(shù)據(jù)科學(xué)的發(fā)展受到了制約。二是數(shù)學(xué)作為數(shù)據(jù)科學(xué)的基礎(chǔ),其作用還沒有被充分認(rèn)識到,更沒有充分發(fā)揮出來。這在一定程度上限制了數(shù)據(jù)科學(xué)研究的深度。三是企業(yè)界與學(xué)術(shù)界之間的相互影響還不夠完善。企業(yè)界搜集的數(shù)據(jù)經(jīng)常不夠規(guī)范,企業(yè)界和學(xué)術(shù)界之間協(xié)同創(chuàng)新的模式還有待完善。
具體到我國的實際情況,在很多方面更是令人擔(dān)憂。我國現(xiàn)行的教育和科研體制幾乎將學(xué)科分類推到了極致。這更加不利于數(shù)據(jù)科學(xué)這樣一個新型的,跨學(xué)科的領(lǐng)域的發(fā)展。另一方面,從谷歌、臉書等例子來看,信息服務(wù)產(chǎn)業(yè)中許多最有創(chuàng)造的想法都來自于年青人。而我們國家所通行的教育方式,如中學(xué)里的應(yīng)試式教育和大學(xué)里的灌輸式教育都極大地抑制了年青人的創(chuàng)造性。
認(rèn)識到這些以后,我們自然要問:怎樣應(yīng)對數(shù)據(jù)科學(xué)和信息服務(wù)產(chǎn)業(yè)所提出的新的要求?
從大學(xué)的層面來看,應(yīng)該充分認(rèn)識到數(shù)據(jù)科學(xué)發(fā)展的巨大空間,將數(shù)據(jù)科學(xué)提高到一個和自然科學(xué)并列的高度。以數(shù)學(xué)、計算機科學(xué)、統(tǒng)計、生物信息、金融和經(jīng)濟學(xué)、社會學(xué)等學(xué)科為依托,建立起一個數(shù)據(jù)科學(xué)的教育和科研平臺。要建立起一個完整的本科生和研究生培養(yǎng)計劃。這個教學(xué)計劃的基礎(chǔ)課程應(yīng)該包括象線性代數(shù)、逼近論、離散數(shù)學(xué)、概率論和隨機過程、以及數(shù)理統(tǒng)計等數(shù)學(xué)課程;同時也應(yīng)包括象數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)、機器學(xué)習(xí)、數(shù)據(jù)挖掘等計算機科學(xué)的課程。
這里應(yīng)該特別強調(diào)算法的重要性:沒有高效的算法,所有的理論模型都將被束之于高閣。而在傳統(tǒng)的框架下,算法被分割到了計算數(shù)學(xué)和計算機科學(xué)兩個學(xué)科中。這兩個學(xué)科對算法研究的風(fēng)格和出發(fā)點各不相同,但它們所研究的許多問題在本質(zhì)上是相同的。數(shù)據(jù)科學(xué)的發(fā)展更是要求把這兩種不同風(fēng)格,不同背景的算法研究緊密結(jié)合起來。
課程設(shè)置僅僅是這個教學(xué)計劃的一部分,更富有挑戰(zhàn)性的是怎樣創(chuàng)造出一個能充分發(fā)揮學(xué)生主動性和積極性的教育環(huán)境,并能使教學(xué)計劃和信息服務(wù)產(chǎn)業(yè)的前瞻性需求緊密結(jié)合起來。
從企業(yè)界的角度來看,要充分認(rèn)識到創(chuàng)新的重要性。中國本身就是一個很大的市場。其很多方面,如政策、語言、經(jīng)濟等方面的特點給國內(nèi)的企業(yè)在占據(jù)國內(nèi)市場方面提供了很多優(yōu)勢。但應(yīng)該認(rèn)識到,僅僅依靠這樣的自然保護(hù)是難以持久發(fā)展的。要保證中國的信息產(chǎn)業(yè)能走到世界的前列,就必須走創(chuàng)新的道路,必須開拓國際市場。企業(yè)界應(yīng)該學(xué)會充分利用大學(xué)和其它研究機構(gòu)等資源,來提高自己的創(chuàng)新能力。
從政府的層面來看,要把發(fā)展數(shù)據(jù)科學(xué)和信息服務(wù)產(chǎn)業(yè)作為一項戰(zhàn)略計劃來抓。充分認(rèn)識到這是關(guān)系到國計民生,關(guān)系到國家的經(jīng)濟、科學(xué)、和文化發(fā)展的根本利益和長遠(yuǎn)利益的一件大事。從組織、資源、政策等多方面制定出一整套的相關(guān)計劃。
從我國的具體情況來看,政府的指導(dǎo)作用尤其重要。首先,數(shù)據(jù)作為一種資源,我們必須有意識地積累這種資源并使之成為可利用的資源。這就需要政府在數(shù)據(jù)搜集、存儲、特別是在開放數(shù)據(jù)等方面提供一系列的指導(dǎo)政策。其次,數(shù)據(jù)科學(xué)和信息服務(wù)產(chǎn)業(yè)的發(fā)展需要學(xué)術(shù)界和企業(yè)界的密切配合。政府可以通過各種方式鼓勵這種配合,尤其是在前瞻性的研究方面。再次,數(shù)據(jù)科學(xué)是一門跨學(xué)科的領(lǐng)域,而我國目前的科研和教育體系對跨學(xué)科領(lǐng)域的發(fā)展是極為不利的。我們不能等體制方面的問題都解決了以后再去發(fā)展數(shù)據(jù)科學(xué),而應(yīng)該通過政府的一些引導(dǎo)性的措施來有效地避免體制方面的問題所造成的困難。
總的來說,數(shù)據(jù)科學(xué)的研究還處在一個初級階段:盡管一些西方國家占據(jù)著領(lǐng)先位置,但所形成的差距還不是太大。從另一方面來講,有理由相信數(shù)據(jù)科學(xué)和相關(guān)的信息產(chǎn)業(yè)比較適合于中國人的習(xí)慣性思維。關(guān)鍵是我們必須把握住這個歷史時機,迅速建立起一整套適合于數(shù)據(jù)科學(xué)及相關(guān)的信息產(chǎn)業(yè)發(fā)展的體制和環(huán)境。要做到這一點,政府,學(xué)術(shù)界和企業(yè)界之間的密切配合是必不可少的。
數(shù)學(xué)會獎項
華羅庚獎
華羅庚先生是我國著名數(shù)學(xué)家
華羅庚先生是我國著名數(shù)學(xué)家,他熱愛祖國,獻(xiàn)身科學(xué)事業(yè),一生為發(fā)展我國的數(shù)學(xué)事業(yè)和培養(yǎng)人才做出了卓越貢獻(xiàn)。
陳省身獎
陳省身教授是一位國際數(shù)學(xué)大師
國際數(shù)學(xué)大師陳省身教授是美籍華裔數(shù)學(xué)家、中國科學(xué)院外籍院士。他非常關(guān)心祖國數(shù)學(xué)事業(yè)的發(fā)展,幾十年來在發(fā)展我國數(shù)學(xué)事業(yè)、培養(yǎng)數(shù)學(xué)人才等方面做了大量工作。
鐘家慶獎
鐘家慶教授生前對祖國數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)切
鐘家慶教授生前對祖國數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)注,并為之拚搏一生。為了紀(jì)念并實現(xiàn)他發(fā)展祖國數(shù)學(xué)事業(yè)的遺愿,數(shù)學(xué)界有關(guān)人士于1987年共同籌辦了鐘家慶基金,并設(shè)立了鐘家慶數(shù)學(xué)獎,委托中國數(shù)學(xué)會承辦。
關(guān)注微信
掃描二維碼關(guān)注