中國數(shù)學(xué)會是中國數(shù)學(xué)工作者的學(xué)術(shù)性法人社會團體,是中國科學(xué)技術(shù)協(xié)會的組成部分。中國數(shù)學(xué)會的宗旨是團結(jié)廣大數(shù)學(xué)工作者,為促進數(shù)學(xué)的發(fā)展,繁榮我國的科學(xué)技術(shù)事業(yè),促進科學(xué)技術(shù)人才的成長與提高...
“全國科普日”陳松蹊院士網(wǎng)絡(luò)科普報告:數(shù)據(jù)實驗與統(tǒng)計分析—從大氣污染到女士品茶
發(fā)布時間:2022-09-20
當(dāng)今時代,大數(shù)據(jù)的獲得越來越容易,但其也附帶許多混雜因素。要想從大數(shù)據(jù)中提煉出科學(xué)的結(jié)果需要使用統(tǒng)計學(xué)技術(shù),因此如何使用統(tǒng)計學(xué)技術(shù)剔除、調(diào)整、建模大數(shù)據(jù)中的混雜因素是數(shù)據(jù)實驗與統(tǒng)計分析中的重要問題。
2022年全國科普日的主題是“喜迎二十大、科普向未來”, 側(cè)重圍繞大數(shù)據(jù)、人工智能等科技發(fā)展前沿,讓更多公眾深刻感知前沿科技魅力。為此,中國數(shù)學(xué)會聯(lián)合中國工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會、中國運籌學(xué)會和中國現(xiàn)場統(tǒng)計研究會特別邀北京大學(xué)陳松蹊院士,為廣大科技工作者和數(shù)學(xué)愛好者獻上了精彩的網(wǎng)絡(luò)科普報告:“數(shù)據(jù)實驗與統(tǒng)計分析—從大氣污染到女士品茶”。中國數(shù)學(xué)會副理事長周愛輝研究員主持了報告,一起出席的還有中國工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會副理事長王兆軍教授、中國運籌學(xué)會科普工作委員會主任劉歆研究員。
9月18日上午9點,在大家的熱切期待中,報告正式開始。陳院士的報告用三個例子說明了為何從大數(shù)據(jù)中提煉出科學(xué)的結(jié)果需要使用統(tǒng)計學(xué)技術(shù)。這三個例子分別是:(1)從大氣污染監(jiān)測網(wǎng)絡(luò)數(shù)據(jù)提取污染排放信息,介紹團隊八年來分析、追蹤北方地區(qū)大氣污染變化的實證研究,給出大氣污染評估的統(tǒng)計學(xué)思路和方法; (2)女士品茶及充分隨機實驗;(3)吸煙對壽命影響的大樣本觀測研究。
陳院士從一封與朋友來往的郵件講起他和大氣污染研究的淵源,強調(diào)對大氣污染的研究關(guān)系到人民的生命健康及生活質(zhì)量。
目前我國已建立包括污染物思維時空數(shù)據(jù)、氣象思維時空數(shù)據(jù)、人口與經(jīng)濟數(shù)據(jù)、衛(wèi)星數(shù)據(jù)、遙感數(shù)據(jù)在內(nèi)的生態(tài)環(huán)境檢測數(shù)據(jù),真正進入了環(huán)境大數(shù)據(jù)時代。而如何使用監(jiān)測大數(shù)據(jù)度量污染物排放量是大氣管理的關(guān)鍵科學(xué)問題。陳院士首先對比了用“排放源清單”監(jiān)測的傳統(tǒng)方法和用“環(huán)境大數(shù)據(jù)”監(jiān)測的新方法,接著詳細闡述了用統(tǒng)計學(xué)方法剔除氣象因素干擾后能更準(zhǔn)確地度量污染物排放以及在最理想的情況下用充分隨機實驗Treatment Effect檢驗方法(t-檢驗方法)能很好地解決“如何評判今年的污染低于去年”的問題。最后,陳院士通過對比隨機化實驗和觀測實驗,說明充分隨機實驗的有效性和理想性。
“女士品茶”案例是充分隨機試驗的范例,它描述了Ronald A. Fisher的實驗和隨機化的想法,是隨機試驗數(shù)據(jù)分析的兩大支柱之一,更是20世紀(jì)最偉大的科學(xué)思想之一。
1920年,英國的Bristol女士聲稱可以只通過品嘗就能區(qū)分一杯奶茶是茶先倒進杯子還是奶先倒進杯子。“現(xiàn)代統(tǒng)計學(xué)之父”Ronald Fisher和生物學(xué)家William Roacb用充分隨機試驗的方法(隨機給出八杯其它條件一樣而僅倒茶倒奶順序相反的茶,兩類各四杯,隨機從八杯中挑選四杯讓Bristol猜,結(jié)果Bristol全部猜對)檢驗了Bristol女士是真有“能區(qū)分出來是茶先倒進杯子還是奶先倒進杯子”的能力,該試驗被稱為最著名的“八杯牛奶”充分隨機試驗。
陳院士強調(diào)“女士品茶”說明了充分隨機試驗的強大。隨后在農(nóng)業(yè)中(如育種、種子的產(chǎn)量等)也做了相關(guān)隨機化的試驗,但此方法并未在社會學(xué)中進行試驗。而1948年美國用定額抽樣方法進行大選預(yù)測,結(jié)果大選預(yù)測失敗。這說明在人群中存在隱性偏差,而充分隨機試驗?zāi)芟鞣N隱性偏差。因此現(xiàn)在的民意測驗包括市場研究、營銷的基本理論都是用隨機抽樣法進行。
陳院士總結(jié)在對大數(shù)據(jù)研究時做充分隨機實驗和進行統(tǒng)計偏差調(diào)整這兩種方法要選其一進行。
陳院士首先介紹對吸煙是否有害這個問題的數(shù)據(jù)研究不能在充分隨機化實驗的條件下進行。所以將選定的三組實驗人群(英國醫(yī)生加拿大退休人員、美國25個州的男性)分三類:(1)不抽煙;(2)只抽香煙;(3)抽雪茄、煙斗。根據(jù)人群中每1000人死亡率可知:(1)抽雪茄、煙斗的吸煙者應(yīng)該放棄吸煙,因為死亡率高;(2)如果戒不掉吸煙,那抽雪茄、煙斗的人可以考慮只抽香煙,因為抽香煙的死亡率明顯低于抽雪茄、煙斗組,甚至與不抽煙組差別不大。為什么會出現(xiàn)上面的結(jié)論,陳院士解釋結(jié)論里面有混雜因素:年齡,如果按年齡分層就能消除不同吸煙組間的年齡差異,結(jié)果會得到相反的結(jié)論。
最后陳院士總結(jié)(1)大氣污染是“觀測研究”。如果要評估今年大氣污染是否低于去年,需要Control氣象因素,且兩年的簡單平均值是不可比的,因為氣象分布不一樣。(2)大氣環(huán)境研究是“統(tǒng)計觀測研究”。因為它不能在大氣中隨機化氣象條件,而且每年氣象變量分布有變異(氣象變異),氣象變異造成的bias需通過統(tǒng)計調(diào)整去掉。因此對大氣污染PM2.5的研究要去除風(fēng)向及平均氣象密度的干擾。通過構(gòu)造基準(zhǔn)氣象分布和調(diào)整均值的辦法來調(diào)整氣象,并且可以很好的反映排放的變化,這也是統(tǒng)計學(xué)因果推斷的思想。陳院士還介紹了團隊八年來分析、追蹤北方地區(qū)大氣污染的變化的實證研究,給出大氣污染評估的統(tǒng)計學(xué)思路和方法,并提出了“人努力-天幫忙”指數(shù),該指數(shù)分解了“氣象因素”與“人為因素”對污染的影響。
報告結(jié)束后,周愛輝研究員主持提問環(huán)節(jié)。嘉賓們代表網(wǎng)友提出三個問題,分別是:面向未來大數(shù)據(jù)、萬物互聯(lián)等新場景,統(tǒng)計分析要面臨哪些新挑戰(zhàn)以及如何展望未來的發(fā)展趨勢?深度學(xué)習(xí)在很多領(lǐng)域都有卓越的性能表現(xiàn),相信深度學(xué)習(xí)也可以用于“從大數(shù)據(jù)中提煉出科學(xué)的結(jié)果”,陳院士是如何看待這個方向?以及如何看待這個過程中模型的可解釋性與可信問題;因果推斷被譽為下一代AI的核心,因果推斷在未來統(tǒng)計分析中將會扮演怎樣的角色?這三個問題是通過中國數(shù)學(xué)會官方微信公眾號收集遴選。陳院士對這些問題做了詳細的回答。
數(shù)學(xué)會獎項
華羅庚獎
華羅庚先生是我國著名數(shù)學(xué)家
華羅庚先生是我國著名數(shù)學(xué)家,他熱愛祖國,獻身科學(xué)事業(yè),一生為發(fā)展我國的數(shù)學(xué)事業(yè)和培養(yǎng)人才做出了卓越貢獻。
陳省身獎
陳省身教授是一位國際數(shù)學(xué)大師
國際數(shù)學(xué)大師陳省身教授是美籍華裔數(shù)學(xué)家、中國科學(xué)院外籍院士。他非常關(guān)心祖國數(shù)學(xué)事業(yè)的發(fā)展,幾十年來在發(fā)展我國數(shù)學(xué)事業(yè)、培養(yǎng)數(shù)學(xué)人才等方面做了大量工作。
鐘家慶獎
鐘家慶教授生前對祖國數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)切
鐘家慶教授生前對祖國數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)注,并為之拚搏一生。為了紀(jì)念并實現(xiàn)他發(fā)展祖國數(shù)學(xué)事業(yè)的遺愿,數(shù)學(xué)界有關(guān)人士于1987年共同籌辦了鐘家慶基金,并設(shè)立了鐘家慶數(shù)學(xué)獎,委托中國數(shù)學(xué)會承辦。
關(guān)注微信
掃描二維碼關(guān)注