“全國(guó)科普日”陳松蹊院士網(wǎng)絡(luò)科普?qǐng)?bào)告:數(shù)據(jù)實(shí)驗(yàn)與統(tǒng)計(jì)分析—從大氣污染到女士品茶

發(fā)布時(shí)間:2022-09-20

當(dāng)今時(shí)代,大數(shù)據(jù)的獲得越來(lái)越容易,但其也附帶許多混雜因素。要想從大數(shù)據(jù)中提煉出科學(xué)的結(jié)果需要使用統(tǒng)計(jì)學(xué)技術(shù),因此如何使用統(tǒng)計(jì)學(xué)技術(shù)剔除、調(diào)整、建模大數(shù)據(jù)中的混雜因素是數(shù)據(jù)實(shí)驗(yàn)與統(tǒng)計(jì)分析中的重要問(wèn)題。

2022年全國(guó)科普日的主題是“喜迎二十大、科普向未來(lái)”, 側(cè)重圍繞大數(shù)據(jù)、人工智能等科技發(fā)展前沿,讓更多公眾深刻感知前沿科技魅力。為此,中國(guó)數(shù)學(xué)會(huì)聯(lián)合中國(guó)工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)、中國(guó)運(yùn)籌學(xué)會(huì)和中國(guó)現(xiàn)場(chǎng)統(tǒng)計(jì)研究會(huì)特別邀北京大學(xué)陳松蹊院士,為廣大科技工作者和數(shù)學(xué)愛(ài)好者獻(xiàn)上了精彩的網(wǎng)絡(luò)科普?qǐng)?bào)告:“數(shù)據(jù)實(shí)驗(yàn)與統(tǒng)計(jì)分析—從大氣污染到女士品茶”。中國(guó)數(shù)學(xué)會(huì)副理事長(zhǎng)周愛(ài)輝研究員主持了報(bào)告,一起出席的還有中國(guó)工業(yè)與應(yīng)用數(shù)學(xué)學(xué)會(huì)副理事長(zhǎng)王兆軍教授、中國(guó)運(yùn)籌學(xué)會(huì)科普工作委員會(huì)主任劉歆研究員。

9月18日上午9點(diǎn),在大家的熱切期待中,報(bào)告正式開(kāi)始。陳院士的報(bào)告用三個(gè)例子說(shuō)明了為何從大數(shù)據(jù)中提煉出科學(xué)的結(jié)果需要使用統(tǒng)計(jì)學(xué)技術(shù)。這三個(gè)例子分別是:(1)從大氣污染監(jiān)測(cè)網(wǎng)絡(luò)數(shù)據(jù)提取污染排放信息,介紹團(tuán)隊(duì)八年來(lái)分析、追蹤北方地區(qū)大氣污染變化的實(shí)證研究,給出大氣污染評(píng)估的統(tǒng)計(jì)學(xué)思路和方法; (2)女士品茶及充分隨機(jī)實(shí)驗(yàn);(3)吸煙對(duì)壽命影響的大樣本觀(guān)測(cè)研究。

環(huán)境大數(shù)據(jù)時(shí)代

陳院士從一封與朋友來(lái)往的郵件講起他和大氣污染研究的淵源,強(qiáng)調(diào)對(duì)大氣污染的研究關(guān)系到人民的生命健康及生活質(zhì)量。

12.png

目前我國(guó)已建立包括污染物思維時(shí)空數(shù)據(jù)、氣象思維時(shí)空數(shù)據(jù)、人口與經(jīng)濟(jì)數(shù)據(jù)、衛(wèi)星數(shù)據(jù)、遙感數(shù)據(jù)在內(nèi)的生態(tài)環(huán)境檢測(cè)數(shù)據(jù),真正進(jìn)入了環(huán)境大數(shù)據(jù)時(shí)代。而如何使用監(jiān)測(cè)大數(shù)據(jù)度量污染物排放量是大氣管理的關(guān)鍵科學(xué)問(wèn)題。陳院士首先對(duì)比了用“排放源清單”監(jiān)測(cè)的傳統(tǒng)方法和用“環(huán)境大數(shù)據(jù)”監(jiān)測(cè)的新方法,接著詳細(xì)闡述了用統(tǒng)計(jì)學(xué)方法剔除氣象因素干擾后能更準(zhǔn)確地度量污染物排放以及在最理想的情況下用充分隨機(jī)實(shí)驗(yàn)Treatment Effect檢驗(yàn)方法(t-檢驗(yàn)方法)能很好地解決“如何評(píng)判今年的污染低于去年”的問(wèn)題。最后,陳院士通過(guò)對(duì)比隨機(jī)化實(shí)驗(yàn)和觀(guān)測(cè)實(shí)驗(yàn),說(shuō)明充分隨機(jī)實(shí)驗(yàn)的有效性和理想性。

13.png

女士品茶

“女士品茶”案例是充分隨機(jī)試驗(yàn)的范例,它描述了Ronald A. Fisher的實(shí)驗(yàn)和隨機(jī)化的想法,是隨機(jī)試驗(yàn)數(shù)據(jù)分析的兩大支柱之一,更是20世紀(jì)最偉大的科學(xué)思想之一。

14.png

1920年,英國(guó)的Bristol女士聲稱(chēng)可以只通過(guò)品嘗就能區(qū)分一杯奶茶是茶先倒進(jìn)杯子還是奶先倒進(jìn)杯子?!艾F(xiàn)代統(tǒng)計(jì)學(xué)之父”Ronald Fisher和生物學(xué)家William Roacb用充分隨機(jī)試驗(yàn)的方法(隨機(jī)給出八杯其它條件一樣而僅倒茶倒奶順序相反的茶,兩類(lèi)各四杯,隨機(jī)從八杯中挑選四杯讓Bristol猜,結(jié)果Bristol全部猜對(duì))檢驗(yàn)了Bristol女士是真有“能區(qū)分出來(lái)是茶先倒進(jìn)杯子還是奶先倒進(jìn)杯子”的能力,該試驗(yàn)被稱(chēng)為最著名的“八杯牛奶”充分隨機(jī)試驗(yàn)。

陳院士強(qiáng)調(diào)“女士品茶”說(shuō)明了充分隨機(jī)試驗(yàn)的強(qiáng)大。隨后在農(nóng)業(yè)中(如育種、種子的產(chǎn)量等)也做了相關(guān)隨機(jī)化的試驗(yàn),但此方法并未在社會(huì)學(xué)中進(jìn)行試驗(yàn)。而1948年美國(guó)用定額抽樣方法進(jìn)行大選預(yù)測(cè),結(jié)果大選預(yù)測(cè)失敗。這說(shuō)明在人群中存在隱性偏差,而充分隨機(jī)試驗(yàn)?zāi)芟鞣N隱性偏差。因此現(xiàn)在的民意測(cè)驗(yàn)包括市場(chǎng)研究、營(yíng)銷(xiāo)的基本理論都是用隨機(jī)抽樣法進(jìn)行。

陳院士總結(jié)在對(duì)大數(shù)據(jù)研究時(shí)做充分隨機(jī)實(shí)驗(yàn)和進(jìn)行統(tǒng)計(jì)偏差調(diào)整這兩種方法要選其一進(jìn)行。

1960年的論爭(zhēng)—吸煙有害嗎

陳院士首先介紹對(duì)吸煙是否有害這個(gè)問(wèn)題的數(shù)據(jù)研究不能在充分隨機(jī)化實(shí)驗(yàn)的條件下進(jìn)行。所以將選定的三組實(shí)驗(yàn)人群(英國(guó)醫(yī)生加拿大退休人員、美國(guó)25個(gè)州的男性)分三類(lèi):(1)不抽煙;(2)只抽香煙;(3)抽雪茄、煙斗。根據(jù)人群中每1000人死亡率可知:(1)抽雪茄、煙斗的吸煙者應(yīng)該放棄吸煙,因?yàn)樗劳雎矢?;?)如果戒不掉吸煙,那抽雪茄、煙斗的人可以考慮只抽香煙,因?yàn)槌橄銦煹乃劳雎拭黠@低于抽雪茄、煙斗組,甚至與不抽煙組差別不大。為什么會(huì)出現(xiàn)上面的結(jié)論,陳院士解釋結(jié)論里面有混雜因素:年齡,如果按年齡分層就能消除不同吸煙組間的年齡差異,結(jié)果會(huì)得到相反的結(jié)論。

1663644891(1).png

最后陳院士總結(jié)(1)大氣污染是“觀(guān)測(cè)研究”。如果要評(píng)估今年大氣污染是否低于去年,需要Control氣象因素,且兩年的簡(jiǎn)單平均值是不可比的,因?yàn)闅庀蠓植疾灰粯?。?)大氣環(huán)境研究是“統(tǒng)計(jì)觀(guān)測(cè)研究”。因?yàn)樗荒茉诖髿庵须S機(jī)化氣象條件,而且每年氣象變量分布有變異(氣象變異),氣象變異造成的bias需通過(guò)統(tǒng)計(jì)調(diào)整去掉。因此對(duì)大氣污染PM2.5的研究要去除風(fēng)向及平均氣象密度的干擾。通過(guò)構(gòu)造基準(zhǔn)氣象分布和調(diào)整均值的辦法來(lái)調(diào)整氣象,并且可以很好的反映排放的變化,這也是統(tǒng)計(jì)學(xué)因果推斷的思想。陳院士還介紹了團(tuán)隊(duì)八年來(lái)分析、追蹤北方地區(qū)大氣污染的變化的實(shí)證研究,給出大氣污染評(píng)估的統(tǒng)計(jì)學(xué)思路和方法,并提出了“人努力-天幫忙”指數(shù),該指數(shù)分解了“氣象因素”與“人為因素”對(duì)污染的影響。

1663644948(1).png

報(bào)告結(jié)束后,周愛(ài)輝研究員主持提問(wèn)環(huán)節(jié)。嘉賓們代表網(wǎng)友提出三個(gè)問(wèn)題,分別是:面向未來(lái)大數(shù)據(jù)、萬(wàn)物互聯(lián)等新場(chǎng)景,統(tǒng)計(jì)分析要面臨哪些新挑戰(zhàn)以及如何展望未來(lái)的發(fā)展趨勢(shì)?深度學(xué)習(xí)在很多領(lǐng)域都有卓越的性能表現(xiàn),相信深度學(xué)習(xí)也可以用于“從大數(shù)據(jù)中提煉出科學(xué)的結(jié)果”,陳院士是如何看待這個(gè)方向?以及如何看待這個(gè)過(guò)程中模型的可解釋性與可信問(wèn)題;因果推斷被譽(yù)為下一代AI的核心,因果推斷在未來(lái)統(tǒng)計(jì)分析中將會(huì)扮演怎樣的角色?這三個(gè)問(wèn)題是通過(guò)中國(guó)數(shù)學(xué)會(huì)官方微信公眾號(hào)收集遴選。陳院士對(duì)這些問(wèn)題做了詳細(xì)的回答。

點(diǎn)擊此處觀(guān)看全國(guó)科普日科普?qǐng)?bào)告視頻回放



數(shù)學(xué)會(huì)獎(jiǎng)項(xiàng)

華羅庚獎(jiǎng)

華羅庚先生是我國(guó)著名數(shù)學(xué)家

華羅庚先生是我國(guó)著名數(shù)學(xué)家,他熱愛(ài)祖國(guó),獻(xiàn)身科學(xué)事業(yè),一生為發(fā)展我國(guó)的數(shù)學(xué)事業(yè)和培養(yǎng)人才做出了卓越貢獻(xiàn)。

陳省身獎(jiǎng)

陳省身教授是一位國(guó)際數(shù)學(xué)大師

國(guó)際數(shù)學(xué)大師陳省身教授是美籍華裔數(shù)學(xué)家、中國(guó)科學(xué)院外籍院士。他非常關(guān)心祖國(guó)數(shù)學(xué)事業(yè)的發(fā)展,幾十年來(lái)在發(fā)展我國(guó)數(shù)學(xué)事業(yè)、培養(yǎng)數(shù)學(xué)人才等方面做了大量工作。

鐘家慶獎(jiǎng)

鐘家慶教授生前對(duì)祖國(guó)數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)切

鐘家慶教授生前對(duì)祖國(guó)數(shù)學(xué)事業(yè)的發(fā)展極其關(guān)注,并為之拚搏一生。為了紀(jì)念并實(shí)現(xiàn)他發(fā)展祖國(guó)數(shù)學(xué)事業(yè)的遺愿,數(shù)學(xué)界有關(guān)人士于1987年共同籌辦了鐘家慶基金,并設(shè)立了鐘家慶數(shù)學(xué)獎(jiǎng),委托中國(guó)數(shù)學(xué)會(huì)承辦。

關(guān)注微信

掃描二維碼關(guān)注

京ICP備17012431號(hào)-1   京公網(wǎng)安備 110402430128號(hào) 版權(quán)所有:中國(guó)數(shù)學(xué)會(huì)  法律法規(guī) | OA/ERP系統(tǒng)