己亥之末,庚子之初,正當(dāng)中國(guó)人民歡度春節(jié)之時(shí),一場(chǎng)由武漢引發(fā)的新型冠狀病毒肺炎,席卷全國(guó)、影響世界。瞬間,人們談“疫”色變,足不出戶(hù),徹底打亂了原有的生活和生產(chǎn)秩序。對(duì)于SARS病毒有記憶的人來(lái)說(shuō),這又是一次不同尋常的經(jīng)歷。好在有黨中央的堅(jiān)強(qiáng)領(lǐng)導(dǎo),疫情已得到有效的遏制。但在疫情防控過(guò)程中,人們不禁會(huì)問(wèn)這樣一些問(wèn)題:這次疫情是怎么引起的?與SARS病毒有沒(méi)有不同?有什么醫(yī)治良策?會(huì)傳染多少人?會(huì)持續(xù)多長(zhǎng)時(shí)間?會(huì)對(duì)2020年的經(jīng)濟(jì)產(chǎn)生什么影響?如果前三個(gè)問(wèn)題屬于病毒學(xué)、傳染病學(xué)專(zhuān)家和醫(yī)生需要研究的問(wèn)題,那么后三個(gè)問(wèn)題則與統(tǒng)計(jì)學(xué)有關(guān),需要統(tǒng)計(jì)學(xué)專(zhuān)家參與研究。
盡管疫情令人沮喪,但我國(guó)統(tǒng)計(jì)學(xué)者的表現(xiàn)卻值得稱(chēng)贊。我根據(jù)微信中的信息,就發(fā)現(xiàn)有曾五一、李寶瑜、柯惠新、王漢生、朱建平、呂光明、許永洪、馬丹等統(tǒng)計(jì)學(xué)教授,或單獨(dú),或團(tuán)隊(duì),在居家躲“疫”、不給國(guó)家添亂的同時(shí),拿起了統(tǒng)計(jì)武器,以一種特殊的方式投入到了抗擊疫情之戰(zhàn)。他們根據(jù)媒體上公布的關(guān)于疫情的有關(guān)數(shù)據(jù),進(jìn)行統(tǒng)計(jì)整理,編制統(tǒng)計(jì)表和統(tǒng)計(jì)圖,觀(guān)察各數(shù)據(jù)的變化情況,分析各數(shù)據(jù)之間的關(guān)系,研判未來(lái)的發(fā)展趨勢(shì),預(yù)測(cè)拐點(diǎn)出現(xiàn)的時(shí)間,體現(xiàn)了統(tǒng)計(jì)人憂(yōu)國(guó)家之憂(yōu)、做專(zhuān)業(yè)之事的擔(dān)當(dāng)精神。我本也想做點(diǎn)分析預(yù)測(cè),但無(wú)奈特殊時(shí)期有特殊的公務(wù),再加上對(duì)醫(yī)學(xué)領(lǐng)域知識(shí)不熟悉,所以只好作罷。但我每天都在關(guān)注官方媒體公布的疫情數(shù)據(jù),更是認(rèn)真拜讀同行們?cè)谖⑿派戏窒淼姆治鲅芯砍晒?梢钥闯觯蠹易龇治鲅芯恳呀?jīng)盡了最大的努力,但由于視角不同,所采用的核心指標(biāo)不完全一樣,具體方法也有差異,所以結(jié)論也有差別。這些差異或不同,引起了更多人的關(guān)注,同仁們紛紛參與討論,提出自己的看法。這樣的討論,既緊扣疫情這一殘酷的現(xiàn)實(shí),又引發(fā)了學(xué)術(shù)上的思考,可以作為一個(gè)很好的教學(xué)案例。在此,我也談點(diǎn)個(gè)人的思考。
首先,疫情的傳染規(guī)律能否用統(tǒng)計(jì)數(shù)據(jù)反映出來(lái),能否對(duì)其發(fā)展趨勢(shì)進(jìn)行預(yù)測(cè)?我國(guó)官方(國(guó)家衛(wèi)健委)是從1月21日起公布疫情數(shù)據(jù)的(截止至20日24點(diǎn)),此后每日更新數(shù)據(jù),包括當(dāng)日新增確診病例數(shù)、累計(jì)確診病例數(shù)、當(dāng)日新增疑似病例數(shù)、累計(jì)疑似病例數(shù)、當(dāng)日治愈出院人數(shù)、累計(jì)治愈出院人數(shù)、重癥病例數(shù)、當(dāng)日死亡人數(shù)、累計(jì)死亡人數(shù)等數(shù)據(jù),2月12日增加了臨床診斷病例數(shù)。應(yīng)該說(shuō),這些數(shù)據(jù)覆蓋面全,一定程度上反映了各類(lèi)情況的變化,因而每天都受到公眾的熱切關(guān)注。大家所做的疫情分析也是以這些數(shù)據(jù)為依據(jù)的。但是,大家討論中提到了一個(gè)問(wèn)題,那就是這些數(shù)據(jù)是否真實(shí)、及時(shí)、完整?是否做到了應(yīng)統(tǒng)盡統(tǒng)、應(yīng)計(jì)盡計(jì)?如果所有數(shù)據(jù)都是建立在全面篩查的基礎(chǔ)上,那么它們是可信的,是能夠反映疫情發(fā)展變化規(guī)律的,是可以據(jù)以進(jìn)行趨勢(shì)判斷與預(yù)測(cè)的。
但事發(fā)突然,一方面由于公眾開(kāi)始時(shí)對(duì)本次冠狀病毒的傳染性認(rèn)識(shí)不足,另一方面由于篩查和確診病人的能力有限,因此官方所掌握的數(shù)據(jù)僅僅是納入到了篩查范圍的部分。特別是2月12日以前的確診病例數(shù),只是經(jīng)過(guò)了核酸檢查確認(rèn)的數(shù)據(jù),許多事實(shí)上已經(jīng)是受病毒感染的病人由于得不到及時(shí)的核酸檢測(cè)而被統(tǒng)計(jì)在了疑似病例數(shù)里。2月12日的新增確診病例數(shù)之所以一下子由11日的2015例猛增為14840例,就是因?yàn)榇_診的方式和標(biāo)準(zhǔn)變了,它包括了臨床診斷病例數(shù),而疑似病例數(shù)則大為下降。所以,我們可以發(fā)現(xiàn),確診病例數(shù)一是滯后的,二是少算了(可能個(gè)別地方還有故意瞞報(bào)的)。與此同時(shí),我們也注意到,隨著對(duì)新型冠狀病毒的認(rèn)識(shí)逐步深入,國(guó)家也在不斷調(diào)整診療方案,已推出第五版,即確診標(biāo)準(zhǔn)從“已得病毒肺炎”逐步調(diào)整為“已染冠狀病毒”。所以,每一次診療標(biāo)準(zhǔn)的變化,上述相關(guān)數(shù)據(jù)在不同日子的實(shí)際含義是不一樣的。
由此,由每天上述數(shù)據(jù)構(gòu)成的時(shí)間序列,實(shí)際上不是一個(gè)可比的時(shí)間序列。依據(jù)不可比的時(shí)間序列做統(tǒng)計(jì)分析、尤其是趨勢(shì)預(yù)測(cè)分析,結(jié)果自然是不穩(wěn)定的,出入也是大的。當(dāng)然,這不是說(shuō)我們就束手無(wú)策、不能搞分析預(yù)測(cè)了,前提是要對(duì)時(shí)序數(shù)據(jù)進(jìn)行倒推調(diào)整,以使每天的數(shù)據(jù)在診療標(biāo)準(zhǔn)、口徑范圍上可比或總體可比。此外,我們還要注意上述數(shù)據(jù)之間的動(dòng)態(tài)平衡關(guān)系,即有關(guān)數(shù)據(jù)在邏輯上能否相互支撐、相互印證而不是相互矛盾。
其次,我們開(kāi)展疫情分析和趨勢(shì)預(yù)測(cè),該用什么指標(biāo)?該用什么方法?上述所列數(shù)據(jù)有9個(gè),無(wú)疑,我們?cè)谧鼋y(tǒng)計(jì)分析時(shí),一定要把所有9個(gè)指標(biāo)都納入分析框架,因?yàn)樗鼈兪窍嗷リP(guān)聯(lián)的一個(gè)整體,構(gòu)成了統(tǒng)計(jì)指標(biāo)體系。但是,哪一個(gè)是核心指標(biāo)?是確診病例數(shù)還是疑似病例數(shù)或是死亡人數(shù)?是新增數(shù)還是累計(jì)數(shù)?這就要從病毒的特性著手。具有傳染性的病毒,我們需要關(guān)注其傳染能力強(qiáng)不強(qiáng)(病毒學(xué)上有一個(gè)指標(biāo)叫基本傳染數(shù)R0,數(shù)值大于0就具有傳染力。本次新型冠狀病毒的R0值,有的研究認(rèn)為2.2,有的認(rèn)為高達(dá)4)、潛伏期長(zhǎng)不長(zhǎng)(本次病毒的潛伏期,專(zhuān)家認(rèn)為最長(zhǎng)14天)、致死率高不高(本次疫情死亡率大約為2.2%,其中武漢大約5-6%)這三個(gè)基本方面。
疫情防控,減少死亡率是目標(biāo),隔阻傳染途徑、防住疑似病例數(shù)、控住確診病例數(shù)是重點(diǎn),全力診治、減少重癥病例數(shù)是關(guān)鍵。所以,到底哪個(gè)是核心指標(biāo)、是一個(gè)核心指標(biāo)還是數(shù)個(gè)核心指標(biāo),我認(rèn)為對(duì)于不同的病毒是不一樣的,要具體問(wèn)題具體分析。在數(shù)據(jù)及時(shí)準(zhǔn)確、可比的前提下,從疑似病例數(shù)、到確診病例數(shù)、再到重癥病例數(shù)、最后到死亡人數(shù),應(yīng)該存在一個(gè)比較穩(wěn)定的比例關(guān)系,它們的變化趨勢(shì)應(yīng)該是基本一致的。李寶瑜教授就是用比例系數(shù)由疑似病例數(shù)來(lái)預(yù)測(cè)確診病例數(shù)的。本次疫情與2003年的SARS病毒相比,死亡率低一些,但傳染性高一些,因此我認(rèn)為以疑似病例數(shù)或者同時(shí)以疑似病例數(shù)和確診病例數(shù)作為核心指標(biāo)是合適的。
至于該用什么方法進(jìn)行統(tǒng)計(jì)分析和趨勢(shì)預(yù)測(cè),我認(rèn)為選擇是多樣化的,不同的學(xué)者可以基于自身的學(xué)科背景、專(zhuān)業(yè)知識(shí)和學(xué)術(shù)特長(zhǎng),采用自認(rèn)為合適的方式方法開(kāi)展分析研究工作。但有一條標(biāo)準(zhǔn),那就是必須以問(wèn)題為導(dǎo)向、以數(shù)據(jù)為核心、以符合事實(shí)為目標(biāo)。也就是最后看結(jié)論是否符合事實(shí)、是否符合邏輯、能否解釋疑問(wèn)。無(wú)疑,困難在于如何量化疫情的不確定性。曾五一、李寶瑜等教授的分析預(yù)測(cè),方法比較簡(jiǎn)單,但緊扣問(wèn)題,緊跟數(shù)據(jù),能牢牢抓住問(wèn)題的本質(zhì)及其數(shù)量關(guān)系。真正的高手能夠用簡(jiǎn)潔的方法從有限的數(shù)據(jù)中看出問(wèn)題。也有學(xué)者通過(guò)構(gòu)建數(shù)學(xué)模型來(lái)分析研判疫情的發(fā)展趨勢(shì),想回答大家一致關(guān)心的“拐點(diǎn)何時(shí)到來(lái)”這一焦點(diǎn)問(wèn)題,我認(rèn)為這也值得充分肯定。但不能忽略如下兩個(gè)問(wèn)題:一是時(shí)序的長(zhǎng)度、疫情相關(guān)數(shù)據(jù)特征是否符合建模的基本要求?模型能否體現(xiàn)病毒的傳染特性(有沒(méi)有二代傳染、三代傳染…,傳染性增強(qiáng)還是遞減)?二是數(shù)學(xué)上的拐點(diǎn)含義與公眾所理解的拐點(diǎn)是否一個(gè)意思?怎么解釋?zhuān)恳驗(yàn)楣婈P(guān)注的現(xiàn)實(shí)問(wèn)題不是純學(xué)術(shù)問(wèn)題,需要我們用公眾能接受的語(yǔ)言和理解來(lái)解惑釋疑。
第三,能否利用大數(shù)據(jù)技術(shù)開(kāi)展疫情防控和分析?基于目前的信息技術(shù)和公眾使用智能化手機(jī)的普及程度,我認(rèn)為利用大數(shù)據(jù)技術(shù)來(lái)開(kāi)展疫情分析和防控是完全可行的。如果我們能夠利用大數(shù)據(jù)技術(shù)在第一時(shí)間掌握全部的疑似病例和確診病例等數(shù)據(jù)及其每日變化和區(qū)域分布情況,那么我們所做的疫情統(tǒng)計(jì)分析、趨勢(shì)預(yù)測(cè)就會(huì)有效得多。事實(shí)上,我們已經(jīng)在一定程度上利用大數(shù)據(jù)技術(shù)了。例如,利用高鐵、飛機(jī)、公交車(chē)的乘客數(shù)據(jù)追蹤病源及其接觸人員,政府機(jī)構(gòu)、企事業(yè)單位自主開(kāi)發(fā)網(wǎng)絡(luò)系統(tǒng)全面收集員工的身體健康狀況信息等等,都屬于大數(shù)據(jù)技術(shù)的應(yīng)用。
為了全面、動(dòng)態(tài)、及時(shí)了解市民的身體狀況,杭州市2月11日上線(xiàn)了一個(gè)健康碼系統(tǒng),要求所有市民和擬進(jìn)入杭州的人員在線(xiàn)填寫(xiě)姓名、身份證號(hào)碼及與本次疫情有關(guān)的信息,然后自動(dòng)生成或紅或黃或綠的健康碼。不誠(chéng)實(shí)填寫(xiě)者,一經(jīng)發(fā)現(xiàn)即給予嚴(yán)肅處理。其中,紅碼者需要集中隔離或居家隔離14天,黃碼者需要集中隔離或居家隔離7天,綠碼者在市內(nèi)掃碼通行。一旦出現(xiàn)疑似病例或確診病例,可以第一時(shí)間掌握相關(guān)信息。這一利用大數(shù)據(jù)思維和技術(shù)的做法得到了社會(huì)的一致肯定和好評(píng)。
?疫情防控需統(tǒng)計(jì),或繁或簡(jiǎn)總相宜。只要我們統(tǒng)計(jì)人敢于擔(dān)當(dāng),那么任何時(shí)候都可以發(fā)出我們科學(xué)理性的聲音!
作者:李金昌?未一統(tǒng)計(jì) 本文已刊登于《中國(guó)統(tǒng)計(jì)》2020年第2期