由阿里數據委員會(huì )和阿里研究院主辦的“2014西湖品學(xué)”大數據峰會(huì )于3月7日在杭州舉行。會(huì )上,中國氣象局紀曉峰發(fā)表了《氣象大數據的商業(yè)服務(wù)與研究》的演講。紀曉峰表示,在過(guò)去服務(wù)中,氣象局提供天氣預報,不知道行業(yè)怎么用,行業(yè)拿了天氣預報也不知道應該怎么用,這困擾了氣象系統十幾年,現在大數據時(shí)代來(lái)了,終于看到了這個(gè)問(wèn)題改變的希望。
以下為紀曉峰的演講整理:
今天非常高興有機會(huì )在這里和大家分享一些我們的服務(wù)經(jīng)驗和一些美好愿景。我來(lái)自中國氣象局,中國改革開(kāi)放以來(lái)經(jīng)濟不斷發(fā)展,各種極端天氣現象和天氣災害越來(lái)越多,社會(huì )各界越來(lái)越關(guān)注天氣服務(wù),過(guò)去很長(cháng)一段時(shí)間我們?yōu)槟茉?、交通、媒體、風(fēng)險、商品銷(xiāo)售提供中長(cháng)期的監測和報道。但是在過(guò)去服務(wù)中發(fā)現一個(gè)問(wèn)題,我們提供了天氣預報,不知道行業(yè)怎么用,行業(yè)拿了我們的天氣預報也不知道應該怎么用,這困擾了氣象系統十幾年,現在大數據時(shí)代來(lái)了,我覺(jué)得自己生有逢時(shí),看到了這件事改變的希望。
氣象數據是什么?
大家看到的每天網(wǎng)上或者是電視上看到的天氣預報,后面其實(shí)有非常大的數據級,包括每天有2000多個(gè)地面站、120多個(gè)高空探測站、440多個(gè)雷達站、6顆在軌衛星、5萬(wàn)多個(gè)自動(dòng)監測站、600多個(gè)農業(yè)監測站、300多個(gè)雷達站、90多個(gè)酸雨監測站……這些數據逐天逐小時(shí)甚至到逐分鐘掃描著(zhù)中國發(fā)生的各種各樣的天氣數據,中國海陸空的天氣情況幾乎可以建成一張虛擬數字網(wǎng)絡(luò ),我們做氣象的每天看到這樣的數據覺(jué)得非??蓯?ài)。
每日監測數據能做什么?
我們拿到這些每天監測的數據要做什么呢?比如說(shuō)我們拿到雷達,會(huì )把雷達繪制成圖片,用它來(lái)觀(guān)測臺風(fēng)和霧霾的范圍;雷達的一些氣象還可以變成地面的溫度、濕度形式;通過(guò)一些算法模型能夠預測大量農作物的長(cháng)勢,比如說(shuō)每天掃全球的時(shí)候關(guān)注到南美的大豆、北美的小麥和玉米,觀(guān)測到烏克蘭的玉米和小麥的產(chǎn)量,預測未來(lái)一年整個(gè)糧食形勢——這是一個(gè)宏觀(guān)數據。
為了拿到雷達數據,我們要從500米到幾千米的高空不斷掃描,看空氣中的水汽含量,這些數據是6分鐘一次,可以預測風(fēng)電的發(fā)電情況,可以為航空提供負責細致的服務(wù)。
這幾年,國家不斷提供了建設,在密集地面通過(guò)一些差值算法我們組成了中國1公里*1公里知道地面的數據,可以知道哪些地方是大雨等等。另外,國際氣象數據交換,通過(guò)一些國際數據可以了解到中國的小氣候環(huán)境和全球大環(huán)境,進(jìn)行數據優(yōu)化。
在過(guò)去,拿到這些數據以后,我們用數據的方法就是統計。比如說(shuō)像剛才主持人說(shuō)的陰雨綿綿,我們可以知道全國多少天降水分布在什么地方,形成了五年積累數據的氣侯分布。在過(guò)去的氣象大數據里面,我們拿到剛才說(shuō)的數據統計,把這些數據統計成我們需要的模式,然后人工經(jīng)驗和模擬,把結果帶到模型里面,天天做天氣預報其實(shí)就是數數,就是玩數字游戲,建立數字模型。
在新時(shí)代里,我們看到了國外一直在傳說(shuō)的大數據服務(wù),國外一些走得比較前面的氣象服務(wù)公司給了我們很好的建議,傳說(shuō)大數據在國外是價(jià)值連城,很多公司會(huì )把所有地區和商品的銷(xiāo)量和天氣做對比分析,尋找他們的正相關(guān)和負相關(guān),發(fā)現他們最暢銷(xiāo)的是藍莓烤面包。比如說(shuō)一方面是天氣發(fā)生的時(shí)候,商場(chǎng)里面沒(méi)有水或者是其他的東西,也許這個(gè)東西真的賣(mài)得很好,但是季節分布很明顯,可以提前有備貨。我們了解到一個(gè)案例是美國一個(gè)EMC的保險公司,它在國外做冰雹的保險,發(fā)現冰雹造成的災害很多,他們統計了很多數據發(fā)現這個(gè)地區的冰雹災害不斷降低,通過(guò)這個(gè)發(fā)現很多數據,是用這樣的方式不斷避免不必要的騙保,在美國也有很多電子公司也關(guān)注氣象數據。
氣象數據的大作用
在諸多案例里面,氣象大數據也就是氣象數據加上行業(yè)數據等于事情能夠發(fā)生的變化規律和對未來(lái)的一些預測,氣象數據能做這樣的事情是因為客觀(guān)、穩定,而且量非常大。而且氣象數據和各行各業(yè)的相關(guān)性非常高,氣象對環(huán)境造成的影響是70%,過(guò)去說(shuō)預測就是觀(guān)天象,一個(gè)是看天,還有就是氣象。
在現代一些系統內的學(xué)者和社會(huì )上的學(xué)者研究,我們發(fā)現氣象通過(guò)大數據的應用有非常大的應用,比如說(shuō)能源,可以觀(guān)測到電力負荷歷史,加上氣象條件進(jìn)行用電量估算,農業(yè)也是一樣,建筑行業(yè)也是,通過(guò)工期歷史加上歷史天氣就可以知道工期預測;還有交通,航班準點(diǎn)率歷史加上機場(chǎng)歷史天氣,就可以航班延誤預測,準確性非常高;還有公共衛生,通過(guò)門(mén)診量和藥品銷(xiāo)量加上氣象歷史就可以知道發(fā)病率預測;在飲品方面,通過(guò)銷(xiāo)量和溫度就可以知道銷(xiāo)量預測;在生產(chǎn)方面,通過(guò)經(jīng)濟數據加上氣象條件可以知道中國宏觀(guān)經(jīng)濟判斷條件,這是技術(shù)性比較成熟;還有旅游,我們通過(guò)有客對旅游景區的評價(jià)和評價(jià)條件可以知道什么樣的景區適合什么天氣旅游。
氣象數據的應用案例
通過(guò)對之前的研究,我們也做了一些小小的實(shí)踐,因為實(shí)踐時(shí)間比較短,經(jīng)驗不太成熟,希望大家批評指正。去年我們和安聯(lián)進(jìn)行了“賞月險”的研究,安聯(lián)的保險沒(méi)有進(jìn)行精算,因為沒(méi)有這個(gè)城市陰天或者影響賞月天氣的概率,所以不知道賠多少錢(qián),所以只能是拍腦袋算。同時(shí),他們通過(guò)天氣網(wǎng)站來(lái)進(jìn)行判責,這個(gè)判責是不準備的。另外,我們做了喜陽(yáng)陽(yáng)的產(chǎn)品,就是用30年的歷史數據和安聯(lián)精算部門(mén)進(jìn)行了合作,通過(guò)降水概率知道哪些城市在春節期間降水可以,得出賠償。未來(lái)我們構想,保險服務(wù)很有可能是做保險理賠數據和天氣數據進(jìn)行對比,能夠實(shí)時(shí)得出到底是什么樣的天氣造成了什么樣的理賠,這樣還是相對比較有價(jià)值的。
還有就是對藥品,西安楊森有一款息斯敏的藥,他們和我們合作,可以通過(guò)天氣歷史數據預測這個(gè)地區的過(guò)敏源,得出的結果是非常理想。比如說(shuō)在北京三四月份的時(shí)候連續幾天溫度低溫,馬上就會(huì )造成非常嚴重的過(guò)敏問(wèn)題。
雙十一,過(guò)去我們和阿里巴巴進(jìn)行了嘗試,比如說(shuō)去年雙十一的時(shí)候,我們把天氣對道路交通的影響,分為三個(gè)等級和快遞到達時(shí)間得出了結論分析。
氣象數據分析目前存在的難度
過(guò)去我們發(fā)現大數據在商業(yè)應用的問(wèn)題,比如說(shuō)數據壁壘,我們需要建立雙方的環(huán)境進(jìn)行數據融合,也許各個(gè)行業(yè)的數據都需要分析。氣象數據的相關(guān)性也比較難找,也許是單一的,也許是多樣的,分析到底是什么原因造成的需要非常大量的數據不斷優(yōu)化、不斷完善,我們也設想找一個(gè)中心線(xiàn),把氣象數據進(jìn)行主觀(guān)分類(lèi),比如說(shuō)到底什么是熱天,在過(guò)去沒(méi)有明確的定義,我們嘗試和SNS合作,看什么樣的形成網(wǎng)友發(fā)狀態(tài)說(shuō)“熱”,就把它定義為“熱”。
相關(guān)閱讀