一、大數據的初步理解
似乎一夜之間,大數據(Big Data)變成一個(gè)IT行業(yè)中最時(shí)髦的詞匯。
首先,大數據不是什么完完全全的新生事物,Google的搜索服務(wù)就是一個(gè)典型的大數據運用,根據客戶(hù)的需求,Google實(shí)時(shí)從全球海量的數字資產(chǎn)(或數字垃圾)中快速找出最可能的答案,呈現給你,就是一個(gè)最典型的大數據服務(wù)。只不過(guò)過(guò)去這樣規模的數據量處理和有商業(yè)價(jià)值的應用太少,在IT行業(yè)沒(méi)有形成成型的概念?,F在隨著(zhù)全球數字化、網(wǎng)絡(luò )寬帶化、互聯(lián)網(wǎng)應用于各行各業(yè),累積的數據量越來(lái)越大,越來(lái)越多企業(yè)、行業(yè)和國家發(fā)現,可以利用類(lèi)似的技術(shù)更好地服務(wù)客戶(hù)、發(fā)現新商業(yè)機會(huì )、擴大新市場(chǎng)以及提升效率,才逐步形成大數據這個(gè)概念。
有一個(gè)有趣的故事是關(guān)于奢侈品營(yíng)銷(xiāo)的。PRADA在紐約的旗艦店中每件衣服上都有RFID碼。每當一個(gè)顧客拿起一件PRADA進(jìn)試衣間,RFID會(huì )被自動(dòng)識別。同時(shí),數據會(huì )傳至PRADA總部。每一件衣服在哪個(gè)城市哪個(gè)旗艦店什么時(shí)間被拿進(jìn)試衣間停留多長(cháng)時(shí)間,數據都被存儲起來(lái)加以分析。如果有一件衣服銷(xiāo)量很低,以往的作法是直接干掉。但如果RFID傳回的數據顯示這件衣服雖然銷(xiāo)量低,但進(jìn)試衣間的次數多。那就能另外說(shuō)明一些問(wèn)題。也許這件衣服的下場(chǎng)就會(huì )截然不同,也許在某個(gè)細節的微小改變就會(huì )重新創(chuàng )造出一件非常流行的產(chǎn)品。
還有一個(gè)是關(guān)于中國糧食統計的故事。中國的糧食統計是一個(gè)老大難的問(wèn)題。中國的統計,雖然有組織、有流程、有法律,但中央的統計人員依靠省統計人員,省靠市,市靠縣,縣靠鎮,鎮靠村,最后真正干活或上報的是基層兼職的調查人員,由于眾所周知的KPI考核導向的原因,層層加碼,幾乎沒(méi)有人相信這個(gè)調查數據,而其中國家統計局的人是最不信的。在前兩年北京的一個(gè)會(huì )議上,原國家統計局總經(jīng)濟師姚景源向我們講述了他們是如何做的。他們采用遙感衛星,通過(guò)圖像識別,把中國所有的耕地標識、計算出來(lái),然后把中國的耕地網(wǎng)格化,對每個(gè)網(wǎng)格的耕地抽樣進(jìn)行跟蹤、調查和統計,然后按照統計學(xué)的原理,計算(或者說(shuō)估算)出中國整體的整體糧食數據。這種做法是典型采用大數據建模的方法,打破傳統流程和組織,直接獲得最終的結果。
最后是一個(gè)炒股的故事。這個(gè)故事來(lái)自于2011年好萊塢的一部高智商電影《永無(wú)止境》,講述一位落魄的作家庫珀,服用了一種可以迅速提升智力的神奇藍色藥物,然后他將這種高智商用于炒股。庫珀是怎么炒股的呢?就是他能在短時(shí)間掌握無(wú)數公司資料和背景,也就是將世界上已經(jīng)存在的海量數據(包括公司財報、電視、幾十年前的報紙、互聯(lián)網(wǎng)、小道消息等)挖掘出來(lái),串聯(lián)起來(lái),甚至將Face Book、Twitter的海量社交數據挖掘得到普通大眾對某種股票的感情傾向,通過(guò)海量信息的挖掘、分析,使一切內幕都不是內幕,使一切趨勢都在眼前,結果在10天內他就贏(yíng)得了200萬(wàn)美元,神奇的表現讓身邊的職業(yè)投資者目瞪口呆。這部電影簡(jiǎn)直是展現大數據魔力的教材性電影,推薦沒(méi)有看過(guò)的IT人士看一看。
從這些案例來(lái)看,大數據并不是很神奇的事情。就如同電影《永無(wú)止境》提出的問(wèn)題:人類(lèi)通常只使用了20%的大腦,如果剩余80%大腦潛能被激發(fā)出來(lái),世界會(huì )變得怎樣?在企業(yè)、行業(yè)和國家的管理中,通常只有效使用了不到20%的數據(甚至更少),如果剩余80%數據的價(jià)值激發(fā)起來(lái),世界會(huì )變得怎么樣呢?特別是隨著(zhù)海量數據的新摩爾定律,數據爆發(fā)式增長(cháng),然后數據又得到更有效應用,世界會(huì )怎么樣呢?
單個(gè)的數據并沒(méi)有價(jià)值,但越來(lái)越多的數據累加,量變就會(huì )引起質(zhì)變,就好像一個(gè)人的意見(jiàn)并不重要,但1千人、1萬(wàn)人的意見(jiàn)就比較重要,上百萬(wàn)人就足以掀起巨大的波瀾,上億人足以改變一切。
數據再多,但如果被屏蔽或者沒(méi)有被使用,也是沒(méi)有價(jià)值的。中國的航班晚點(diǎn)非常多,相比之下美國航班準點(diǎn)情況好很多。這其中,美國航空管制機構一個(gè)的好做法發(fā)揮了積極的作用,說(shuō)起來(lái)也非常簡(jiǎn)單,就是美國會(huì )公布每個(gè)航空公司、每一班航空過(guò)去一年的晚點(diǎn)率和平均晚點(diǎn)時(shí)間,這樣客戶(hù)在購買(mǎi)機票的時(shí)候就很自然會(huì )選擇準點(diǎn)率高的航班,從而通過(guò)市場(chǎng)手段牽引各航空公司努力提升準點(diǎn)率。這個(gè)簡(jiǎn)單的方法比任何管理手段(如中國政府的宏觀(guān)調控手段)都直接和有效。這里多說(shuō)一兩句,過(guò)去一個(gè)暴政國家對內的控制主要是物理上的暴力,就是強力機構權力無(wú)限大,搞國家恐怖主義;而現在一個(gè)暴政國家,主要是就靠壟斷信息、封鎖信息,讓民眾難以獲得廣泛而真實(shí)的信息,從而實(shí)現國家的控制。這個(gè)信息封鎖,就是對大數據的封鎖。
沒(méi)有整合和挖掘的數據,價(jià)值也呈現不出來(lái)?!队罒o(wú)止境》中的庫珀如果不能把海量信息圍繞某個(gè)公司的股價(jià)整合起來(lái)、串聯(lián)起來(lái),這些信息就沒(méi)有價(jià)值。
因此,海量數據的產(chǎn)生、獲取、挖掘及整合,使之展現出巨大的商業(yè)價(jià)值,這就是我理解的大數據。在互聯(lián)網(wǎng)對一切重構的今天,這些問(wèn)題都不是問(wèn)題。因為,我認為大數據是互聯(lián)網(wǎng)深入發(fā)展的下一波應用,是互聯(lián)網(wǎng)發(fā)展的自然延伸。目前,可以說(shuō)大數據的發(fā)展到了一個(gè)臨界點(diǎn),因此才成為IT行業(yè)中最熱門(mén)的詞匯之一。
二、大數據將重構很多行業(yè)的商業(yè)思維和商業(yè)模式
我想以對未來(lái)汽車(chē)行業(yè)的狂野想象來(lái)展開(kāi)這個(gè)題目。
在人的一生中,汽車(chē)是一項巨大的投資。以一部30萬(wàn)車(chē)、七年換車(chē)周期來(lái)算,每年折舊費4萬(wàn)多(這里還不算資金成本),加上停車(chē)、保險、油、維修、保養等各項費用,每年耗費應在6萬(wàn)左右。汽車(chē)產(chǎn)業(yè)也是一個(gè)很長(cháng)產(chǎn)業(yè)鏈的龍頭產(chǎn)業(yè),這個(gè)方面只有房地產(chǎn)可以媲美。
但同時(shí),汽車(chē)產(chǎn)業(yè)鏈是一個(gè)低效率、變化慢的產(chǎn)業(yè)。汽車(chē)一直以來(lái)就是四個(gè)輪子、一個(gè)方向盤(pán)、兩排沙發(fā)(李書(shū)福語(yǔ))。這么一個(gè)昂貴的東西,圍繞車(chē)產(chǎn)生的數據卻少的可憐,行業(yè)產(chǎn)業(yè)鏈之間幾無(wú)任何數據傳遞。
我們在這里狂野地想象一番,如果將汽車(chē)全面數字化,都大數據了,會(huì )產(chǎn)生什么結果?
有些人說(shuō),汽車(chē)數字化,不就是加個(gè)MBB模塊嗎?不,這太小兒科了。在我理想中,數字化意味著(zhù)汽車(chē)可以隨時(shí)聯(lián)上互聯(lián)網(wǎng),意味著(zhù)汽車(chē)是一個(gè)大型計算系統加上傳統的輪子、方向盤(pán)和沙發(fā),意味著(zhù)可以數字化導航、自動(dòng)駕駛,意味著(zhù)你和汽車(chē)相關(guān)的每一個(gè)行動(dòng)都數字化,包括每一次維修、每一次駕駛路線(xiàn)、每一次事故的錄像、每一天汽車(chē)關(guān)鍵部件的狀態(tài),甚至你的每一個(gè)駕駛習慣(如每一次的剎車(chē)和加速)都記錄在案。這樣,你的車(chē)每月甚至每周都可能產(chǎn)生T比特的數據。
好了,我們假設這些數據都可以存儲并分享給相關(guān)的政府、行業(yè)和企業(yè)。這里不討論隱私問(wèn)題帶來(lái)的影響,假設在隱私保護的前提下,數據可以自由分享。
那么,保險公司會(huì )怎么做呢?保險公司把你的所有數據拿過(guò)去建模分析,發(fā)現幾個(gè)重要的事實(shí):一是你開(kāi)車(chē)主要只是上下班,南山到坂田這條線(xiàn)路是非繁華路線(xiàn),紅綠燈很少,這條路線(xiàn)過(guò)去一年統計的事故率很低;你的車(chē)況(車(chē)的使用年限、車(chē)型)好,此車(chē)型在全深圳也是車(chē)禍率較低;甚至統計你的駕駛習慣,加油平均,臨時(shí)剎車(chē)少,超車(chē)少,和周?chē)?chē)保持了應有的車(chē)距,駕駛習慣好。最后結論是你車(chē)型好,車(chē)況好,駕駛習慣好,常走的線(xiàn)路事故率低,過(guò)去一年也沒(méi)有出過(guò)車(chē)禍,因此可以給予更大幅度的優(yōu)惠折扣。這樣保險公司就完全重構了它的商業(yè)模式了。在沒(méi)有大數據支撐之前,保險公司只把車(chē)險客戶(hù)做了簡(jiǎn)單的分類(lèi),一共分為四種客戶(hù),第一種是連續兩年沒(méi)有出車(chē)禍的,第二種過(guò)去一年沒(méi)有出車(chē)禍,第三種過(guò)去一年出了一次車(chē)禍,第四種是過(guò)去一年出了兩次及以上車(chē)禍的,就四種類(lèi)型。這種簡(jiǎn)單粗暴的分類(lèi),就好像女人找老公,僅把男人分為沒(méi)有結過(guò)婚的、結過(guò)一次婚的、結過(guò)二次婚的、結過(guò)三次及以上婚的四種男人,就敢嫁人一樣。在大數據的支持下,保險公司可以真正以客戶(hù)為中心,把客戶(hù)分為成千上萬(wàn)種,每個(gè)客戶(hù)都有個(gè)性化的解決方案,這樣保險公司經(jīng)營(yíng)就完全不同,對于風(fēng)險低的客戶(hù)敢于大膽折扣,對于風(fēng)險高的客戶(hù)報高價(jià)甚至拒絕,一般的保險公司就完全難以和這樣的保險公司競爭了。擁有大數據并使用大數據的保險公司比傳統公司將擁有壓倒性的競爭優(yōu)勢,大數據將成為保險公司最核心的競爭力,因為保險就是一個(gè)基于概率評估的生意,大數據對于準確評估概率毫無(wú)疑問(wèn)是最有利的武器,而且簡(jiǎn)直是量身定做的武器。
在大數據的支持下,4S店的服務(wù)也完全不同了。車(chē)況信息會(huì )定期傳遞到4S店,4S店會(huì )根據情況及時(shí)提醒車(chē)主及時(shí)保養和維修,特別是對于可能危及安全的問(wèn)題,在客戶(hù)同意下甚至會(huì )采取遠程干預措施,同時(shí)還可以提前備貨,車(chē)主一到4S店就可以維修而不用等待。
對于駕駛者來(lái)說(shuō),不想開(kāi)車(chē)的時(shí)候,在大數據和人工智能的支持下,車(chē)輛可以自動(dòng)駕駛,并且對于你經(jīng)常開(kāi)的線(xiàn)路可以自學(xué)習自?xún)?yōu)化。谷歌的自動(dòng)駕駛汽車(chē),為了對周?chē)h(huán)境作出預測,每秒鐘要收集差不多1GB的數據,沒(méi)有大數據的支持,自動(dòng)駕駛是不可想象的;在和周?chē)?chē)輛過(guò)近的時(shí)候,會(huì )及時(shí)提醒車(chē)主避讓;上下班的時(shí)候,會(huì )根據實(shí)時(shí)大數據情況,對于你經(jīng)常開(kāi)車(chē)的線(xiàn)路予以提醒,繞開(kāi)擁堵點(diǎn),幫你選擇最合適的線(xiàn)路;在出現緊急狀況的時(shí)候,比如爆胎,自動(dòng)駕駛系統將自動(dòng)接管,提高安全性(人一輩子可以難以碰到一次爆胎,人在緊急時(shí)的反應往往是災難性的,只會(huì )更糟);到城市中心,尋找車(chē)位是一件很麻煩的事情,但未來(lái)你可以到了商場(chǎng)門(mén)口后,讓汽車(chē)自己去找停車(chē)位,等想要回程的時(shí)候,提前通知讓汽車(chē)自己開(kāi)過(guò)來(lái)接。
車(chē)輛是城市最大最活躍的移動(dòng)物體,是擁堵的來(lái)源,也是最大的污染來(lái)源之一。數字化的車(chē)輛、大數據應用將帶來(lái)很多的改變。紅綠燈可以自動(dòng)優(yōu)化,根據不同道路的擁堵情況自動(dòng)進(jìn)行調整,甚至在很多地方可以取消紅綠燈;城市停車(chē)場(chǎng)也可以大幅度優(yōu)化,根據大數據的情況優(yōu)化城市停車(chē)位的設計,如果配合車(chē)輛的自動(dòng)駕駛功能,停車(chē)場(chǎng)可以革命性演變,可以設計專(zhuān)門(mén)為自動(dòng)駕駛車(chē)輛的停車(chē)樓,地下、地上樓層可以高達幾十層,停車(chē)樓層可以更矮,只要能高于車(chē)高度即可(或者把車(chē)豎起來(lái)停),這樣將對城市規劃產(chǎn)生巨大的影響;在出現緊急情況,如前方塌方的時(shí)候,可以第一時(shí)間通知周?chē)?chē)輛(尤其是開(kāi)往塌方道路的車(chē)輛);現在的燃油稅也可以發(fā)生革命性變化,可以真正根據車(chē)輛的行駛路程,甚至根據汽車(chē)的排污量來(lái)收費,排污量少的車(chē)甚至可以搞碳交易,賣(mài)排放量賣(mài)給高油耗的車(chē);政府還可以每年公布各類(lèi)車(chē)型的實(shí)際排污量、稅款、安全性等指標,鼓勵民眾買(mǎi)更節能、更安全的車(chē)。
電子商務(wù)和快遞業(yè)也可能發(fā)生巨大的變化。運快遞的車(chē)都可以自動(dòng)駕駛,不用趕白天的擁堵的道路,晚上半夜開(kāi),在你家門(mén)口設計自動(dòng)接收箱,通過(guò)密碼開(kāi)啟自動(dòng)投遞進(jìn)去,就好像過(guò)去報童投報一樣。
這么想象下來(lái),我認為,汽車(chē)數字化、互聯(lián)網(wǎng)化、大數據應用、人工智能,將對汽車(chē)業(yè)及相關(guān)的長(cháng)長(cháng)的產(chǎn)業(yè)鏈產(chǎn)生難以想象的巨大變化和產(chǎn)業(yè)革命,具有無(wú)限的想象空間,可能完全被重構。當然,要實(shí)現我所描述的場(chǎng)景,估計至少50年、100年之后的事情了,估計我這輩子是看不到的。
下面一個(gè)想象是圍繞著(zhù)人本身來(lái)展開(kāi)的。人的數字化生存也就是這幾十年的事情。我爺爺奶奶那輩子,是在人生末年的時(shí)候有照片,算是初步在個(gè)人形象方面有了一點(diǎn)數字化,讓我們及后代還可以知道爺爺奶奶的光輝形象。而我們從小就有照片,這些年我們的數字化就越來(lái)越多了,身份是數字的(就是身份證),銀行存款是數字的,照片是全數字,體檢單也數字化,購物數字化(淘寶上有我的幾十個(gè)地址、幾百條購物信息、上萬(wàn)次搜索信息),溝通數字化(微信上有新的朋友圈生態(tài)),初步構建了一個(gè)數字化生存的狀態(tài)。而我們的下一輩或下下一輩將進(jìn)入完全的數字化生存,人從一出生就有基因圖譜,到后續的每一次體檢、每一次化驗,到每一年、每一個(gè)月、每一個(gè)日子的活動(dòng),到相關(guān)親戚的軌跡,從每一個(gè)人,到每一代人,到整個(gè)族譜,到整個(gè)國家,到整個(gè)全球,這些海量數據的產(chǎn)生將從量變到質(zhì)變,這些數據的挖掘與使用將對人類(lèi)本身產(chǎn)生革命性的影響。這里,我們也想象一下:
比如,在你找對象的時(shí)候,碰上一位心愛(ài)的姑娘,大數據系統就像算命系統一樣,根據雙方海量數據的挖掘,告訴你和姑娘匹配指數是多少,告訴你全球類(lèi)似情況的夫妻日后離婚概率是多少,低于某個(gè)匹配指數,大數據系統會(huì )慎重建議你認真考慮不要這個(gè)姑娘繼續交往下去。聽(tīng)起來(lái)是不是特別像門(mén)當戶(hù)對的數字化呢?當然,你可能會(huì )說(shuō),這樣的人生多沒(méi)有意思啊,錯誤本來(lái)就是人生最美麗的一部分。呵呵,我只討論科學(xué)問(wèn)題,對你這種以“浪漫主義”為名,事實(shí)上是不以結婚為目的的耍流氓式的戀愛(ài),不予以理睬。其實(shí),我內心也承認,偶爾耍耍流氓是很好的。呵呵,開(kāi)個(gè)玩笑。
又比如,在你找工作的時(shí)候,可能會(huì )有這么一天,當你面試時(shí),HR會(huì )淡定的告訴你,對不起,經(jīng)過(guò)我們的大數據分析,你歷來(lái)的網(wǎng)貼、微博、微信總體負面情緒過(guò)多,不符合我們企業(yè)陽(yáng)光樂(lè )觀(guān)積極向上的主題,出門(mén)左拐就有地鐵站,慢走。
再比如,在你過(guò)生日的那天,朋友們生日快樂(lè )祝福之后,大數據分析系統會(huì )告訴你,你的生命將進(jìn)入倒計時(shí),根據過(guò)去幾年的身體數字化大數據,根據基因圖譜,根據你親戚的相關(guān)情況統計,你有80%的概率在20年內死去,有30%概率在60歲左右因基因缺陷發(fā)生腦溢血,因此你要改善生活習慣,并重點(diǎn)加強監控腦溢血發(fā)生的可能性。這些事情如果都發(fā)生,會(huì )出現什么情況?第一,估計人類(lèi)的生命普遍將延長(cháng)10年以上,因為很多潛在的突發(fā)性惡性疾病爆發(fā)的概率大幅度降低了。第二,和上面的汽車(chē)故事一樣,保險公司也可以基于大數據重構商業(yè)模型,可以對每個(gè)人的大數據進(jìn)行分析,對每個(gè)人進(jìn)行針對性的保險業(yè)務(wù)設計。第三,藥廠(chǎng)的商業(yè)模式可能也改變了,藥廠(chǎng)擁有你相關(guān)的大數據,可以為你量身定做藥品,西服都能量身定做,藥品為什么不能呢?定制的西服更合身,定制的藥品肯定針對性更強、副作用更少。西服能量身定做,是因為有你三圍的數據,藥品能量身定做也是因為有你身體的數據,道理是一樣的。第四,國家的醫保政策也可能重構,國家能根據大數據系統,分析整體國民素質(zhì),分析老齡化情況,分析養老金系統的承受能力,針對性地增強某些區域的醫療資源,或者動(dòng)態(tài)調整養老保險費率,或者動(dòng)態(tài)調整退休年限等等。
對汽車(chē)產(chǎn)業(yè)和數字化人生的想象告一段落。這里,我想系統回顧一下工業(yè)文明的發(fā)展歷程,首先是物理世界的工業(yè)文明,典型是蒸汽機的發(fā)明,使汽車(chē)、輪船進(jìn)入生活;然后是數字世界的工業(yè)文明,就是IT技術(shù)的使用,使PC及各種電子產(chǎn)品進(jìn)入生活,以及企業(yè)數字化系統的建立,使沃爾瑪這樣的巨型企業(yè)產(chǎn)生成為可能;下一步就是物理世界和數字世界的融合,這也就是業(yè)界熱炒的“工業(yè)互聯(lián)網(wǎng)”、“IT 3.0”,而這里面除了數字技術(shù)在傳統行業(yè)的使用(這個(gè)事實(shí)上已經(jīng)在廣泛使用)、電子商務(wù)在渠道的廣泛推行,更重要的就是大數據的產(chǎn)生及挖掘、使用,使企業(yè)在管理方式、市場(chǎng)機會(huì )挖掘、產(chǎn)品設計、營(yíng)銷(xiāo)、服務(wù)、商業(yè)模式等發(fā)生巨大的變化,這種巨大的變化帶來(lái)了很多行業(yè)的革命性變局,也就是顛覆與改造。這種變化在所謂的低效率的大行業(yè)將最為明顯與直接。這些所謂的的低效率大行業(yè),就是壟斷特征明顯、產(chǎn)業(yè)規模大、產(chǎn)業(yè)鏈長(cháng)、歷史悠久但長(cháng)時(shí)間變化少、IT應用水平低的行業(yè),如汽車(chē)、金融、保險、醫療等。
在這個(gè)章節的最后,我想總結一下自己對大數據的看法。
第一,大數據使企業(yè)真正有能力從以自我為中心改變?yōu)橐钥蛻?hù)為中心。企業(yè)是為客戶(hù)而生,目的是為股東獲得利潤。只有服務(wù)好客戶(hù),才能獲得利潤。但過(guò)去,很多企業(yè)是沒(méi)有能力做到以客戶(hù)為中心的,原因就是相應客戶(hù)的信息量不大,挖掘不夠,系統也不支持,目前的保險業(yè)就是一個(gè)典型。大數據的使用能夠使對企業(yè)的經(jīng)營(yíng)對象從客戶(hù)的粗略歸納(就是所謂提煉歸納的“客戶(hù)群”)還原成一個(gè)個(gè)活生生的客戶(hù),這樣經(jīng)營(yíng)就有針對性,對客戶(hù)的服務(wù)就更好,投資效率就更高。
第二,大數據一定程度上將顛覆了企業(yè)的傳統管理方式?,F代企業(yè)的管理方式是來(lái)源于對軍隊的模仿,依賴(lài)于層層級級的組織和嚴格的流程,依賴(lài)信息的層層匯集、收斂來(lái)制定正確的決策,再通過(guò)決策在組織的傳遞與分解,以及流程的規范,確保決策得到貫徹,確保每一次經(jīng)營(yíng)活動(dòng)都有質(zhì)量保證,也確保一定程度上對風(fēng)險的規避。過(guò)去這是一種有用而笨拙的方式。在大數據時(shí)代,我們可能重構企業(yè)的管理方式,通過(guò)大數據的分析與挖掘,大量的業(yè)務(wù)本身就可以自決策,不必要依靠膨大的組織和復雜的流程。大家都是基于大數據來(lái)決策,都是依賴(lài)于既定的規則來(lái)決策,是高高在上的CEO決策,還是一線(xiàn)人員決策,本身并無(wú)大的區別,那么企業(yè)是否還需要如此多層級的組織和復雜的流程呢?
第三,大數據另外一個(gè)重大的作用是改變了商業(yè)邏輯,提供了從其他視角直達答案的可能性?,F在人的思考或者是企業(yè)的決策,事實(shí)上都是一種邏輯的力量在主導起作用。我們去調研,去收集數據,去進(jìn)行歸納總結,最后形成自己的推斷和決策意見(jiàn),這是一個(gè)觀(guān)察、思考、推理、決策的商業(yè)邏輯過(guò)程。人和組織的邏輯形成是需要大量的學(xué)習、培訓與實(shí)踐,代價(jià)是非常巨大的。但是否這是唯一的道路呢?大數據給了我們其他的選擇,就是利用數據的力量,直接獲得答案。就好像我們學(xué)習數學(xué),小時(shí)候學(xué)九九乘法表,中學(xué)學(xué)幾何,大學(xué)還學(xué)微積分,碰到一道難題,我們是利用了多年學(xué)習沉淀的經(jīng)驗來(lái)努力求解,但我們還有一種方法,在網(wǎng)上直接搜索是不是有這樣的題目,如果有,直接抄答案就好了。很多人就會(huì )批評說(shuō),這是抄襲,是作弊。但我們?yōu)槭裁匆獙W(xué)習啊?不就是為了解決問(wèn)題嘛。如果我任何時(shí)候都可以搜索到答案,都可以用最省力的方法找到最佳答案,這樣的搜索難道不可以是一條光明大道嗎?換句話(huà)說(shuō),為了得到“是什么”,我們不一定要理解“為什么”。我們不是否定邏輯的力量,但是至少我們有一種新的巨大力量可以依賴(lài),這就是未來(lái)大數據的力量。
第四,通過(guò)大數據,我們可能有全新的視角來(lái)發(fā)現新的商業(yè)機會(huì )和重構新的商業(yè)模式。我們現在看這個(gè)世界,比如分析家中食品腐敗,主要就是依賴(lài)于我們的眼睛再加上我們的經(jīng)驗,但如果我們有一臺顯微鏡,我們一下就看到壞細菌,那么分析起來(lái)完全就不一樣了。大數據就是我們的顯微鏡,它可以讓我們從全新視角來(lái)發(fā)現新的商業(yè)機會(huì ),并可能重構商業(yè)模型。我們的產(chǎn)品設計可能不一樣了,很多事情不用猜了,客戶(hù)的習慣和偏好一目了然,我們的設計就能輕易命中客戶(hù)的心窩;我們的營(yíng)銷(xiāo)也完全不同了,我們知道客戶(hù)喜歡什么、討厭什么,更有針對性。特別是顯微鏡再加上廣角鏡,我們就有更多全新的視野了。這個(gè)廣角鏡就是跨行業(yè)的數據流動(dòng),使我們過(guò)去看不到的東西都能看到了,比如前面所述的汽車(chē)案例,開(kāi)車(chē)是開(kāi)車(chē),保險是保險,本來(lái)不相關(guān),但當我們把開(kāi)車(chē)的大數據傳遞到保險公司,那整個(gè)保險公司的商業(yè)模式就全變了,完全重構了。
最后一點(diǎn),我想談的是大數據發(fā)展對IT本身技術(shù)架構的革命性影響。大數據的根基是IT系統。我們現代企業(yè)的IT系統基本上是建立在IOE(IBM小型機、Oracle數據庫、EMC存儲)+Cisco模型基礎上的,這樣的模型是Scale-UP型的架構,在解決既定模型下一定數據量的業(yè)務(wù)流程是適配的,但如果是大數據時(shí)代,很快會(huì )面臨成本、技術(shù)和商業(yè)模式的問(wèn)題,大數據對IT的需求很快就會(huì )超越了現有廠(chǎng)商架構的技術(shù)頂點(diǎn),超大數據增長(cháng)將帶來(lái)IT支出增長(cháng)之間的線(xiàn)性關(guān)系,使企業(yè)難以承受。因此,目前在行業(yè)中提出的去IOE趨勢,利用Scale-out架構+開(kāi)源軟件對Scale-up架構+私有軟件的取代,本質(zhì)是大數據業(yè)務(wù)模型所帶來(lái)的,也就是說(shuō)大數據將驅動(dòng)IT產(chǎn)業(yè)新一輪的架構性變革。去IOE潮流中的所謂國家安全因素,完全是次要的。
所以,美國人說(shuō),大數據是資源,和大油田、大煤礦一樣,可以源源不斷挖出大財富。而且和一般資源不一樣,它是可再生的,是越挖越多、越挖越值錢(qián)的,這是反自然規律的。對企業(yè)如此,對行業(yè)、對國家也是這樣,對人同樣如此。這樣的東西誰(shuí)不喜歡呢?因此,大數據這么熱門(mén),是完全有道理的。
三、新智慧生物的誕生?
下面的想象就更狂野了,真正要實(shí)現,估計至少是我們十輩子或者一百輩子以后的事情。那時(shí)候,我們已經(jīng)是祖宗了哈。大家就當科幻小說(shuō)來(lái)看好了。
從最近一位微軟副總裁的演講說(shuō)起。瑞克·拉希德(Rick Rashid)是微軟研究院的高級副總裁,有一天,他在中國的天津邁上講臺,面對2000名研究者和學(xué)生,要發(fā)表演講,他非常非常緊張。這么緊張是有原因的。問(wèn)題在于,他不會(huì )講中文,而他的翻譯水平以前非常糟糕,似乎注定了這次的尷尬。
“我們希望,幾年之內,我們能夠打破人們之間的語(yǔ)言障礙,”這位微軟研究院的高級副總裁對聽(tīng)眾們說(shuō)。令人緊張的兩秒鐘停頓之后,翻譯的聲音從擴音器里傳了出來(lái)。拉希德繼續說(shuō):“我個(gè)人相信,這會(huì )讓世界變得更加美好。”停頓,然后又是中文翻譯。
他笑了。聽(tīng)眾對他的每一句話(huà)都報以掌聲。有些人甚至流下了眼淚。這種看上去似乎過(guò)于熱情的反應是可以理解的:拉希德的翻譯太不容易了。每句話(huà)都被理解,并被翻譯得天衣無(wú)縫。令人印象最深的一點(diǎn)在于,這位翻譯并非人類(lèi)。
這就是自然語(yǔ)言的機器翻譯,也是長(cháng)期以來(lái)人工智能研究的一個(gè)重要體現。人工智能從過(guò)去到未來(lái)都有清晰而巨大的商業(yè)前景,是以前IT業(yè)的熱點(diǎn),其熱度一點(diǎn)不亞于現在的“互聯(lián)網(wǎng)”和“大數據”。但是,人類(lèi)過(guò)去在推進(jìn)人工智能的研究遇到了巨大的障礙,最后幾乎絕望。
當時(shí)人工智能就是模擬人的智能思考方式來(lái)構筑機器智能。以機器翻譯來(lái)說(shuō),語(yǔ)言學(xué)家和語(yǔ)言專(zhuān)家必須不辭勞苦地編撰大型詞典和與語(yǔ)法、句法、語(yǔ)義學(xué)有關(guān)的規則,數十萬(wàn)詞匯構成詞庫,語(yǔ)法規則高達數萬(wàn)條,考慮各種情景、各種語(yǔ)境,模擬人類(lèi)翻譯,計算機專(zhuān)家再構建復雜的程序。最后發(fā)現人類(lèi)語(yǔ)言實(shí)在是太復雜了,窮舉式的做法根本達不到最基本的翻譯質(zhì)量。這條道路最后的結果是,1960年代后人工智能的技術(shù)研發(fā)停滯不前數年后,科學(xué)家痛苦地發(fā)現以“模擬人腦”、“重建人腦”的方式來(lái)定義人工智能走入一條死胡同,這導致后來(lái)幾乎所有的人工智能項目都進(jìn)入了冷宮。
這里講個(gè)小插曲。我讀大學(xué)的時(shí)候,有個(gè)老師是國內人工智能的頂級教授,還是國內某個(gè)人工智能研究會(huì )的副會(huì )長(cháng)。他評述當時(shí)的人工智能,不是人工智能,而是人工愚蠢,把人類(lèi)簡(jiǎn)單的行為分解、分解再分解,再去笨拙地模擬,不是人怎么聰明怎么學(xué),而是模擬學(xué)習最蠢的人的最簡(jiǎn)單的動(dòng)作。他說(shuō),對于當時(shí)人工智能的進(jìn)步,有些人沾沾自喜,說(shuō)好像登月計劃中人類(lèi)離月亮更進(jìn)一步了,其實(shí),就是站上了一塊石頭對著(zhù)月亮抒情,啊,我離你更近了。他對自己事業(yè)的自我嘲諷,讓我至今記憶非常深刻。
后來(lái)有人就想,機器為什么要向人學(xué)習邏輯呢,又難學(xué)又學(xué)不好,機器本身最強大的是計算能力和數據處理能力,為什么不揚長(cháng)避短、另走一條道路呢?這條道路就是IBM“深藍”走過(guò)的道路。1997年5月11日,國際象棋大師卡斯帕羅夫在和IBM公司開(kāi)發(fā)的計算機“深藍”進(jìn)行對弈時(shí)宣布失敗,計算機“深藍”因此贏(yíng)得了這場(chǎng)意義深遠的“人機對抗”。 “深藍”不是靠邏輯、不靠所謂的人工智能取勝的,就是靠超強的計算能力取勝:思考不過(guò)你,但是算死你。
類(lèi)似的邏輯在后續也用到了機器翻譯上。谷歌、微軟和IBM都走上了這條道路。就是主要采用匹配法,同時(shí)結合機器學(xué)習,依賴(lài)于海量的數據及其相關(guān)相關(guān)統計信息,不管語(yǔ)法和規則,將原文與互聯(lián)網(wǎng)上的翻譯數據對比,找到最相近、引用最頻繁的翻譯結果做為輸出。也就是利用大數據以及機器學(xué)習技術(shù)來(lái)實(shí)現機器翻譯?,F有的數據量越是龐大,那么這個(gè)系統就能越好地運行,這也正是為何新的機器翻譯只有在互聯(lián)網(wǎng)出現以后才有可能重新取得突破性進(jìn)展的原因所在。
因此,目前這些公司機器翻譯團隊中,有不少計算機科學(xué)家,但卻連一個(gè)純粹的語(yǔ)言學(xué)家也沒(méi)有,只要擅長(cháng)數學(xué)和統計學(xué),然后又會(huì )編程,那就可以了。
總而言之,利用這種技術(shù),計算機教會(huì )自己從大數據中建立模式。有了足夠大的信息量,你就能讓機器學(xué)會(huì )做看上去有智能的事情,別管是導航、理解話(huà)語(yǔ)、翻譯語(yǔ)言,還是識別人臉,或者模擬人類(lèi)對話(huà)。英國劍橋微軟研究院的克里斯·畢肖普(Chris Bishop)打了個(gè)比方:“你堆積足夠多的磚塊,然后退上幾步,就能看到一座房子。”
這里我們假設這種技術(shù)能夠持續進(jìn)步,未來(lái)基于大數據和機器學(xué)習基礎上的人工智能達到比較流暢地模擬人類(lèi)對話(huà),就是人類(lèi)可以和機器進(jìn)行比較自如的對話(huà)。事實(shí)上,IBM的“沃森”計劃就是這樣科技工程,比如試圖讓計算機當醫生,能夠對大部分病進(jìn)行診斷,并和病人進(jìn)行溝通。另外,也假設目前剛剛興起的穿戴式計算設備取得巨大的進(jìn)展。這種進(jìn)展到什么程度呢?就是你家的寵物小狗身上也裝上了各種傳感器和穿戴式設備,比如有圖像采集,有聲音采集,有嗅覺(jué)采集,有對小狗的健康進(jìn)行監控的小型醫療設備,甚至還有電子藥丸在小狗的胃中進(jìn)行消化情況監控。小狗當然也聯(lián)上網(wǎng),也一樣產(chǎn)生了巨大的數據量。這時(shí),我們假設基于這些大數據建模,能夠模擬小狗的喜怒哀樂(lè ),然后還能夠通過(guò)擬人化的處理進(jìn)行語(yǔ)音表達,換句話(huà)說(shuō),就是模擬小狗說(shuō)人話(huà),比如主人回家時(shí),小狗搖尾巴,旺旺叫,那么這個(gè)附著(zhù)于小狗身上的人工智能系統就會(huì )說(shuō),“主人,真高興看到你回家”。不僅如此,你還可以和小狗的人工智能系統進(jìn)行對話(huà),因為這個(gè)人工智能系統能基本理解你的意思,又能夠代替小狗擬人化表達。以下我們模擬一下可能的對話(huà):
你:“小狗,今天過(guò)得好?”
小狗:“不錯啊,主人你今天換的新狗糧味道很好,總覺(jué)得沒(méi)有吃夠。”
你:“那很好。我們以后繼續買(mǎi)這種狗糧。對了,今天有什么人來(lái)嗎?”
小狗:“只有郵遞員來(lái)投遞報紙。另外,鄰居家的小狗瑪麗也來(lái)串門(mén),我們一起玩了一下午。”
你:“那你們玩的怎么樣?”
小狗:“很開(kāi)心啊。我好像又進(jìn)入了初戀呢。”
……
我們可以把上面的模擬對話(huà)當成一個(gè)笑話(huà)。但其實(shí),我們這個(gè)時(shí)候就會(huì )發(fā)現一個(gè)驚人的事實(shí),就是你其實(shí)是面對了兩只小狗,一只是物理意義上的小狗,一只是基于大數據和機器學(xué)習的人工智能虛擬小狗,而且虛擬小狗比物理小狗還要聰明,真正善解人意。那么,這個(gè)虛擬小狗是不是新的智慧生物呢?
我們繼續把這個(gè)故事來(lái)做延伸,把小狗換成未來(lái)的人,人在一生中產(chǎn)生大量的數據,根據這些數據建??梢灾苯油蒲莩龊芏嗟慕Y論,比如喜歡看什么樣的電影啊,喜歡什么口味的菜啊,在遇到什么問(wèn)題時(shí)會(huì )怎么采取什么行動(dòng)啊。
這樣的數據一直累積下來(lái),直到這個(gè)人去世。我們有個(gè)大膽的想象,這些巨大的數據能否讓這個(gè)人以某種方式繼續存在下去呢?后代有什么問(wèn)題需要尋求答案的時(shí)候,比如在人生的關(guān)鍵抉擇時(shí),比如大學(xué)要上什么專(zhuān)業(yè)、該不該和某個(gè)姑娘結婚,可不可以問(wèn)問(wèn)這個(gè)虛擬的人(祖先)有什么建議呢?答案是當然可以。在這種情況下,數字化生存不僅在人生前存在,也可以在人死后繼續存在。人死了,可以在虛擬空間中繼續存在。一輩子、一輩子的人故去,這些虛擬的智慧都可以繼續存在,假設很多年過(guò)去了,這些虛擬智慧的祖宗們太多太多了,活著(zhù)的子孫們甚至可以組建一個(gè)“祖宗聯(lián)席參謀委員會(huì )”,優(yōu)選那些考得好的(比如中過(guò)狀元),當過(guò)國家高級公務(wù)員(比如太守)、當過(guò)企業(yè)高管(比如CEO)、當過(guò)教授、當過(guò)作家的等等當過(guò)成功人士的祖宗,專(zhuān)門(mén)用于后代的咨詢(xún)、解惑。讓這些祖宗死后還有競爭,別死了就沒(méi)有事情干了。這個(gè)場(chǎng)景是不是很熟悉啊?就是迪斯尼動(dòng)畫(huà)片《花木蘭》中出現過(guò)的場(chǎng)景啊,花木蘭在面臨是否代父參軍的重大人生時(shí)刻,就向“祖宗聯(lián)席參謀委員會(huì )”傾訴過(guò)困惑,得到了指點(diǎn)。
再更大膽地想象一下,假設材料科學(xué)也取得巨大的進(jìn)展,那我們能不能把這些虛擬的生命重新植入到模擬人類(lèi)的生態(tài)體上呢?當然也可以。這個(gè)新智慧體可非常像真正的人啊。那這算不算人死后復生呢?那這個(gè)新智慧體能不能繼續擁有以前的身份證呢?能不能繼續擁有以前的財產(chǎn)呢?能不能繼續享受養老金呢?是不是也要有強制規定一定的壽命限制呢?這種智慧體會(huì )不會(huì )自學(xué)習、自進(jìn)化?他們會(huì )不會(huì )爆發(fā)和人類(lèi)的戰爭?往深處多想想,感覺(jué)全亂套了,現在的倫理、法律等都面臨巨大的挑戰。
這些說(shuō)明什么呢?就是隨著(zhù)大數據和機器學(xué)習的進(jìn)一步進(jìn)展,這個(gè)世界出現了新的智慧生物!大數據和機器學(xué)習在改變、重構和顛覆很多企業(yè)、行業(yè)和國家以后,終于到了改變人類(lèi)自身的時(shí)候了!人類(lèi)的演進(jìn)出現了新的分支!
有科學(xué)家畫(huà)了下面一張圖,來(lái)描述這兩者智慧生物。一種是基于生物性的,經(jīng)過(guò)幾百萬(wàn)年的進(jìn)化而來(lái);一種是基于IT技術(shù),基于大數據和機器學(xué)習,通過(guò)自模擬、自學(xué)習而來(lái)。前者更有邏輯性,更有豐富的情感,有創(chuàng )造力,但生命有限;后者沒(méi)有很強的邏輯性,沒(méi)有生物上的情感,但有很強的計算、建模和搜索能力,理論上生命是無(wú)限的。
當然,這些事情要發(fā)生都會(huì )非常非常遙遠。反正我們活著(zhù)的時(shí)候是見(jiàn)不到了,死了也見(jiàn)不到,因為我們死的時(shí)候,我相信這種建立在大數據和機器學(xué)習之上的虛擬生命還不會(huì )存在。
四、結束語(yǔ)
我最后想說(shuō)的是,我們對未來(lái)的認知,主要是基于常識和對未來(lái)的想象。根據統計,現在《紐約時(shí)報》一周的信息量比18世紀一個(gè)人一生所收到的資訊量更大,現在18個(gè)月產(chǎn)生的信息比過(guò)去5000年的總和更多,現在我家一臺5000元電腦的計算能力比我剛入大學(xué)時(shí)全校的計算能力更強大??萍嫉倪M(jìn)步在很多的時(shí)候總會(huì )超出我們的想象,試想如果未來(lái)我們一個(gè)人擁有的電腦設備超過(guò)現在全球現在計算能力的總和,一個(gè)人產(chǎn)生的數據量超過(guò)現在全球數據量的總和,甚至你的寵物小狗產(chǎn)生的信息量都超過(guò)現在全球數據量的總和,世界會(huì )發(fā)生什么呢?那就取決于你的想象力了。
對于未來(lái),你想象到什么了呢?
相關(guān)閱讀