企業(yè)能否從移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等網(wǎng)絡(luò )中不斷出現的數據源那里順利發(fā)現并拿到它需要的數據?
在Web頁(yè)面中增加一個(gè)簡(jiǎn)單的意見(jiàn)按鈕,會(huì )不會(huì )讓讀者放棄填寫(xiě)文字評論?同樣是給注冊用戶(hù)發(fā)送郵件通知,是純文字版本、還是圖形化版本獲得的回復率更高呢?
這是Facebook曾經(jīng)面臨的無(wú)數個(gè)用戶(hù)體驗問(wèn)題中的兩個(gè)。要回答這類(lèi)問(wèn)題,最好的辦法只有一個(gè),就是實(shí)際測試一下。
Facebook的確這么做了。他們分別選取了兩組用戶(hù)設計了一次測試。結果證明,增加了意見(jiàn)按鈕后的評論增加了近5%;簡(jiǎn)單的基于文本的電子郵件獲得了比圖形化更豐富的那些電子郵件高出三倍的響應率。
那么,這種測試方法的難點(diǎn)在哪里呢?超大量的社會(huì )化數據(social data)的收集和分析就是這其中最大的困難。
數據顯示,Facebook上現有5億用戶(hù),超過(guò)一半的用戶(hù)每天都登錄。而Neilsen調查指出,Facebook用戶(hù)在該網(wǎng)站上消耗的時(shí)間,比接近它的其他6個(gè)網(wǎng)站上用戶(hù)所花的時(shí)間的總和還多。如此集中的用戶(hù)和用戶(hù)行為無(wú)疑產(chǎn)生巨量的數據回饋。Facebook的工程副總裁Mike Schroepfer指出,如今Facebook已經(jīng)存儲了數十PB的未壓縮數據,每天的數據處理量也可以達到上百TB。
與過(guò)去那些從數據庫等商業(yè)軟件中抽取出的較為規整的數據不同,如今,在諸多社區網(wǎng)站中、各類(lèi)網(wǎng)絡(luò )行為中產(chǎn)生的數據多種多樣。雅虎首席產(chǎn)品官Blake Irving指出,世界上只有5%的數據是結構化的,而非結構化數據一直保持極大的增長(cháng)。事實(shí)上,為了更經(jīng)濟高效地從客戶(hù)端的網(wǎng)絡(luò )行為中抓取數據、分析數據,Facebook、雅虎、淘寶以及像中國移動(dòng)等主流企業(yè)都已經(jīng)紛紛在云計算、數據挖掘等前沿技術(shù)中尋求解決方案。
大數據時(shí)代
時(shí)至今日,“Big data”(大數據)時(shí)代的來(lái)臨已經(jīng)毋庸置疑,尤其是在電信、金融等行業(yè),幾乎已經(jīng)到了“數據就是業(yè)務(wù)本身”的地步。在這其中,還挾裹著(zhù)一個(gè)更為重要的趨勢,即數據的社會(huì )化(Socialization of Data)。從博客論壇到游戲社區再到微博,從互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)再到物聯(lián)網(wǎng),人類(lèi)以及各類(lèi)物理實(shí)體的實(shí)時(shí)聯(lián)網(wǎng)已經(jīng)而且還將繼續產(chǎn)生難以估量的數據。對于時(shí)刻關(guān)注市場(chǎng)走向的企業(yè)來(lái)講,他們需要關(guān)注的數據顯然已經(jīng)不僅限于企業(yè)內部數據庫中的業(yè)務(wù)數據,還要包括互聯(lián)網(wǎng)(以及未來(lái)的物聯(lián)網(wǎng))上各類(lèi)網(wǎng)絡(luò )活動(dòng)所產(chǎn)生的相關(guān)數據記錄。
換句話(huà)說(shuō),如今,一個(gè)完整的企業(yè)數據生態(tài)系統有多個(gè)信息入口,應該包括互聯(lián)網(wǎng)、社交網(wǎng)絡(luò )、Email、呼叫中心等,其中還包括很多諸如圖片、音頻、視頻等非結構化數據。以往人們認為,把企業(yè)自有的運營(yíng)數據進(jìn)行深度分析后,自然會(huì )有所得。但在今天看來(lái),這種做法的一大缺陷就是,數據不夠全面、及時(shí)。從理論上講,掌握的數據越全面,得出的結論就越趨向于合理。在上世紀即流傳開(kāi)來(lái)的“啤酒與尿布”故事之后,企業(yè)只有構建一個(gè)容納了足夠多關(guān)鍵信息的“深水池”,才更有可能做出正確的決策。
這種趨勢已經(jīng)讓很多相信數據之力量的企業(yè)做出改變。
2010年上半年,淘寶網(wǎng)開(kāi)始推出數據魔方服務(wù)。從其服務(wù)頁(yè)面上可以看到,基于淘寶網(wǎng)上億用戶(hù)產(chǎn)生的交易原始數據,數據魔方服務(wù)不但可以提供傳統的熱銷(xiāo)品牌等各類(lèi)排行,還可以對某項產(chǎn)品的交易趨勢、賣(mài)家和買(mǎi)家的信用情況、交易時(shí)段等多種細節進(jìn)行統計分析。如果與沃爾瑪等傳統零售巨頭所能分析的數據相比,淘寶在賣(mài)家和買(mǎi)家的一些軟性資料和溝通細節上顯然掌握了更為豐富的信息。據透露,在近半年的時(shí)間內,淘寶上即有近2萬(wàn)賣(mài)家開(kāi)始通過(guò)數據魔方進(jìn)行參考決策,100多天中總計數據調用260萬(wàn)次。如今,淘寶網(wǎng)在國內外的數據分析領(lǐng)域中已經(jīng)頗具影響力,其數據服務(wù)業(yè)務(wù)在其大淘寶戰略中的地位也將愈發(fā)重要。展望未來(lái),互聯(lián)網(wǎng)、電信、金融等行業(yè)企業(yè)無(wú)疑在數據服務(wù)業(yè)務(wù)方面還有很大的開(kāi)拓空間。
社會(huì )化數據的迅猛增長(cháng)除了讓掌握了這些數據的企業(yè)順勢推出了相關(guān)的數據服務(wù)之外,也直接影響到了數據分析技術(shù)提供商們的發(fā)展戰略。
2010年10月,一直專(zhuān)注于商業(yè)智能技術(shù)的美國公司Teradata就宣布推出新的社交媒體平臺,專(zhuān)門(mén)進(jìn)行與挖掘社會(huì )化數據相關(guān)的信息分享。在面向企業(yè)推出的產(chǎn)品上,則在其主打的數據倉庫產(chǎn)品之外,加入了關(guān)鍵的社會(huì )化數據的抓取和分析功能技術(shù)Hadoop。
“Teradata 的傳統優(yōu)勢在于可以應對數據庫內的海量數據,Hadoop技術(shù)則可以處理來(lái)自互聯(lián)網(wǎng)的大規模數據,現在我們將原有產(chǎn)品和Hadoop技術(shù)整合到一起,可以更好地解決企業(yè)的數據處理問(wèn)題。”Teradata公司首席技術(shù)官Stephen Brobst說(shuō)。
對很多人來(lái)講,Hadoop這樣一個(gè)名詞可能還比較陌生,但實(shí)際上,從Yahoo的 Web搜索研究,到Facebook的數據分析,再到百度的搜索日志分析、淘寶的數據魔方服務(wù),以及中移動(dòng)推出了“大云”(BigCloud)系統,Hadoop的身影都已經(jīng)到處閃現。簡(jiǎn)單來(lái)講,社會(huì )化數據時(shí)代的企業(yè)需要像八爪魚(yú)一樣,能夠發(fā)現并拿到他需要的數據,而Hadoop技術(shù)的好處就是,不但可以方便地嵌入到各種實(shí)際應用中以實(shí)現全文搜索/索引,而且可以進(jìn)行數據抓取。比如雅虎,通過(guò)應用這一技術(shù),幾乎可以實(shí)時(shí)分析每一個(gè)頁(yè)面點(diǎn)擊并優(yōu)化內容的排名,每7分鐘就能更新一次結果。
[page]
數據無(wú)盡頭
如果說(shuō)社會(huì )化數據相對于企業(yè)內部的那些結構化數據來(lái)講算新數據的話(huà),那么,類(lèi)似的新數據在未來(lái)還將不斷增加。
因為移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新網(wǎng)絡(luò )的發(fā)展還在繼續,未來(lái)新的數據源將會(huì )不斷地出現,由此,像GPS數據、移動(dòng)數據、傳感器收集的數據也將會(huì )不停地、大量的產(chǎn)生。
對于企業(yè)的整體數據生態(tài)系統來(lái)講,其實(shí)可以依據私有云和公有云的界定將其所有數據分成兩大部分。對于私有云,更多地體現為企業(yè)內部的傳統結構化數據,在未來(lái)的三到五年內,很多企業(yè)都將會(huì )大力發(fā)展其內部的云計算環(huán)境,像IBM、EMC等公司可以憑借虛擬化技術(shù)、硬件存儲功能為客戶(hù)提供相關(guān)的數據處理方案。
而對于更為廣闊的公有云數據,帶來(lái)的市場(chǎng)空間同樣很大。“隨著(zhù)社會(huì )化數據、非結構數據、大數據的產(chǎn)生,企業(yè)需要將這些數據集中起來(lái),加以分析利用,這也將會(huì )給Teradata這樣的公司帶來(lái)巨大的機會(huì )。”Teradata大中華區總裁辛兒倫(Aaron Hsin)在采訪(fǎng)中如此表示。
比如在能源領(lǐng)域,Teradata就與智能電表供應商Itron公司打造了一個(gè)軟件分析平臺,對使用的數據進(jìn)行分析,解決了能源一旦生產(chǎn)出來(lái)無(wú)法儲存和節約的問(wèn)題。憑借該分析平臺,公用事業(yè)企業(yè)能夠根據預測使用量和實(shí)際使用量對能源進(jìn)行分配。比如,在住宅區域和制造業(yè)密布的區域,電力將采用不同的分配規劃。這一服務(wù)平臺不僅可讓能源企業(yè)獲得能源使用量、虛假信息和能源分配方面的數據,還能根據每個(gè)企業(yè)在每天特定時(shí)間的使用量進(jìn)行定價(jià)和收費,并且更合理地配置能源。
此外,未來(lái)對地理空間數據的應用也是熱點(diǎn)之一。比如零售企業(yè)將地理空間數據與其網(wǎng)點(diǎn)、客戶(hù)數據相結合之后,即可針對其競爭對手推出更具競爭力的布局和促銷(xiāo)活動(dòng)。而汽車(chē)保險行業(yè)則可以用感應器來(lái)收集數據。通過(guò)收集車(chē)輛行駛過(guò)程中的信息,與公路網(wǎng)的地理空間數據重疊起來(lái),就可以對路況不好,經(jīng)常發(fā)生事故的道路進(jìn)行分析和防范。據辛兒倫介紹,目前,國內已經(jīng)有部分客戶(hù)采用了Teradata的地理空間數據解決方案,主要分布在零售業(yè)、保險業(yè)和政府機關(guān)三個(gè)領(lǐng)域。
事實(shí)上,因為在數據挖掘技術(shù)和數據規模上的雙重門(mén)檻,使得這一行業(yè)并不能像過(guò)去賣(mài)出一臺機器或一份軟件許可那樣簡(jiǎn)單。
以Teradata公司為例,雖然2010年經(jīng)濟大勢不好,但是其業(yè)績(jì)增長(cháng)卻非常顯著(zhù)。2010年上半年,Teradata的營(yíng)業(yè)收入增長(cháng)了14%,是其在過(guò)去10年間幅度最大的一次增長(cháng)。之所以如此,一部分原因是,當危機來(lái)臨時(shí),公司試圖通過(guò)數據分析找出問(wèn)題、得出對策的需求更為強烈,另一部分則需要注意到Teradata公司自身所發(fā)生的變化。
與其他IT供應商動(dòng)輒擁有成千上萬(wàn)甚至上百萬(wàn)的客戶(hù)量不同,因為數據規模的前提限制,Teradata手中的客戶(hù)只有一千家左右。這一千家客戶(hù)大都集中在能夠產(chǎn)生巨量數據的電信、金融和互聯(lián)網(wǎng)行業(yè)。要在這一千多家客戶(hù)中開(kāi)拓市場(chǎng),提供持續的數據挖掘服務(wù)顯然比簡(jiǎn)單的出售產(chǎn)品更適合作為一項長(cháng)久的戰略。而在過(guò)去一年中,Teradata為了保證其顧問(wèn)服務(wù),其服務(wù)隊伍規模已經(jīng)擴充了超過(guò)30%。
另外非常值得一提的是,中國市場(chǎng)在數據挖掘領(lǐng)域發(fā)展上的特殊性。與中國的基本國情相關(guān),因為國內人口基數較大,引發(fā)的客戶(hù)數據量也更為龐大。如果我們能樂(lè )觀(guān)地看待這一問(wèn)題的話(huà),那么,不管是出于應對海量數據的需要,還是試圖從這些數據中挖到金子的沖動(dòng),由此迎來(lái)一個(gè)“數據創(chuàng )新”的機會(huì )也并非不可能。
相關(guān)閱讀