云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面


作者:余建斌 趙展慧    時(shí)間:2013-02-22





1.移動(dòng)互聯(lián)時(shí)代,數(shù)以百億計(jì)的機(jī)器、企業(yè)、個(gè)人隨時(shí)隨地都會(huì)獲取和產(chǎn)生新的數(shù)據(jù)


  即便是在“摩爾定律”――每18個(gè)月芯片性能將提高1倍――的支撐下,硬件性能進(jìn)化的速度也早已趕不上數(shù)據(jù)增長的速度,并且差距越來越巨大。



  1分鐘之內(nèi),新浪微博發(fā)送數(shù)萬條微博,蘋果應(yīng)用商店下載次數(shù)以萬計(jì),淘寶賣出了幾萬件商品,百度產(chǎn)生了百萬次搜索查詢……所有這些行為都由海量的數(shù)據(jù)來呈現(xiàn)。


  在去年12月12日電商的促銷期,淘寶網(wǎng)推出“時(shí)光機(jī)”――一個(gè)根據(jù)淘寶買家?guī)啄陙淼馁徺I商品記錄、瀏覽點(diǎn)擊次數(shù)、收貨地址等數(shù)據(jù)編輯制作的“個(gè)人網(wǎng)購志”,從而記錄和勾勒出讓人感懷的生活記憶。背后,是基于對(duì)4.7億淘寶注冊(cè)用戶網(wǎng)購數(shù)據(jù)的分析處理,這正是大數(shù)據(jù)的典型應(yīng)用。


  隨著傳統(tǒng)互聯(lián)網(wǎng)向移動(dòng)互聯(lián)發(fā)展,全球范圍內(nèi),除了個(gè)人電腦、平板電腦、智能手機(jī)、游戲主機(jī)等常見的計(jì)算終端之外,更廣闊的、泛在互連的智能設(shè)備,比如智能汽車、智能電視、工業(yè)設(shè)備和手持設(shè)備等都連接到網(wǎng)絡(luò)之中?;谏鐣?huì)化網(wǎng)絡(luò)的平臺(tái)和應(yīng)用,讓數(shù)以百億計(jì)的機(jī)器、企業(yè)、個(gè)人隨時(shí)隨地都會(huì)獲取和產(chǎn)生新的數(shù)據(jù)。


  互聯(lián)網(wǎng)搜索引擎是大數(shù)據(jù)最為典型的應(yīng)用之一。百度日處理數(shù)據(jù)量達(dá)到數(shù)十PB,并呈現(xiàn)高速增長的態(tài)勢。如果一張光盤容量為1GB,這相當(dāng)于壘在一起的幾千萬張光盤。微軟Bing(在中國為必應(yīng))搜索引擎,一周需要響應(yīng)100億次量級(jí)的搜索請(qǐng)求。通過和Facebook的合作,每天有超過10億次的社交網(wǎng)絡(luò)搜索請(qǐng)求通過Bing來處理。


  短短的18個(gè)月,中國移動(dòng)互聯(lián)網(wǎng)流量增加了10倍。中國工程院院士鄔賀銓說,隨著社交網(wǎng)絡(luò)的逐漸成熟、移動(dòng)帶寬迅速提升,更多的傳感設(shè)備、移動(dòng)終端接入網(wǎng)絡(luò),產(chǎn)生的數(shù)據(jù)及其增長速度比歷史上任何時(shí)期都要多,互聯(lián)網(wǎng)上的數(shù)據(jù)流量正在迅猛增長。鄔賀銓認(rèn)為,在云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的帶動(dòng)下,中國的移動(dòng)互聯(lián)網(wǎng)已經(jīng)步入“大數(shù)據(jù)”時(shí)代。


  而根據(jù)市場調(diào)研公司IDC的報(bào)告,全球信息總量每過兩年就會(huì)增長一倍,2011年全球產(chǎn)生的數(shù)據(jù)總量為1.8ZB(1ZB約為百萬PB),相比2010年增長了1ZB,相當(dāng)于全球歷史數(shù)據(jù)總和。


  繼云計(jì)算后,大數(shù)據(jù)(big data)成為信息技術(shù)領(lǐng)域最為熱門的概念之一。



  2.大數(shù)據(jù)有四個(gè)特征,最重要的是獲得洞察力和價(jià)值


  在IT業(yè)界,有人把大數(shù)據(jù)產(chǎn)業(yè)定義為:“建立在對(duì)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等渠道廣泛大量數(shù)據(jù)資源收集基礎(chǔ)上的數(shù)據(jù)存儲(chǔ)、價(jià)值提煉、智能處理和分發(fā)的信息服務(wù)業(yè)”,或者如IT巨頭概括大數(shù)據(jù)戰(zhàn)略為:“致力于讓所有用戶能夠從幾乎任何數(shù)據(jù)中獲得可轉(zhuǎn)換為業(yè)務(wù)執(zhí)行的洞察力,包括之前隱藏在非結(jié)構(gòu)化數(shù)據(jù)中的洞察力”。



  “總之是對(duì)大量、動(dòng)態(tài)、能持續(xù)的數(shù)據(jù),通過運(yùn)用新系統(tǒng)、新工具、新模型的挖掘,從而獲得具有洞察力和新價(jià)值的東西?!蔽④浌救蛸Y深副總裁、微軟亞太研發(fā)集團(tuán)主席張亞勤博士接受記者采訪時(shí)說。


  雖然有多種解讀,但業(yè)界一般認(rèn)為,大數(shù)據(jù)有四個(gè)“V”字開頭的特征:Volume(容量), Variety(種類), Velocity(速度)和最重要的Value(價(jià)值)。Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。張亞勤說,IT業(yè)界所指的數(shù)據(jù),誕生不過60多年。而一直到個(gè)人電腦普及前,由于存儲(chǔ)、計(jì)算和分析工具的技術(shù)和成本限制,許多自然界和人類社會(huì)值得記錄的信號(hào),并未形成數(shù)據(jù)。幾十年前,氣象、地質(zhì)、石油物探、出版業(yè)、媒體業(yè)和影視業(yè)是大量、持續(xù)產(chǎn)出信號(hào)的行業(yè),但那時(shí)90%以上采用的是存儲(chǔ)模擬信號(hào),難以通過計(jì)算設(shè)備和軟件進(jìn)行直接分析。擁有大量資金和人才的政府和企業(yè),也只能把少量最關(guān)鍵的信號(hào),進(jìn)行抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)庫中。


  張亞勤認(rèn)為,盡管業(yè)界對(duì)達(dá)到怎樣的數(shù)量級(jí)才算是大數(shù)據(jù)并無定論,但在很多行業(yè)的應(yīng)用場景里,數(shù)據(jù)集本身的大小并不是最重要的,是否完整才最重要。


  Variety則意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián)。互聯(lián)網(wǎng)時(shí)代,各種設(shè)備通過網(wǎng)絡(luò)連成了一個(gè)整體。進(jìn)入以互動(dòng)為特征的Web2.0時(shí)代,個(gè)人計(jì)算機(jī)用戶不僅可以通過網(wǎng)絡(luò)獲取信息,還成為了信息的制造者和傳播者。這個(gè)階段,不僅是數(shù)據(jù)量開始了爆炸式增長,數(shù)據(jù)種類也開始變得繁多。



  “這必然促使我們對(duì)海量數(shù)據(jù)進(jìn)行分析、處理和集成,找出原本看來毫無關(guān)系的那些數(shù)據(jù)的‘關(guān)聯(lián)性’,把似乎沒有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷?!睆垇喦谡f。


  Velocity可以理解為更快地滿足實(shí)時(shí)性需求。數(shù)據(jù)的實(shí)時(shí)化需求正越來越清晰。對(duì)普通人而言,開車去吃飯,會(huì)先用移動(dòng)終端中的地圖查詢餐廳的位置,預(yù)計(jì)行車路線的擁堵情況,了解停車場信息甚至是其他用戶對(duì)餐廳的評(píng)論。吃飯時(shí),會(huì)用手機(jī)拍攝食物的照片,編輯簡短評(píng)論發(fā)布到微博或者微信上,還可以用LBS(基于位置的服務(wù))應(yīng)用查找在同一間餐廳吃飯的人,看有沒有好友在附近……



  張亞勤說,如今,通過各種有線和無線網(wǎng)絡(luò),人和人、人和各種機(jī)器、機(jī)器和機(jī)器之間產(chǎn)生無處不在的連接,這些連接不可避免地帶來數(shù)據(jù)交換。而數(shù)據(jù)交換的關(guān)鍵是降低延遲,以近乎實(shí)時(shí)――這意味著小于250毫秒――的方式呈獻(xiàn)給用戶。


  “但比前面3個(gè)‘V’更重要的,就是Value,它是大數(shù)據(jù)的最終意義――獲得洞察力和價(jià)值?!睆垇喦谡f,大數(shù)據(jù)的崛起,正是在人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)的迅速發(fā)展驅(qū)動(dòng)下,呈現(xiàn)這么一個(gè)過程:將信號(hào)轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識(shí),以知識(shí)促成決策和行動(dòng)。


  百度相關(guān)專家認(rèn)為,就大數(shù)據(jù)的價(jià)值而言,就像沙子淘金,大數(shù)據(jù)規(guī)模越大,真正有價(jià)值的數(shù)據(jù)相對(duì)越少。


  “所以真正好的大數(shù)據(jù)系統(tǒng),重要的不是越多越好,其實(shí)越少越好?!睆垇喦谡f,開始數(shù)據(jù)要多,最好還是要少,把ZB、PB最終變成一個(gè)比特,也就是最后的決策。這才是最關(guān)鍵的。


  3.云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,大數(shù)據(jù)正在引發(fā)全球范圍內(nèi)深刻的技術(shù)和商業(yè)變革


  如同云計(jì)算的出現(xiàn),大數(shù)據(jù)也不是一個(gè)突然而至的新概念。


  “云計(jì)算和大數(shù)據(jù)是一個(gè)硬幣的兩面,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計(jì)算的一個(gè)殺手級(jí)應(yīng)用?!睆垇喦谡f。云計(jì)算是大數(shù)據(jù)成長的驅(qū)動(dòng)力,而另一方面,由于數(shù)據(jù)越來越多、越來越復(fù)雜、越來越實(shí)時(shí),這就更加需要云計(jì)算去處理,所以二者之間是相輔相成的。


  30年前,存儲(chǔ)1TB也就是約1000GB數(shù)據(jù)的成本大約是16億美元,如今存儲(chǔ)到云上只需不到100美元;但存儲(chǔ)下來的數(shù)據(jù),如果不以云計(jì)算進(jìn)行挖掘和分析,就只是僵死的數(shù)據(jù),沒有太大價(jià)值。



  目前,云計(jì)算已經(jīng)普及并成為IT行業(yè)主流技術(shù),其實(shí)質(zhì)是在計(jì)算量越來越大、數(shù)據(jù)越來越多、越來越動(dòng)態(tài)、越來越實(shí)時(shí)的需求背景下被催生出來的一種基礎(chǔ)架構(gòu)和商業(yè)模式。個(gè)人用戶將文檔、照片、視頻、游戲存檔記錄上傳至“云”中永久保存,企業(yè)客戶根據(jù)自身需求,可以搭建自己的“私有云”,或托管、或租用“公有云”上的IT資源與服務(wù),這些都已不是新鮮事??梢哉f,云是一棵掛滿了大數(shù)據(jù)的蘋果樹。


  大數(shù)據(jù)的出現(xiàn),正在引發(fā)全球范圍內(nèi)深刻的技術(shù)與商業(yè)變革。在技術(shù)上,大數(shù)據(jù)使從數(shù)據(jù)當(dāng)中提取信息的常規(guī)方式發(fā)生了變化?!霸诩夹g(shù)領(lǐng)域,以往更多是依靠模型的方法,現(xiàn)在我們可以借用規(guī)模龐大的數(shù)據(jù),用基于統(tǒng)計(jì)的方法,有望使語音識(shí)別、機(jī)器翻譯這些技術(shù)領(lǐng)域在大數(shù)據(jù)時(shí)代取得新的進(jìn)展。”張亞勤說。

  在搜索引擎和在線廣告中發(fā)揮重要作用的機(jī)器學(xué)習(xí),被認(rèn)為是大數(shù)據(jù)發(fā)揮真正價(jià)值的領(lǐng)域。在海量的數(shù)據(jù)中統(tǒng)計(jì)分析出人的行為、習(xí)慣等方式,計(jì)算機(jī)可以更好地學(xué)習(xí)模擬人類智能。隨著包括語音、視覺、手勢和多點(diǎn)觸控等在內(nèi)的自然用戶界面越來越普及,計(jì)算系統(tǒng)正在具備與人類相仿的感知能力,其看見、聽懂和理解人類用戶的能力不斷提高。這種計(jì)算系統(tǒng)不斷增強(qiáng)的感知能力,與大數(shù)據(jù)以及機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展相結(jié)合,已使得目前的計(jì)算系統(tǒng)開始能夠理解人類用戶的意圖和語境?!斑@使得計(jì)算機(jī)能夠真正幫助我們,甚至代表我們?nèi)スぷ鳌薄?br/>


  在商業(yè)模式上,張亞勤認(rèn)為,對(duì)商業(yè)競爭的參與者來說,大數(shù)據(jù)意味著激動(dòng)人心的業(yè)務(wù)與服務(wù)創(chuàng)新機(jī)會(huì)。零售連鎖企業(yè)、電商業(yè)巨頭都已在大數(shù)據(jù)挖掘與營銷創(chuàng)新方面有著很多的成功案例,它們都是商業(yè)嗅覺極其敏銳、敢于投資未來的公司,也因此獲得了豐厚的回報(bào)。


  IT產(chǎn)業(yè)鏈分工、主導(dǎo)權(quán)也因?yàn)榇髷?shù)據(jù)產(chǎn)生了巨大影響。以往,移動(dòng)運(yùn)營商和互聯(lián)網(wǎng)服務(wù)運(yùn)營商等擁有著大量的用戶行為習(xí)慣的各種數(shù)據(jù),在IT產(chǎn)業(yè)鏈中具有舉足輕重的地位。而在大數(shù)據(jù)時(shí)代,移動(dòng)運(yùn)營商如果不能挖掘出數(shù)據(jù)的價(jià)值,可能徹徹底底被管道化。運(yùn)營商和更懂用戶需求的第三方開發(fā)者互利共贏的模式,已取得一定共識(shí)。


來源:人民網(wǎng)-人民日?qǐng)?bào) 作者:余建斌 趙展慧



  版權(quán)及免責(zé)聲明:凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章,不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

第六屆中國報(bào)業(yè)黨建工作座談會(huì)(1) 第六屆中國報(bào)業(yè)黨建工作座談會(huì)(1)

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502003583