當(dāng)前位置首頁 > 行業(yè) > 通信 >

從存儲(chǔ)、處理和分析角度看大數(shù)據(jù)和云計(jì)算的區(qū)別

時(shí)間：2013-11-11

　　關(guān)于大數(shù)據(jù)和云計(jì)算的關(guān)系人們通常會(huì)有誤解。而且也會(huì)把它們混起來說，分別做一句話直白解釋就是：云計(jì)算就是硬件資源的虛擬化；大數(shù)據(jù)就是海量數(shù)據(jù)的高效處理。

　　雖然上面的一句話解釋不是非常的貼切，但是可以幫助你簡單的理解二者的區(qū)別。另外，如果做一個(gè)更形象的解釋，云計(jì)算相當(dāng)于我們的計(jì)算機(jī)和操作系統(tǒng)，將大量的硬件資源虛擬化之后再進(jìn)行分配使用，在云計(jì)算領(lǐng)域目前的老大應(yīng)該算是Amazon，可以說為云計(jì)算提供了商業(yè)化的標(biāo)準(zhǔn)，另外值得關(guān)注的還有VMware（其實(shí)從這一點(diǎn)可以幫助你理解云計(jì)算和虛擬化的關(guān)系），開源的云平臺(tái)最有活力的就是Openstack了；

　　大數(shù)據(jù)相當(dāng)于海量數(shù)據(jù)的“數(shù)據(jù)庫”，而且通觀大數(shù)據(jù)領(lǐng)域的發(fā)展也能看出，當(dāng)前的大數(shù)據(jù)處理一直在向著近似于傳統(tǒng)數(shù)據(jù)庫體驗(yàn)的方向發(fā)展，Hadoop的產(chǎn)生使我們能夠用普通機(jī)器建立穩(wěn)定的處理TB級(jí)數(shù)據(jù)的集群，把傳統(tǒng)而昂貴的并行計(jì)算等概念一下就拉到了我們的面前，但是其不適合數(shù)據(jù)分析人員使用（因?yàn)镸apReduce開發(fā)復(fù)雜），所以PigLatin和Hive出現(xiàn)了（分別是Yahoo！和facebook發(fā)起的項(xiàng)目，說到這補(bǔ)充一下，在大數(shù)據(jù)領(lǐng)域Google、facebook、twitter等前沿的互聯(lián)網(wǎng)公司作出了很積極和強(qiáng)大的貢獻(xiàn)），為我們帶來了類SQL的操作，到這里操作方式像SQL了，但是處理效率很慢，絕對(duì)和傳統(tǒng)的數(shù)據(jù)庫的處理效率有天壤之別，所以人們又在想怎樣在大數(shù)據(jù)處理上不只是操作方式類SQL，而處理速度也能“類SQL”，Google為我們帶來了Dremel/PowerDrill等技術(shù)，Cloudera（Hadoop商業(yè)化最強(qiáng)的公司，Hadoop之父cutting就在這里負(fù)責(zé)技術(shù)領(lǐng)導(dǎo)）的Impala也出現(xiàn)了。

　　整體來看，未來的趨勢是，云計(jì)算作為計(jì)算資源的底層，支撐著上層的大數(shù)據(jù)處理，而大數(shù)據(jù)的發(fā)展趨勢是，實(shí)時(shí)交互式的查詢效率和分析能力，借用Google一篇技術(shù)論文中的話，“動(dòng)一下鼠標(biāo)就可以在秒級(jí)操作PB級(jí)別的數(shù)據(jù)”難道不讓人興奮嗎？

　　在談大數(shù)據(jù)的時(shí)候，首先談到的就是大數(shù)據(jù)的4V特性，即類型復(fù)雜，海量，快速和價(jià)值。IBM原來談大數(shù)據(jù)的時(shí)候談3V，沒有價(jià)值這個(gè)V。而實(shí)際我們來看4V更加恰當(dāng)，價(jià)值才是大數(shù)據(jù)問題解決的最終目標(biāo)，其它3V都是為價(jià)值目標(biāo)服務(wù)。在有了4V的概念后，就很容易簡化的來理解大數(shù)據(jù)的核心，即大數(shù)據(jù)的總體架構(gòu)包括三層，數(shù)據(jù)存儲(chǔ)，數(shù)據(jù)處理和數(shù)據(jù)分析。類型復(fù)雜和海量由數(shù)據(jù)存儲(chǔ)層解決，快速和時(shí)效性要求由數(shù)據(jù)處理層解決，價(jià)值由數(shù)據(jù)分析層解決。

　　數(shù)據(jù)先要通過存儲(chǔ)層存儲(chǔ)下來，然后根據(jù)數(shù)據(jù)需求和目標(biāo)來建立相應(yīng)的數(shù)據(jù)模型和數(shù)據(jù)分析指標(biāo)體系對(duì)數(shù)據(jù)進(jìn)行分析產(chǎn)生價(jià)值。而中間的時(shí)效性又通過中間數(shù)據(jù)處理層提供的強(qiáng)大的并行計(jì)算和分布式計(jì)算能力來完成。三層相互配合，讓大數(shù)據(jù)最終產(chǎn)生價(jià)值。

　　數(shù)據(jù)存儲(chǔ)層

　　數(shù)據(jù)有很多分法，有結(jié)構(gòu)化，半結(jié)構(gòu)化，非結(jié)構(gòu)化；也有元數(shù)據(jù)，主數(shù)據(jù)，業(yè)務(wù)數(shù)據(jù)；還可以分為GIS，視頻，文件，語音，業(yè)務(wù)交易類各種數(shù)據(jù)。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫已經(jīng)無法滿足數(shù)據(jù)多樣性的存儲(chǔ)要求，因此在RDBMS基礎(chǔ)上增加了兩種類型，一種是hdfs可以直接應(yīng)用于非結(jié)構(gòu)化文件存儲(chǔ)，一種是nosql類數(shù)據(jù)庫，可以應(yīng)用于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。

　　從存儲(chǔ)層的搭建來說，關(guān)系型數(shù)據(jù)庫，NoSQL數(shù)據(jù)庫和hdfs分布式文件系統(tǒng)三種存儲(chǔ)方式都需要。業(yè)務(wù)應(yīng)用根據(jù)實(shí)際的情況選擇不同的存儲(chǔ)模式，但是為了業(yè)務(wù)的存儲(chǔ)和讀取方便性，我們可以對(duì)存儲(chǔ)層進(jìn)一步的封裝，形成一個(gè)統(tǒng)一的共享存儲(chǔ)服務(wù)層，簡化這種操作。從用戶來講并不關(guān)心底層存儲(chǔ)細(xì)節(jié)，只關(guān)心數(shù)據(jù)的存儲(chǔ)和讀取的方便性，通過共享數(shù)據(jù)存儲(chǔ)層可以實(shí)現(xiàn)在存儲(chǔ)上的應(yīng)用和存儲(chǔ)基礎(chǔ)設(shè)置的徹底解耦。

　　數(shù)據(jù)處理層

　　數(shù)據(jù)處理層核心解決問題在于數(shù)據(jù)存儲(chǔ)出現(xiàn)分布式后帶來的數(shù)據(jù)處理上的復(fù)雜度，海量存儲(chǔ)后帶來了數(shù)據(jù)處理上的時(shí)效性要求，這些都是數(shù)據(jù)處理層要解決的問題。

　　在傳統(tǒng)的云相關(guān)技術(shù)架構(gòu)上，可以將hive，pig和hadoop-mapreduce框架相關(guān)的技術(shù)內(nèi)容全部劃入到數(shù)據(jù)處理層的能力。原來我思考的是將hive劃入到數(shù)據(jù)分析層能力不合適，因?yàn)閔ive重點(diǎn)還是在真正處理下的復(fù)雜查詢的拆分，查詢結(jié)果的重新聚合，而mapreduce本身又實(shí)現(xiàn)真正的分布式處理能力。

　　mapreduce只是實(shí)現(xiàn)了一個(gè)分布式計(jì)算的框架和邏輯，而真正的分析需求的拆分，分析結(jié)果的匯總和合并還是需要hive層的能力整合。最終的目的很簡單，即支持分布式架構(gòu)下的時(shí)效性要求。

　　數(shù)據(jù)分析層

　　最后回到分析層，分析層重點(diǎn)是真正挖掘大數(shù)據(jù)的價(jià)值所在，而價(jià)值的挖掘核心又在于數(shù)據(jù)分析和挖掘。那么數(shù)據(jù)分析層核心仍然在于傳統(tǒng)的BI分析的內(nèi)容。包括數(shù)據(jù)的維度分析，數(shù)據(jù)的切片，數(shù)據(jù)的上鉆和下鉆，cube等。

　　數(shù)據(jù)分析我只關(guān)注兩個(gè)內(nèi)容，一個(gè)就是傳統(tǒng)數(shù)據(jù)倉庫下的數(shù)據(jù)建模，在該數(shù)據(jù)模型下需要支持上面各種分析方法和分析策略；其次是根據(jù)業(yè)務(wù)目標(biāo)和業(yè)務(wù)需求建立的KPI指標(biāo)體系，對(duì)應(yīng)指標(biāo)體系的分析模型和分析方法。解決這兩個(gè)問題基本解決數(shù)據(jù)分析的問題。

　　傳統(tǒng)的BI分析通過大量的ETL數(shù)據(jù)抽取和集中化，形成一個(gè)完整的數(shù)據(jù)倉庫，而基于大數(shù)據(jù)的BI分析，可能并沒有一個(gè)集中化的數(shù)據(jù)倉庫，或者將數(shù)據(jù)倉庫本身也是分布式的了，BI分析的基本方法和思路并沒有變化，但是落地到執(zhí)行的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理方法卻發(fā)生了大變化。

　　談了這么多，核心還是想說明大數(shù)據(jù)兩大核心為云技術(shù)和BI，離開云技術(shù)大數(shù)據(jù)沒有根基和落地可能，離開BI和價(jià)值，大數(shù)據(jù)又變化為舍本逐末，丟棄關(guān)鍵目標(biāo)。簡單總結(jié)就是大數(shù)據(jù)目標(biāo)驅(qū)動(dòng)是BI，大數(shù)據(jù)實(shí)施落地式云技術(shù)。

來源：36大數(shù)據(jù)

　　版權(quán)及免責(zé)聲明：凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章，不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

第六屆中國報(bào)業(yè)黨建工作座談會(huì)（1）

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

從存儲(chǔ)、處理和分析角度看大數(shù)據(jù)和云計(jì)算的區(qū)別

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

特色小鎮(zhèn)

微信公眾號(hào)