認識大數據

2014/9/15 17:49:59

作者:王偉(君友公司研究總監)

 如(rú)果你在百度搜索引擎上輸入“大數據”,會顯示出“找到相關結果約100,000,000個”,一(yī)億條信息量足見目前這一(yī)概念的(de)熱度之大,當然你也會見到有(yǒu)人在一(yī)些論壇上時不時地(dì)提及大數據,甚至走在街上也會遇到有(yǒu)人使用“大數據”這三個字來表達身邊的(de)人和(hé)事,大數據時代似乎真的(de)一(yī)夜之間來臨了。而一(yī)個新興時代的(de)到來,不能僅看這一(yī)概念出現的(de)頻率,當今互聯網傳播放大作用下更是如(rú)此。隻有(yǒu)當大數據的(de)應用已經産生着廣泛的(de)社會影響時,才可(kě)謂大數據時代真的(de)來臨了,從整個社會來看大數據目前僅可(kě)稱為(wèi)“小荷才露尖尖角”。

大數據(Big data),應該說是“大規模數據”的(de)簡稱,不是一(yī)個确切的(de)稱謂,甚至可(kě)以說是一(yī)個借用的(de)概念,因為(wèi)之前沒有(yǒu)嚴格的(de)小數據概念與之對應。“大數據”這個術語最早期的(de)引用可(kě)追溯到apache org的(de)開源項目Nutch。當時,大數據用來描述為(wèi)更新網絡搜索索引需要同時進行(xíng)批量處理(lǐ)或分析的(de)大量數據集。早在1980年(nián),著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一(yī)書中,将大數據熱情地(dì)贊頌為(wèi)“第三次浪潮的(de)華彩樂(yuè)章(zhāng)”。大數據在教育、醫療、汽車、服務性行(xíng)業的(de)應用初步彰顯出的(de)能量使政府、大學(xué)、企業管理(lǐ)者對大數據的(de)未來充滿信心,大數據被認為(wèi)将會給人們(men)的(de)工作、生活甚至思維方式帶來重大變革。2012年(nián)329日奧巴馬政府公布了美國(guó)“大數據研發計劃”(Big Data Research and Development Initiative),旨在改進現有(yǒu)從海量和(hé)複雜的(de)數據中獲取知識的(de)能力,從而加速美國(guó)在科(kē)學(xué)與工程領域發明的(de)步伐,增強國(guó)家安全,轉變現有(yǒu)的(de)教學(xué)和(hé)學(xué)習方式。

君友認為(wèi),大數據是時代的(de)産物,是生産力發展的(de)結果,是信息技術催生出的(de)新事物,不應理(lǐ)解為(wèi)一(yī)個靜态的(de)數據類型,理(lǐ)解為(wèi)基于現代網絡技術而可(kě)及的(de)海量數據更為(wèi)恰當。但大數據的(de)呈現因人、因事、因時、因力而異,用之方為(wèi)“大”,不同的(de)數據運用主體、不同運用目的(de)、不同時間限制、不同技術實現能力等因素決定着某個“大數據”的(de)內(nèi)涵和(hé)表現。大數據是客觀存在的(de),隻有(yǒu)對于可(kě)及的(de)海量數據通過一(yī)定模式加工到可(kě)使用狀态,才會展現出大數據的(de)魅力,如(rú)果不用或視(shì)而不見,則無所謂大數據小數據。

大數據,在一(yī)些人眼裏已經不是一(yī)個網絡技術名詞,但它最适合的(de)定義還是與能夠處理(lǐ)結構化、非結構化數據的(de)網絡技術相捆綁。對于大數據,研究機(jī)構Gartner給出了這樣的(de)定義,大數據是需要新處理(lǐ)模式才能具有(yǒu)更強的(de)決策力、洞察發現力和(hé)流程優化能力的(de)海量、高(gāo)增長(cháng)率和(hé)多樣化的(de)信息資産。從技術上看,大數據需要特殊的(de)技術,以有(yǒu)效地(dì)處理(lǐ)大量的(de)容忍經過時間內(nèi)的(de)數據。适用于大數據的(de)技術,包括大規模并行(xíng)處理(lǐ)(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、雲計算平台、互聯網和(hé)可(kě)擴展的(de)存儲系統。離(lí)開了“大數據技術”,大數據就像海水一(yī)樣流淌在大海裏,無法到達使用者的(de)桌面。

大數據的(de)發展有(yǒu)其自(zì)身的(de)規律,就如(rú)其誕生一(yī)樣,需要适宜的(de)土壤,政府、企業可(kě)以去(qù)推動,但其成長(cháng)有(yǒu)賴于技術的(de)成長(cháng),其發展有(yǒu)賴于應用方的(de)形成。大數據的(de)4V特點——Volume(大量)、Velocity(高(gāo)速)、Variety(多樣)和(hé)Value(價值),前三個特點是其自(zì)身屬性,Value(價值)正是決定其應用腳步快慢的(de)關鍵,數據永遠不能代替思維,數據本身不會說話,數據價值表現在數據應用方的(de)思維中。價值的(de)形成是循序漸進的(de),今日人們(men)對大數據的(de)狂熱,甚至期望大數據可(kě)以解決所有(yǒu)面臨的(de)難題和(hé)疑點,大有(yǒu)準備告别昨日舊(jiù)思維的(de)架式,而大數據的(de)出現并不意味着既有(yǒu)的(de)理(lǐ)論與思考方式不再适合存在,正如(rú)微軟的(de)Mundie先生所說,“以數據為(wèi)中心的(de)經濟還處于發展初期,你可(kě)以看到它的(de)輪廓,但它的(de)技術上的(de)、基礎結構的(de)、甚至商(shāng)業模型的(de)影響還沒有(yǒu)被完全理(lǐ)解。”

時至今日,大數據仍處在它的(de)誕生期,對其未來的(de)成長(cháng)形态人們(men)有(yǒu)各種各樣的(de)描述。相信随着數據獲取、分析、應用技術的(de)發展,随着決策模式的(de)變遷,大數據的(de)面孔會成長(cháng)的(de)越來越清晰,對于時代的(de)影響會越來越廣泛,大數據時代會真正來臨。