2018/4/19 13:43:19
大數據工具讓企業能夠從數據倉庫獲得洞察力,從而在數據驅動的(de)業務環境中提供重要的(de)競争優勢。
為(wèi)了滿足旺盛需求,大數據工具在迅速遍地(dì)開花。在大數據這一(yī)概念和(hé)業務戰略出現以來的(de)十年(nián)間,市(shì)面上出現了成千上萬執行(xíng)各種任務和(hé)流程的(de)工具,它們(men)都承諾可(kě)為(wèi)你節省時間和(hé)資金,發掘業務洞察力從而實現創收。顯然,一(yī)個不斷增長(cháng)的(de)市(shì)場呈現在大數據分析工具的(de)面前。
其中許多工具一(yī)開始就像最初的(de)大數據軟件框架Hadoop那樣是開源項目,但後來商(shāng)業公司迅速湧現,為(wèi)開源産品提供新工具或商(shāng)業支持和(hé)開發。
從中進行(xíng)遴選可(kě)能很困難,尤其是許多大數據工具用途單一(yī),而你可(kě)以用大數據處理(lǐ)許多不同的(de)任務,所以你的(de)分析工具箱會塞得滿滿當當。本文我們(men)列出了市(shì)面上主要的(de)大數據分析工具。
主要的(de)大數據工具
如(rú)前所述,大數據工具往往屬于單一(yī)用途類别,而使用大數據有(yǒu)多種方式。所以我們(men)将按類别細分,然後讨論每個類别的(de)分析工具。
一(yī)、大數據工具:數據存儲和(hé)管理(lǐ)
大數據完全始于數據存儲,也就是說始于大數據框架Hadoop。它是Apache基金會運行(xíng)的(de)一(yī)種開源軟件框架,用于在大衆化計算機(jī)集群上分布式存儲非常大的(de)數據集。
很顯然,由于大數據需要大量的(de)信息,存儲至關重要。但除了存儲外,還需要某種方式将所有(yǒu)這些數據彙集成某種格式化/治理(lǐ)結構,從而獲得洞察力。因此,大數據存儲和(hé)管理(lǐ)是真正的(de)基礎――離(lí)開了它,分析平台一(yī)無是處。在一(yī)些情況下,這些解決方案還包括員工培訓。
這個領域的(de)大玩家包括:
1. Cloudera
實際上是增加了一(yī)些額外服務的(de)Hadoop,你會需要它,因為(wèi)大數據不容易搞。Cloudera的(de)服務團隊不僅可(kě)以幫助你構建大數據集群,還可(kě)以幫助培訓你的(de)員工,更好地(dì)訪問數據。
2. MongoDB
MongoDB是最受歡迎的(de)大數據數據庫,因為(wèi)它适用于管理(lǐ)經常變化的(de)數據:非結構化數據,大數據常常是非結構化數據。
3. Talend
作為(wèi)一(yī)家提供廣泛解決方案的(de)公司,Talend的(de)産品圍繞其集成平台而建,該平台集大數據、雲、應用程序、實時數據集成、數據準備和(hé)主數據管理(lǐ)于一(yī)體。
Talend大數據集成平台包括數據質量和(hé)治理(lǐ)功能
二、大數據工具:數據清理(lǐ)
在你真正處理(lǐ)數據以獲取洞察力之前,需要清理(lǐ)和(hé)轉換數據,轉換成可(kě)遠程搜索的(de)內(nèi)容。大數據集往往是非結構化、無組織的(de),因此需要某種清理(lǐ)或轉換。
當下,數據可(kě)能來自(zì)任何地(dì)方:移動、物聯網和(hé)社交媒體,數據清理(lǐ)顯得更為(wèi)必要。并非所有(yǒu)這些數據都可(kě)以輕松“清理(lǐ)”以獲得洞察力,因此優秀的(de)數據清理(lǐ)工具極其重要。實際上,在未來幾年(nián),預計經過有(yǒu)效清理(lǐ)的(de)數據會是可(kě)接受的(de)大數據系統與真正出色的(de)大數據系統之間的(de)競争優勢。
4. OpenRefine
OpenRefine是一(yī)款易于使用的(de)開源工具,通過删除重複項、空白字段及??其他錯誤來清理(lǐ)淩亂的(de)數據。它是開源的(de),但有(yǒu)一(yī)個相當大的(de)社區可(kě)提供幫助。
5. DataCleaner
與OpenRefine一(yī)樣,DataCleaner可(kě)将半結構化數據集轉換成數據可(kě)視(shì)化工具可(kě)以讀取的(de)幹淨可(kě)讀的(de)數據集。該公司還提供數據倉庫和(hé)數據管理(lǐ)服務。
6. 微軟Excel
說真的(de),Excel有(yǒu)其用途。你可(kě)以從各種數據源導入數據。Excel在手動數據輸入和(hé)複制/粘貼操作方面特别有(yǒu)用。它能消除重複項,查找和(hé)替換內(nèi)容,檢查拼寫,還有(yǒu)用于轉換數據的(de)許多公式。但Excel很快陷入困境,不适合龐大數據集。
三、大數據工具:數據挖掘
一(yī)旦數據經過清理(lǐ)和(hé)準備,你可(kě)以通過數據挖掘開始搜索數據了。這時你執行(xíng)這個實際的(de)過程:發現數據、做(zuò)出決定和(hé)進行(xíng)預測。
數據挖掘是大數據流程的(de)真正核心。數據挖掘解決方案通常底層很複雜,但竭力提供 一(yī)種外觀漂亮(liàng)、對用戶友好的(de)用戶界面,說起來容易做(zuò)起來難。數據挖掘工具面臨的(de)另一(yī)個挑戰是:它們(men)确實需要人來編制查詢,所以數據挖掘工具的(de)好壞取決于使用它的(de)專業人員。
7. RapidMiner
RapidMiner是一(yī)款易于使用的(de)預測分析工具,有(yǒu)着對用戶友好的(de)可(kě)視(shì)化界面,這意味着你沒必要編寫代碼即可(kě)運行(xíng)分析産品。
8. IBM SPSS Modeler
IBM SPSS Modeler是一(yī)款包括五個數據挖掘産品的(de)套件,面向企業級高(gāo)級分析。另外IBM的(de)服務和(hé)咨詢首屈一(yī)指。
9. Teradata
Teradata為(wèi)數據倉庫、大數據和(hé)分析以及營銷等應用提供端到端解決方案。這一(yī)切意味着貴公司可(kě)以真正成為(wèi)數據驅動的(de)公司,另外還有(yǒu)商(shāng)業服務、咨詢、培訓和(hé)支持。
與許多目前的(de)大數據工具一(yī)樣,RapidMiner解決方案也支持雲
四、大數據工具:數據可(kě)視(shì)化
數據可(kě)視(shì)化是指以一(yī)種可(kě)讀、實用的(de)格式顯示你的(de)數據。你可(kě)以查看圖表圖形以及直觀顯示數據的(de)其他圖像。
數據可(kě)視(shì)化既是一(yī)門科(kē)學(xué),又是一(yī)門藝術。随着大數據從有(yǒu)大批數據科(kē)學(xué)家支持的(de)高(gāo)管轉移到整個公司上下,衆多員工可(kě)以使用可(kě)視(shì)化工具極為(wèi)重要。銷售代表、IT支持和(hé)中層管理(lǐ),這些團隊個個都需要能夠理(lǐ)解數據,因此重點放在易用性上。然而,易于閱讀的(de)可(kě)視(shì)化有(yǒu)時與來自(zì)深度特征集的(de)數據讀出相沖突,這帶來了數據可(kě)視(shì)化工具面臨的(de)主要挑戰之一(yī)。
10. Tableau
Tableau是該領域的(de)領導者,其數據可(kě)視(shì)化工具專注于商(shāng)業智能,無需懂得編程,即可(kě)創建各種地(dì)圖、圖表、圖形及更多可(kě)視(shì)化元素。它共有(yǒu)五款産品,一(yī)款名為(wèi)Tableau Public的(de)免費版供潛在客戶試用。
11. Silk
Silk是Tableau的(de)簡單版,讓你可(kě)以通過地(dì)圖和(hé)圖表将數據可(kě)視(shì)化,無需任何編程。你在首次加載Silk時,它甚至會試着将數據可(kě)視(shì)化。它還讓用戶很容易在網上發布結果。
12. Chartio
Chartio使用自(zì)己的(de)可(kě)視(shì)化查詢語言,隻要點擊幾下鼠标即可(kě)創建功能強大的(de)儀表闆,無需懂得SQL或其他建模語言。它有(yǒu)别于其他工具的(de)地(dì)方主要在于,你可(kě)以直接連接到數據庫,因此不需要數據倉庫。
13.IBM Watson Analytics
IBM Watson Analytics結合了機(jī)器學(xué)習和(hé)人工智能,有(yǒu)助于提供智能數據科(kē)學(xué)助手,為(wèi)業務分析員和(hé)數據科(kē)學(xué)家等。
大數據工具的(de)三個層次
普華永道(dào)的(de)移動數據和(hé)分析計劃首席技術官Ritesh Ramesh表示,就先進程度和(hé)市(shì)場戰略而言,大數據工具可(kě)分成三層金字塔。
第一(yī)層:最龐大的(de)是一(yī)系列開源工具。每家公司以開源起家,像Cloudera和(hé)Hortonworks。除了基本的(de)基礎設施、服務器和(hé)存儲外,沒有(yǒu)多大的(de)價值。大多數雲廠商(shāng)已将這一(yī)層實現了商(shāng)品化。
第二層:在這一(yī)層,大多數這類廠商(shāng)已有(yǒu)意增加各自(zì)的(de)市(shì)場份額,在開源工具上面構建一(yī)些專有(yǒu)應用程序,從而做(zuò)到與衆不同。舉例說,Cloudera開發了許多産品,比如(rú)駐留在Hadoop核心上的(de)數據科(kē)學(xué)平台。
第三層:這些是針對特定垂直領域的(de)應用程序。這些公司大多與普華永道(dào)、高(gāo)知特或埃森哲等系統集成商(shāng)合作。真正的(de)價值出在這裏,這對大數據工具開發商(shāng)來說也是非常有(yǒu)效的(de)競争策略。
Ramesh表示,除了基本功能外,這些工具的(de)三大方面備受歡迎。首先是數據處理(lǐ)工具。他說:“數據學(xué)習工具是客戶的(de)工具箱中确保數據質量和(hé)分析數據的(de)重要工具,比如(rú)處理(lǐ)5000萬行(xíng)數據以發現洞察力。”
他表示,領先的(de)廠商(shāng)包括Trifacta、Paxata和(hé)Talend。
第二大類應用程序是治理(lǐ),比如(rú)你如(rú)何定義元數據。他說:“好多人在這方面遇到困難。人們(men)隻是将大量垃圾數據倒到數據湖。市(shì)面上可(kě)在數據湖中積極發揮功效的(de)工具不多。由于這項工作主要由IT人員完成,他們(men)更有(yǒu)興趣将數據倒到數據湖,而不是确立一(yī)種治理(lǐ)結構。”
主要廠商(shāng)包括Waterline Data、以數據編目工具見長(cháng)的(de)Tamr和(hé)Collibra。
Ramesh說,經常出現的(de)第三大需求是安全。他說:“人們(men)希望一(yī)個産品就有(yǒu)安全訪問的(de)所有(yǒu)層(列、行(xíng)和(hé)對象)。他們(men)希望一(yī)款産品為(wèi)不同的(de)數據對象支持用戶訪問和(hé)安全。這也是個新興領域。”
這個領域的(de)主要廠商(shāng)是Wandisco和(hé)FireEye。
2018貴陽大數據研讨會暨學(xué)術年(nián)會即将在貴陽維也納國(guó)際酒店召開,敬請期待!
來源:網絡大數據