市(shì)面上主要的(de)大數據分析工具都在這了，哪個更好用？--君友視(shì)角--河南君友數字科(kē)技有(yǒu)限公司

大數據工具讓企業能夠從數據倉庫獲得洞察力，從而在數據驅動的(de)業務環境中提供重要的(de)競争優勢。

為(wèi)了滿足旺盛需求，大數據工具在迅速遍地(dì)開花。在大數據這一(yī)概念和(hé)業務戰略出現以來的(de)十年(nián)間，市(shì)面上出現了成千上萬執行(xíng)各種任務和(hé)流程的(de)工具，它們(men)都承諾可(kě)為(wèi)你節省時間和(hé)資金，發掘業務洞察力從而實現創收。顯然，一(yī)個不斷增長(cháng)的(de)市(shì)場呈現在大數據分析工具的(de)面前。

其中許多工具一(yī)開始就像最初的(de)大數據軟件框架Hadoop那樣是開源項目，但後來商(shāng)業公司迅速湧現，為(wèi)開源産品提供新工具或商(shāng)業支持和(hé)開發。

從中進行(xíng)遴選可(kě)能很困難，尤其是許多大數據工具用途單一(yī)，而你可(kě)以用大數據處理(lǐ)許多不同的(de)任務，所以你的(de)分析工具箱會塞得滿滿當當。本文我們(men)列出了市(shì)面上主要的(de)大數據分析工具。

主要的(de)大數據工具

如(rú)前所述，大數據工具往往屬于單一(yī)用途類别，而使用大數據有(yǒu)多種方式。所以我們(men)将按類别細分，然後讨論每個類别的(de)分析工具。

一(yī)、大數據工具：數據存儲和(hé)管理(lǐ)

大數據完全始于數據存儲，也就是說始于大數據框架Hadoop。它是Apache基金會運行(xíng)的(de)一(yī)種開源軟件框架，用于在大衆化計算機(jī)集群上分布式存儲非常大的(de)數據集。

很顯然，由于大數據需要大量的(de)信息，存儲至關重要。但除了存儲外，還需要某種方式将所有(yǒu)這些數據彙集成某種格式化/治理(lǐ)結構，從而獲得洞察力。因此，大數據存儲和(hé)管理(lǐ)是真正的(de)基礎――離(lí)開了它，分析平台一(yī)無是處。在一(yī)些情況下，這些解決方案還包括員工培訓。

這個領域的(de)大玩家包括：

1. Cloudera

實際上是增加了一(yī)些額外服務的(de)Hadoop，你會需要它，因為(wèi)大數據不容易搞。Cloudera的(de)服務團隊不僅可(kě)以幫助你構建大數據集群，還可(kě)以幫助培訓你的(de)員工，更好地(dì)訪問數據。

2. MongoDB

MongoDB是最受歡迎的(de)大數據數據庫，因為(wèi)它适用于管理(lǐ)經常變化的(de)數據：非結構化數據，大數據常常是非結構化數據。

3. Talend

作為(wèi)一(yī)家提供廣泛解決方案的(de)公司，Talend的(de)産品圍繞其集成平台而建，該平台集大數據、雲、應用程序、實時數據集成、數據準備和(hé)主數據管理(lǐ)于一(yī)體。

Talend大數據集成平台包括數據質量和(hé)治理(lǐ)功能

二、大數據工具：數據清理(lǐ)

在你真正處理(lǐ)數據以獲取洞察力之前，需要清理(lǐ)和(hé)轉換數據，轉換成可(kě)遠程搜索的(de)內(nèi)容。大數據集往往是非結構化、無組織的(de)，因此需要某種清理(lǐ)或轉換。

當下，數據可(kě)能來自(zì)任何地(dì)方：移動、物聯網和(hé)社交媒體，數據清理(lǐ)顯得更為(wèi)必要。并非所有(yǒu)這些數據都可(kě)以輕松“清理(lǐ)”以獲得洞察力，因此優秀的(de)數據清理(lǐ)工具極其重要。實際上，在未來幾年(nián)，預計經過有(yǒu)效清理(lǐ)的(de)數據會是可(kě)接受的(de)大數據系統與真正出色的(de)大數據系統之間的(de)競争優勢。

4. OpenRefine

OpenRefine是一(yī)款易于使用的(de)開源工具，通過删除重複項、空白字段及??其他錯誤來清理(lǐ)淩亂的(de)數據。它是開源的(de)，但有(yǒu)一(yī)個相當大的(de)社區可(kě)提供幫助。

5. DataCleaner

與OpenRefine一(yī)樣，DataCleaner可(kě)将半結構化數據集轉換成數據可(kě)視(shì)化工具可(kě)以讀取的(de)幹淨可(kě)讀的(de)數據集。該公司還提供數據倉庫和(hé)數據管理(lǐ)服務。

6. 微軟Excel

說真的(de)，Excel有(yǒu)其用途。你可(kě)以從各種數據源導入數據。Excel在手動數據輸入和(hé)複制/粘貼操作方面特别有(yǒu)用。它能消除重複項，查找和(hé)替換內(nèi)容，檢查拼寫，還有(yǒu)用于轉換數據的(de)許多公式。但Excel很快陷入困境，不适合龐大數據集。

三、大數據工具：數據挖掘

一(yī)旦數據經過清理(lǐ)和(hé)準備，你可(kě)以通過數據挖掘開始搜索數據了。這時你執行(xíng)這個實際的(de)過程：發現數據、做(zuò)出決定和(hé)進行(xíng)預測。

數據挖掘是大數據流程的(de)真正核心。數據挖掘解決方案通常底層很複雜，但竭力提供　一(yī)種外觀漂亮(liàng)、對用戶友好的(de)用戶界面，說起來容易做(zuò)起來難。數據挖掘工具面臨的(de)另一(yī)個挑戰是：它們(men)确實需要人來編制查詢，所以數據挖掘工具的(de)好壞取決于使用它的(de)專業人員。

7. RapidMiner

RapidMiner是一(yī)款易于使用的(de)預測分析工具，有(yǒu)着對用戶友好的(de)可(kě)視(shì)化界面，這意味着你沒必要編寫代碼即可(kě)運行(xíng)分析産品。

8. IBM SPSS Modeler

IBM SPSS Modeler是一(yī)款包括五個數據挖掘産品的(de)套件，面向企業級高(gāo)級分析。另外IBM的(de)服務和(hé)咨詢首屈一(yī)指。

9. Teradata

Teradata為(wèi)數據倉庫、大數據和(hé)分析以及營銷等應用提供端到端解決方案。這一(yī)切意味着貴公司可(kě)以真正成為(wèi)數據驅動的(de)公司，另外還有(yǒu)商(shāng)業服務、咨詢、培訓和(hé)支持。

與許多目前的(de)大數據工具一(yī)樣，RapidMiner解決方案也支持雲

四、大數據工具：數據可(kě)視(shì)化

數據可(kě)視(shì)化是指以一(yī)種可(kě)讀、實用的(de)格式顯示你的(de)數據。你可(kě)以查看圖表圖形以及直觀顯示數據的(de)其他圖像。

數據可(kě)視(shì)化既是一(yī)門科(kē)學(xué)，又是一(yī)門藝術。随着大數據從有(yǒu)大批數據科(kē)學(xué)家支持的(de)高(gāo)管轉移到整個公司上下，衆多員工可(kě)以使用可(kě)視(shì)化工具極為(wèi)重要。銷售代表、IT支持和(hé)中層管理(lǐ)，這些團隊個個都需要能夠理(lǐ)解數據，因此重點放在易用性上。然而，易于閱讀的(de)可(kě)視(shì)化有(yǒu)時與來自(zì)深度特征集的(de)數據讀出相沖突，這帶來了數據可(kě)視(shì)化工具面臨的(de)主要挑戰之一(yī)。

10. Tableau

Tableau是該領域的(de)領導者，其數據可(kě)視(shì)化工具專注于商(shāng)業智能，無需懂得編程，即可(kě)創建各種地(dì)圖、圖表、圖形及更多可(kě)視(shì)化元素。它共有(yǒu)五款産品，一(yī)款名為(wèi)Tableau Public的(de)免費版供潛在客戶試用。

11. Silk

Silk是Tableau的(de)簡單版，讓你可(kě)以通過地(dì)圖和(hé)圖表将數據可(kě)視(shì)化，無需任何編程。你在首次加載Silk時，它甚至會試着将數據可(kě)視(shì)化。它還讓用戶很容易在網上發布結果。

12. Chartio

Chartio使用自(zì)己的(de)可(kě)視(shì)化查詢語言，隻要點擊幾下鼠标即可(kě)創建功能強大的(de)儀表闆，無需懂得SQL或其他建模語言。它有(yǒu)别于其他工具的(de)地(dì)方主要在于，你可(kě)以直接連接到數據庫，因此不需要數據倉庫。

13.IBM Watson Analytics

IBM Watson Analytics結合了機(jī)器學(xué)習和(hé)人工智能，有(yǒu)助于提供智能數據科(kē)學(xué)助手，為(wèi)業務分析員和(hé)數據科(kē)學(xué)家等。

大數據工具的(de)三個層次

普華永道(dào)的(de)移動數據和(hé)分析計劃首席技術官Ritesh Ramesh表示，就先進程度和(hé)市(shì)場戰略而言，大數據工具可(kě)分成三層金字塔。

第一(yī)層：最龐大的(de)是一(yī)系列開源工具。每家公司以開源起家，像Cloudera和(hé)Hortonworks。除了基本的(de)基礎設施、服務器和(hé)存儲外，沒有(yǒu)多大的(de)價值。大多數雲廠商(shāng)已将這一(yī)層實現了商(shāng)品化。

第二層：在這一(yī)層，大多數這類廠商(shāng)已有(yǒu)意增加各自(zì)的(de)市(shì)場份額，在開源工具上面構建一(yī)些專有(yǒu)應用程序，從而做(zuò)到與衆不同。舉例說，Cloudera開發了許多産品，比如(rú)駐留在Hadoop核心上的(de)數據科(kē)學(xué)平台。

第三層：這些是針對特定垂直領域的(de)應用程序。這些公司大多與普華永道(dào)、高(gāo)知特或埃森哲等系統集成商(shāng)合作。真正的(de)價值出在這裏，這對大數據工具開發商(shāng)來說也是非常有(yǒu)效的(de)競争策略。

Ramesh表示，除了基本功能外，這些工具的(de)三大方面備受歡迎。首先是數據處理(lǐ)工具。他說：“數據學(xué)習工具是客戶的(de)工具箱中确保數據質量和(hé)分析數據的(de)重要工具，比如(rú)處理(lǐ)5000萬行(xíng)數據以發現洞察力。”

他表示，領先的(de)廠商(shāng)包括Trifacta、Paxata和(hé)Talend。

第二大類應用程序是治理(lǐ)，比如(rú)你如(rú)何定義元數據。他說：“好多人在這方面遇到困難。人們(men)隻是将大量垃圾數據倒到數據湖。市(shì)面上可(kě)在數據湖中積極發揮功效的(de)工具不多。由于這項工作主要由IT人員完成，他們(men)更有(yǒu)興趣将數據倒到數據湖，而不是确立一(yī)種治理(lǐ)結構。”

主要廠商(shāng)包括Waterline Data、以數據編目工具見長(cháng)的(de)Tamr和(hé)Collibra。

Ramesh說，經常出現的(de)第三大需求是安全。他說：“人們(men)希望一(yī)個産品就有(yǒu)安全訪問的(de)所有(yǒu)層(列、行(xíng)和(hé)對象)。他們(men)希望一(yī)款産品為(wèi)不同的(de)數據對象支持用戶訪問和(hé)安全。這也是個新興領域。”

這個領域的(de)主要廠商(shāng)是Wandisco和(hé)FireEye。

2018貴陽大數據研讨會暨學(xué)術年(nián)會即将在貴陽維也納國(guó)際酒店召開，敬請期待！

來源：網絡大數據