地址:北京市密云區(qū)高嶺鎮(zhèn)政府辦公樓
王經(jīng)理 13393261468
Q Q:514468705/1049705527
郵箱:jhcxkj@163.com
新的工具捆綁了數(shù)據(jù)清理,拖放式編程以及云計算,可以幫助任何熟悉電子表格的人充分利用數(shù)據(jù)科學的力量。
數(shù)據(jù)科學可能從來都不是那么容易的,但它正變得越來越容易深入。像"機器學習"、"回歸"和"降維"這樣的術語雖然依然和以往一樣難以理解,但是人們正普遍希望能夠從這些技術中獲得好處,這導致產(chǎn)生了一些很好的工具,它們可以方便的為數(shù)據(jù)創(chuàng)建生產(chǎn)線,為我們想要尋找的答案提供支持。
這個秘密就類似于制造業(yè)的革命。正如標準化的部件幫助啟動了工業(yè)革命一樣,各種工具供應商的數(shù)據(jù)科學家已經(jīng)開發(fā)了一系列非常強大、擁有廣泛適應性的分析例程。他們標準化了接口,使得使用這些可互換的數(shù)據(jù)科學工具來構建自定義管道變得更加簡單了。
數(shù)據(jù)科學家過去常常需要絞盡腦汁,因為80%的工作都是通過用Python,Java或他們喜歡的語言來制作自定義例程并準備分析數(shù)據(jù)的,所以R或SASS中那些復雜的統(tǒng)計工具都可以完成它們的工作。而現(xiàn)在市場上充斥著各種復雜的工具,它們將數(shù)百個經(jīng)過良好設計的例程捆綁到了一個包中,以便為你完成大量重復且令人不快的數(shù)據(jù)清理和標準化工作。
這些新工具也為熟悉電子表格的人提供了機會。它們不會讓所有的準備工作都消失,但它們會讓事情變得更加容易。無需對數(shù)據(jù)格式大驚小怪,因為這些工具足夠聰明,可以做正確的事情。通常你只要打開文件就可以開始學習了。
這些工具還為云計算節(jié)省了大量成本。過去,數(shù)據(jù)科學家往往需要更強大的計算機來處理大數(shù)據(jù)集。而現(xiàn)在我們可以在云中租用更大、更快的機器,在提高處理速度的同時在每月報表完成時將硬件返回到池中,從而節(jié)省成本。
對于只需要訓練算法來預測明年趨勢的核心數(shù)據(jù)科學家和數(shù)據(jù)分析師來說,這些工具都是一個福音。所有用戶都可以享受使用復雜工具來正確處理數(shù)據(jù)的樂趣。不過,標準化也為全新的研究團隊深入研究數(shù)據(jù)科學提供了可能?,F(xiàn)在,你不需要掌握R語言或Python編程就可以開始了。
當然,我們?nèi)匀恍枰钊胨伎冀y(tǒng)計學和機器學習。這些工具雖然還不能回答關于什么情況下使用神經(jīng)網(wǎng)絡或聚類算法能夠獲得更好結果的策略性問題,但是它們可以使獲取所有數(shù)據(jù)變得簡單,并快速嘗試這兩種方法。當每個人能夠更容易的參與工業(yè)革命時,正如標準化消除了長期學徒和熟練工匠的需求一樣,這些數(shù)據(jù)工具也釋放出了越來越多的企業(yè)人員轉向復雜的數(shù)據(jù)分析以尋求進一步指導的潛力。
以下是有助于使數(shù)據(jù)科學實現(xiàn)民主化的六種工具。
Alteryx Alteryx平臺的核心是它的設計工具,一個可視化編程IDE,允許用戶拖放圖標,而不是輸入文本程序。Alteryx平臺的目標用戶既包括數(shù)據(jù)科學家,也包括了普通的"公民用戶",很好的迎合了那些不想在清理數(shù)據(jù)和修改數(shù)據(jù)以進行分析的細節(jié)方面遇到麻煩的人。該平臺試圖通過使用其可視化的編程模型來簡化準備工作以"顛覆數(shù)據(jù)準備中的80/20法則"。你只要將圖標拖放到數(shù)據(jù)管道中的正確位置,它就可以應用許多標準化的任務,比如按客戶編號來實現(xiàn)分組或連接兩個文件。
Alteryx還提供了許多用于分析數(shù)據(jù)和繪圖推斷的預定義預測模型。這些看起來像是用于數(shù)據(jù)處理的圖標,實際上都是相應的R或Python程序,Alteryx為你省去了處理它們的復雜性和基于文本編碼的麻煩。在設計工具中,數(shù)據(jù)會自己沿著圖標之間的直線流動,你不需要擔心逗號、方括號或其他的編碼問題。
現(xiàn)在,Alteryx平臺正朝著一個更多的以服務器驅動的模式發(fā)展,在這個模型中,你構建的代碼將駐留在一個可以擴展到更大數(shù)據(jù)集的服務器上。如果你的數(shù)據(jù)需要增強,Alteryx也已經(jīng)從Dun & Bradstreet或DigitalGlob等公司獲得了商業(yè)數(shù)據(jù)集授權,可以幫你自動填寫表格。
當你在個人PC上完成模型的設計時,Alteryx也提供了將模型發(fā)布到中央服務器的基礎設施,然后將圖形化摘要分發(fā)給業(yè)務中的每一個人。Promote工具會負責將日常生產(chǎn)數(shù)據(jù)分發(fā)給企業(yè)中合適的人員,以便他們能夠使用預測建模的結果。
這款設計工具的標價是每位用戶每年5195美元,但是如果想要使用附加的功能,比如包含人口統(tǒng)計數(shù)據(jù)或空間數(shù)據(jù)的數(shù)據(jù)集,則可能會增加33,800美元。中央服務器的起價為58,500美元,此外,Promote還提供了用于協(xié)作和連接的額外功能。
Domino Domino也是圍繞實驗室開始的一個可視化集成開發(fā)環(huán)境(IDE),能夠通過將圖標和管道連接在一起來構建模型。不同之處在于Domino也對其他工具開放。所有主要的和不太重要的基于Web的IDE都受到了支持,因為系統(tǒng)設計為所有這些IDE都進行了開放。大多數(shù)人可能會使用Jupyter或R-Studio,但其他工具,如Apache Zeppelin或SAS的工具也都得到了很好的支持。
Domino大部分的功能都致力于將數(shù)據(jù)轉換為模型所需的所有基礎設施。Domino的后端會仔細跟蹤各種版本的數(shù)據(jù)以及在此過程中的所有修訂和實驗。所有這些變更都會被無情地保存并鏈接到結果當中,以確保你可以隨時重新運行和復制結果。它非常強調(diào)存儲查詢的準確再現(xiàn),以便其他人可以在稍后發(fā)現(xiàn)并重用該工作。
與單一平臺相比,Domino更像是一個基于Web的云網(wǎng)絡操作系統(tǒng)。該平臺的開放性依賴于一種相對標準的機制,用于將數(shù)據(jù)存儲在文件中并保持修訂的一致性。幸運的是,磁盤存儲比以往任何時候都要更加便宜。
Domino的主要賣點之一是它的云集成。你的實驗將運行在與他人共享的強大機器池中。如果你碰巧希望將自己的代碼部署到堆棧中,那么底層體系結構將完全圍繞Docker來進行封裝和構建。你可以為你的作業(yè)配置最佳大小,并從池中借用硬件,這對于數(shù)據(jù)科學工作來說是一個很好的解決方案,這些工作通常是斷斷續(xù)續(xù)的,并且在代碼準備好時以塊的形式進行分派。這是一個很好的解決方案,特別適用于那些在每周、每月或每季度數(shù)據(jù)準備就緒時才會進行批量處理大部分計算的情況。
Domino的定價是"根據(jù)Domino所運行的位置(我們的托管基礎設施、你的私有云或內(nèi)部環(huán)境)而定的年度訂閱"。云選項將根據(jù)所消耗的資源對你進行收費。
RapidMiner RapidMiner是一個將數(shù)據(jù)轉換為可操作模型的自動化程度更高的工具。它的IDE允許用戶將數(shù)據(jù)轉換構建為由線來連接的圖標集合的可視化描述。最有用的部分可能是其AutoModel功能,它可以根據(jù)你的數(shù)據(jù)和目標為你組裝許多這樣的圖標。完成之后,你就可以打開模型并調(diào)整各個部分了。
有大量的擴展可以用來幫助你處理許多更奇特的挑戰(zhàn),比如理解從網(wǎng)站上下載下來的非結構化文本。還有許多用于處理時間序列數(shù)據(jù)的工具,例如用于重建丟失的數(shù)據(jù)元素以及形成(和測試)對未來的預測的工具。
如果你的數(shù)據(jù)集較大,RapidMiner也可以滿足你的需求。那些擁有并行解決方案的人可以使用RapidMiner的擁有Hadoop和Hive集成的版本"Radoop"。還有一個基于服務器的解決方案,可以從AWS,Azure或您自己的本地服務器配置云計算機。基于服務器的生態(tài)系統(tǒng)促進了與集中的數(shù)據(jù)和分析存儲庫的協(xié)作,這些數(shù)據(jù)和分析可以安排在生產(chǎn)中交付報告和見解。
每種產(chǎn)品的定價模型都是獨立的。桌面版有一個免費的社區(qū)版,但它缺少兩個最吸引人的特性:用于清理數(shù)據(jù)的TurboPrep和用于生成結果的AutoModel。一個初級版本的價格為每位用戶每年2,500美元起,該版本的數(shù)據(jù)行數(shù)限制為100,000行。更大的數(shù)據(jù)集和部署更多處理器的能力則需要更高的成本。在辦公場所安裝自己版本的服務器工具起價為15,000美元,但你也可以在RapidMiner的云版本上購買使用時間,起價為每小時6.75美元。
Knime Knime是一個開源的數(shù)據(jù)分析平臺,具有一個可視化的IDE,可以將各種數(shù)據(jù)處理和分析例程鏈接在一起。其核心軟件是免費發(fā)布的,但是一些插件和擴展也有相應的商業(yè)版本,并且費用主要用于支持開發(fā)。你還可以使用在云中或你自己的計算機上運行的服務器版本。
該軟件的基礎是用Java編寫的,所以Knime的許多集成都依賴于Java生態(tài)系統(tǒng)。用戶也許會注意到Knime IDE是構建在Eclipse之上的,這使得Java開發(fā)人員可能會更加熟悉它。該平臺可以處理所有主要的數(shù)據(jù)庫(MySQL,PostgreSQL)和云服務Amazon Athena,Redshift)中的數(shù)據(jù)以及任何其他具有JDBC兼容連接器的數(shù)據(jù)。Knime提供了一個與"數(shù)據(jù)庫內(nèi)處理"特別緊密的集成,這可以加速你的工作。它還集成了下一代的分布式數(shù)據(jù)工具,如Apache Spark。
它擁有一個強大的開源社區(qū)以支持大量的擴展和工作流程,可以自由使用,修改和定制,其大多數(shù)代碼托管在GitHub或Bitbucket上。此外,它還有大量的商業(yè)擴展,并提供集成支持。
那些嚴重依賴Google Web應用程序的公司也可能會喜歡更深層次的集成。Knime可以讀取和寫入Google表格中的數(shù)據(jù),這也是一種將數(shù)據(jù)分析引入經(jīng)常使用Google電子表格的辦公室的潛在有效方式。
其企業(yè)服務器產(chǎn)品有三種規(guī)格,包括了不同的額外功能。初級版本支持5個用戶和8個核心,每年8500美元起,主要針對分析團隊。而高級版本則允許你將結果分發(fā)給組織內(nèi)的其他人。
Talend Talend提供了一系列可以在桌面、本地數(shù)據(jù)中心或云中運行的應用程序。該公司的多層工具可以在轉換數(shù)據(jù)并進行分析之前使用,它會從各個倉庫和數(shù)據(jù)庫中收集數(shù)據(jù)。例如,管道設計器提供了一個可視化設計工具,用于從各種數(shù)據(jù)源提取數(shù)據(jù),然后可以使用標準工具或Python擴展對其進行分析。
其開源版本可以在幾個包中免費獲得,比如open Studio for Data Quality和Stitch數(shù)據(jù)加載器。云計算版本的起售價為每位用戶每月1,170美元,年度用戶和規(guī)模更大的團隊也可享受折扣。價格是按人數(shù)計算的,而不是基于消耗的計算資源。而Data Fabric的定價則是通過報價來完成的。
Looker Looker瞄準的是那些常因太多數(shù)據(jù)源和太多數(shù)據(jù)版本而引起混亂的用戶。它的產(chǎn)品創(chuàng)建了一個可靠精確的、受版本控制的數(shù)據(jù)來源,可以由下游的任何用戶操縱和繪制圖表。從業(yè)務用戶到后端開發(fā)人員,每個人都可以創(chuàng)建自己的儀表板,其中可以包含根據(jù)個人喜好配置的數(shù)據(jù)和圖表。 該平臺是圍繞著開源世界的許多標準而構建的。數(shù)據(jù)和代碼可以在Git的控制下發(fā)展。儀表板可視化則來自D3。你可以使用LookML來從SQL數(shù)據(jù)庫中收集數(shù)據(jù),LookML是一種類似于常規(guī)命令式編程語言的自定義查詢語言。
谷歌最近宣布將收購Looker并將其集成到谷歌云中。這次收購將如何影響該平臺還有待觀察。其價格可按要求進行提供。
其他能夠使數(shù)據(jù)更容易訪問的工具 上述工具并不是改變我們處理數(shù)據(jù)方式的唯一選擇。一些其他的工具和平臺也在集成類似的想法。主要的云計算公司也都提供了分析存儲系統(tǒng)中數(shù)據(jù)的工具。例如,Azure的Databricks提供了用于配置Apache Spark的靈活用戶界面,而Data Factory則提供了一個用于提取,轉換和加載所有數(shù)據(jù)的可視化工具。
一些工具會更側重于機器學習和其他形式的人工智能。亞馬遜的SageMaker簡化了構建、培訓和部署機器學習流程的工作,在一個開放的市場上提供了100多種算法和模型。H20.ai則提供了他們所謂的"無人駕駛AI",這是一個使用Apache Spark構建的開源平臺,可以用來簡化模型創(chuàng)建和分析。
以上這些都集中在了一組工具集上,這些工具可以提升我們探索數(shù)據(jù)的能力,讓我們更清楚地理解所有數(shù)字的含義。
來源:精密空調(diào) http://m.preweds.com