前端資料開發有哪些

  你有兩年以上的前端開發經驗嗎?你會用資料開發輔助技能嗎?下面由小編為大家整理的前端資料開發,希望大家喜歡!

  前端資料開發

  01、Spark

  一個高速、通用大資料計算處理引擎。擁有Hadoop MapReduce所具有的優點,但不同的是Job的中間輸出結果可以儲存在記憶體中,從而不再需要讀寫HDFS,因此Spark能更好地適用於資料探勘與機器學習等需要迭代的MapReduce的演算法。它可以與Hadoop和Apache Mesos一起使用,也可以獨立使用。

  02、Kinesis

  可以構建用於處理或分析流資料的自定義應用程式,來滿足特定需求。Amazon Kinesis Streams 每小時可從數十萬種來源中連續捕獲和儲存數TB資料,如網站點選流、財務交易、社交媒體源、IT日誌和定位追蹤事件。

  03、Trident

  是對Storm的更高一層的抽象,除了提供一套簡單易用的流資料處理API之外,它以batch***一組tuples***為單位進行處理,這樣一來,可以使得一些處理更簡單和高效。

  前端資料查詢開發

  01、Presto

  是一個開源的分散式SQL查詢引擎,適用於互動式分析查詢,可對250PB以上的資料進行快速地互動式分析。Presto的設計和編寫是為了解決像Facebook這樣規模的商業資料倉庫的互動式分析和處理速度的問題。Facebook稱Presto的效能比諸如Hive和MapReduce要好上10倍有多。

  02、 Drill

  於2012年8月份由Apache推出,讓使用者可以使用基於SQL的查詢,查詢Hadoop、NoSQL資料庫和雲端儲存服務。它能夠執行在上千個節點的伺服器叢集上,且能在幾秒內處理PB級或者萬億條的資料記錄。它可用於資料探勘和即席查詢,支援一系列廣泛的資料庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌雲端儲存和Swift。

  03、Phoenix

  是一個Java中間層,可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫,並且提供了一個客戶端可嵌入的JDBC驅動。Phoenix查詢引擎會將SQL查詢轉換為一個或多個HBase scan,並編排執行以生成標準的JDBC結果集。

  前端資料框架開發

  01、 Hadoop

  一個開源框架,適合執行在通用硬體,支援用簡單程式模型分散式處理跨叢集大資料集,支援從單一伺服器到上千伺服器的水平scale up。Apache的Hadoop專案已幾乎與大資料劃上了等號,它不斷壯大起來,已成為一個完整的生態系統,擁有眾多開源工具面向高度擴充套件的分散式計算。高效、可靠、可伸縮,能夠為你的資料儲存專案提供所需的YARN、HDFS和基礎架構,並且執行主要的大資料服務和應用程式。

  02、Samza

  出自於LinkedIn,構建在Kafka之上的分散式流計算框架,是Apache頂級開源專案。可直接利用Kafka和Hadoop YARN提供容錯、程序隔離以及安全、資源管理。

  03、Storm

  Storm是Twitter開源的一個類似於Hadoop的實時資料處理框架。程式設計模型簡單,顯著地降低了實時處理的難度,也是當下最人氣的流計算框架之一。與其他計算框架相比,Storm最大的優點是毫秒級低延時。