我國大資料分析工具的研究情況探析論文

我國大資料分析工具的研究情況探析論文

  2016年流行一個術語叫做資料主義,資料主義認為整個世界由資料流構成,資料每天以指數級增長,電話、飛機、網購、出行都是一個新的資料。資料將會有越來越重要的作用,同時人的地位慢慢開始下降。未來人的價值取決於對資料流的分析解讀能力,因此分析技術在未來變得越來越重要。

  資料和人之間將透過演算法連線,所以我們推出一個新的概念叫演算法經濟或演算法革命。傳統的演算法很多,如最早的數學演算法,後來的天文演算法,現在的統計學開啟的演算法,但都不能滿足機器學演算法。追求更智慧化正改變著人類的程序,資料離開了演算法就沒有太多的意義。

  到了新時代,我們發現很多是不規則的非結構化資料,更重要的是希望透過機器做一些事情,這對演算法提出了新的要求。人工智慧主要包括以生物為基礎的生物智慧和以演算法為基礎的機器智慧。而機器智慧的核心是資料智慧,這完全取決於演算法。

  大資料分析的工具是怎麼發展的?第一代是基於關係型資料庫的分析,在這方面中國人比較落後,因此我們推出了馬克威關係型資料庫的分析軟體,現在已經有很多使用者了。

  而到了大資料時代,關係型資料庫不能滿足大量資料分析的需求,所以出現一個新的演算法-分散式的演算法,要呼叫分散式儲存的資料進行分析,就需要分散式的演算法體系,到目前為止,演算法體系只有一個開源,是簡單的9個演算法,而且對計算結果不敢負責,另外是馬克威分散式演算法軟體-馬克威雲挖掘軟體。

  這一點上我們已把傳統的關係型資料庫拋在後面。我們和阿里巴巴合作開發該軟體,在阿里雲測試3000臺伺服器,一張表176億條記錄,68個變數,體積大概是3.4T.這張表是指淘寶的零售表,我們計算的結果是36秒,這意味著可以做很多的分析。這是真正用了大資料演算法,不是停留在理論。

  馬克威是完全基於分散式架構來重新編寫,是真正的分散式軟體,其理念是實現從資料找演算法變成演算法找資料,透過演算法逐步計算,然後將結果累計起來。

  就在剛剛完成了分散式不久,Spark RDD用Scala語言編寫的分散式記憶體資料處理應用,馬克威把分散式演算法變成分散式記憶體計算,把我們的演算法和Sp a rk對接。這意味著當下演算法的發展已到了比較新的生態-分散式記憶體生態,既可以處理大量資料,同時可以快速解決問題。

  還有一個發展趨勢,未來是人工智慧的時代,人工智慧說到底拼的還是演算法模型。因此,天律公司正在研製基於硬體技術的嵌入式晶片。

  機器智慧就是機器學習演算法,大部分還是在軟體中執行,其速度跟不上工業裝置的需求。因此我們採用FPGA技術,把演算法做成極速嵌入式的裝置,可以滿足人機一體化的'需求。目前FPGA是最快的技術,且有很多機器裝置在用。我們取得了一些初步成果,第一個應用是上海期貨,而期貨高頻交易是因為大家需要更快地看到行情。

  我們推出中國第一個演算法交易平臺,這裡有一個理念-套裝軟體衰落,演算法模型興起。現在我們將所有的演算法重新編寫,編成大量小的模型,部署在雲端演算法的交易平臺上。我們的理念是第一代網際網路門戶,如新浪、搜狐、網易;第二代網際網路交易平臺,如阿里巴巴、京東、1號店;第三代演算法平臺,即知識產品、智慧產品在網際網路的交易。我們正在緊鑼密鼓測試我們的平臺,希望我們的演算法能夠為社會各領域服務,由現在的B2B變成B2C或C2B,允許別人把他們的演算法模型拿到我們的平臺交易,這是我們開創的新商業模式。

  15年以來,我們專注的一件事情就是演算法。我們有演算法大全、應用模型大全、演算法學院,還有集權的文件,併網羅全世界難找到的開源演算法。我們將免費的演算法知識都彙集到一個平臺上,要讓所有的中國人一想到分析和演算法,就上馬克威演算法平臺。

  天律公司於2001年成立,是中國第一家真正做大資料分析化軟體的公司,我們現在是國家統計局“大資料與統計建模”的指定廠家,以及全國大學生統計建模競賽(SUCM)的指定參賽軟體,國家火炬計劃專案、中國商務智慧領軍品牌,國家統計局、海關總署、商務部、環保部、水利部、國家質檢總局、上海世博會,阿里巴巴等網際網路公司,以及一些大型企業和高校都是我們的客戶。

  我們有五大產品,馬克威雲挖掘,馬克威分析系統、馬克威決策支援平臺、馬克威演算法交易平臺、馬克威硬體極速交易系統。這些系統得到很多金融界朋友的認可。

最近訪問