這些年,大數(shù)據(jù)作為一個時髦概念,出現(xiàn)頻率很高,關(guān)注度也很高。它不只是一項數(shù)據(jù)存儲技術(shù),而是一系列和海量數(shù)據(jù)相關(guān)的抽取、集成、管理、分析、解釋技術(shù),是通過獲取、存儲、分析,從大容量數(shù)據(jù)中挖掘價值的一種全新的技術(shù)構(gòu)。
大數(shù)據(jù)的處理過程可以分為大數(shù)據(jù)采集、存儲、結(jié)構(gòu)化處理、隱私保護(hù)、挖掘、結(jié)果展示(發(fā)布)等。各種領(lǐng)域的大數(shù)據(jù)應(yīng)用一般都會涉及到這些基本過程,但不同應(yīng)用可能會有所側(cè)重。
選擇合適的大數(shù)據(jù)技術(shù)平臺應(yīng)當(dāng)考慮以下因素:
(1)平臺的集成度
好的平臺應(yīng)該具有較高的集成度,為用戶提供良好的操作界面,具有完善的幫助和使用手冊、系統(tǒng)易于配置、移植性好。同時隨著目前軟件開源的趨勢,開源平臺有助于其版本的快速升級,盡快發(fā)現(xiàn)其中的bug,此外,開源的架構(gòu)也比較容易進(jìn)行擴(kuò)展,植入更多的新算法,這對于最終用戶而言也是比較重要的。
(2)平臺的功能與性能
由于不同平臺側(cè)重的功能不同,平臺的性能也就有很多需要考察的方面。比如對于存儲平臺來說,數(shù)據(jù)的存儲效率、讀寫效率、并發(fā)訪問能力、對結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲的支持,所提供的數(shù)據(jù)訪問接口等方面就是比較重要的。對于大數(shù)據(jù)挖掘平臺來說,所支持的挖掘算法、算法的封裝程度、數(shù)據(jù)挖掘結(jié)果的展示能力、挖掘算法的時間和空間復(fù)雜度等,是比較重要的指標(biāo)。
(3)是否符合技術(shù)發(fā)展趨勢
大數(shù)據(jù)技術(shù)是當(dāng)前發(fā)展和研究的熱點,其最終將走向逐步成熟,可以預(yù)見在這個過程中,并非所有的技術(shù)平臺都能生存下來。只有符合技術(shù)發(fā)展趨勢的技術(shù)平臺才會被用戶、被技術(shù)開發(fā)人員所接受。因此,一些不支持分布式、集群計算的平臺大概只能針對較小的數(shù)據(jù)量,側(cè)重于對挖掘算法的驗證。而與云計算、物聯(lián)網(wǎng)、人工智能聯(lián)系密切的技術(shù)平臺將成為主流,是技術(shù)發(fā)展趨勢。