大數(shù)據(jù)技術(shù)包括數(shù)據(jù)采集、數(shù)據(jù)訪問(wèn)、基礎(chǔ)設(shè)施、數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、模型預(yù)測(cè)和結(jié)果呈現(xiàn)。
1.數(shù)據(jù)收集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)收集是第 一步。根據(jù)MapReduce的應(yīng)用系統(tǒng)分類(lèi),大數(shù)據(jù)采集主要有四個(gè)來(lái)源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)和科學(xué)實(shí)驗(yàn)系統(tǒng)。
2.數(shù)據(jù)存取:大數(shù)據(jù)的存儲(chǔ)和移除采用不同的技術(shù)路線,大致可以分為三類(lèi)。第 一類(lèi)主要針對(duì)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。第二類(lèi)主要是針對(duì)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。第三類(lèi)是混合了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)。
3.基礎(chǔ)設(shè)施:云存儲(chǔ)、分布式文件存儲(chǔ)等。
4.數(shù)據(jù)處理:對(duì)于不同的采集數(shù)據(jù)集,可能會(huì)有不同的結(jié)構(gòu)和模式,比如文件、XML樹(shù)、關(guān)系表等。,這顯示了數(shù)據(jù)的異質(zhì)性。對(duì)于多個(gè)異構(gòu)數(shù)據(jù)集,需要進(jìn)一步整合或處理。對(duì)不同數(shù)據(jù)集的數(shù)據(jù)進(jìn)行收集、整理、清洗和轉(zhuǎn)換后,生成新的數(shù)據(jù)集,為后續(xù)的查詢(xún)和分析提供統(tǒng)一的數(shù)據(jù)視圖。
5.統(tǒng)計(jì)分析:假設(shè)檢驗(yàn)、顯著性檢驗(yàn)、方差分析、相關(guān)分析、T檢驗(yàn)、方差分析、卡方分析、偏相關(guān)分析、距離分析、回歸分析、簡(jiǎn) 單回歸分析、多元回歸分析、逐步回歸、回歸預(yù)測(cè)和殘差分析、嶺回歸、logistic回歸分析、曲線估計(jì)、因子分析、聚類(lèi)分析、主成分分析、因子分析、快速聚類(lèi)。
6.數(shù)據(jù)挖掘:目前現(xiàn)有的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù)有待完善;發(fā)展數(shù)據(jù)網(wǎng)絡(luò)挖掘、特殊群體挖掘、圖挖掘等新的數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術(shù);突破用戶(hù)興趣分析、網(wǎng)絡(luò)行為分析、情感語(yǔ)義分析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。
7.模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模與仿真。