目錄:
“就像望遠鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式……”。
大數(shù)據(jù)的4V特征-來源
公司的“大數(shù)據(jù)”
隨著公司業(yè)務(wù)的增長,大量和流程、規(guī)則相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)也爆發(fā)式增長。比如:
1、業(yè)務(wù)系統(tǒng)現(xiàn)在平均每天存儲20萬張圖片,磁盤空間每天消耗100G;
2、平均每天產(chǎn)生簽約視頻文件6000個,每個平均250M,磁盤空間每天消耗1T;
……
“草船借箭”和大數(shù)據(jù)有什么關(guān)系呢?對天象的觀察是基于一種對風(fēng)、云、溫度、濕度、光照和所處節(jié)氣的綜合分析這些數(shù)據(jù)來源于多元化的“非結(jié)構(gòu)”類型,并且數(shù)據(jù)量較大,只不過這些數(shù)據(jù)輸入到的不是電腦,而是人腦并最終通過計算分析得出結(jié)論。
Hadoop體系架構(gòu)
Hadoop核心設(shè)計
HDFS介紹-文件讀流程
MapReduce——映射、化簡編程模型
輸入數(shù)據(jù)->Map分解任務(wù)->執(zhí)行并返回結(jié)果->Reduce匯總結(jié)果->輸出結(jié)果
Hbase——分布式數(shù)據(jù)存儲系統(tǒng)
Client:使用HBase RPC機制與HMaster和HRegionServer進行通信
Zookeeper:協(xié)同服務(wù)管理,HMaster通過Zookeepe可以隨時感知各個HRegionServer的健康狀況
HMaster: 管理用戶對表的增刪改查操作
HRegionServer:HBase中最核心的模塊,主要負責(zé)響應(yīng)用戶I/O請求,向HDFS文件系統(tǒng)中讀寫數(shù)據(jù)
HRegion:Hbase中分布式存儲的最小單元,可以理解成一個Table
HStore:HBase存儲的核心。由MemStore和StoreFile組成。
HLog:每次用戶操作寫入Memstore的同時,也會寫一份數(shù)據(jù)到HLog文件
還有哪些NoSQL產(chǎn)品?
一個高并發(fā)網(wǎng)站的DB進化史
關(guān)系模型>聚合數(shù)據(jù)模型的轉(zhuǎn)換-基本變換
關(guān)系模型>聚合數(shù)據(jù)模型的轉(zhuǎn)換-內(nèi)嵌變換
關(guān)系模型>聚合數(shù)據(jù)模型的轉(zhuǎn)換-分割變換
關(guān)系模型>聚合數(shù)據(jù)模型的轉(zhuǎn)換-內(nèi)聯(lián)變換
Hadoop2.0
MapReduce:
JobTracker:協(xié)調(diào)作業(yè)的運行。
TaskTracker:運行作業(yè)劃分后的任務(wù)。
轉(zhuǎn)載請注明來自36大數(shù)據(jù)(36dsj.com):36大數(shù)據(jù) ? 多圖技術(shù)貼:深入淺出解析大數(shù)據(jù)平臺架構(gòu)
聯(lián)系客服