版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
內(nèi)存計算初探
2014-09-13大綱PPT模板下載:/moban/
行業(yè)PPT模板:/hangye/
節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/
優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/
Word教程:/word/Excel教程:/excel/
資料下載:/ziliao/PPT課件下載:/kejian/
范文下載:/fanwen/
試卷下載:/shiti/
教案下載:/jiaoan/
內(nèi)存計算WHYHOWWHENWHATWHY?SCQA
數(shù)據(jù)量越來越大運算越來越復雜響應時間要求越來越短性能越來越慢
用戶體驗越來越差傳統(tǒng)磁盤讀取速度ms級內(nèi)存讀取速度ns級內(nèi)存計算WHAT?內(nèi)存計算:將數(shù)據(jù)放在內(nèi)存中進行處理,并在內(nèi)存中進行大量的數(shù)據(jù)分析和計算。軟硬件一體的集成設備SAPHANAOracleExalyticsEMC固態(tài)硬盤其他sqllite、Altibase、eXtremeDB、fastDB等內(nèi)存數(shù)據(jù)庫產(chǎn)品,開源的鍵值對內(nèi)存數(shù)據(jù)庫Redis、微軟公司的圖數(shù)據(jù)計算系統(tǒng)Trinity、ApacheSparkSAPHANAExalytics總述靈活、多用途、與數(shù)據(jù)源無關的一套內(nèi)存工具,是一個交易型關系數(shù)據(jù)庫管理系統(tǒng)。一體化的集成系統(tǒng),可看做大的緩存設備,對目前Oracle數(shù)據(jù)庫和Exadate是一個很好的補充。共同點1.都使用內(nèi)存數(shù)據(jù)庫技術(shù)2.都是軟硬件集成設備3.都用來處理分析工作負載使用建議全新數(shù)據(jù)庫,超過原有Oracle性能10倍甚至100倍。在原有Oracle數(shù)據(jù)庫中添加一個智能緩存。WHAT?缺點優(yōu)點高效快速數(shù)據(jù)分配到各終端時帶寬的限制散熱問題緩存大量占用,如何清理問題針對內(nèi)存攻擊的信息安全問題原系統(tǒng)SAPHANA性能提升農(nóng)夫山泉運行運費報表24h37s2335倍遼寧電力物資項目管理15h4.8s11250倍遼寧電力訂單到付款分析30天28s92571倍特點一:加速數(shù)據(jù)訪問
“到2012年,70%的全球1000強企業(yè)會將明系數(shù)據(jù)導入內(nèi)存,以提升商務智能應用的性能。” -Gartner傳統(tǒng)數(shù)據(jù)庫磁盤讀取5毫秒內(nèi)存數(shù)據(jù)庫磁盤讀取5納秒特點二:數(shù)據(jù)分而治之數(shù)據(jù)內(nèi)存本地化:把大數(shù)據(jù)量和計算量分散到不同處理器并行處理:不同的服務器之間也共享同一組數(shù)據(jù)容災性:單一的服務器的DOWN機將不影響任何計算特點三:最小化數(shù)據(jù)傳輸When?適合:1.處理海量數(shù)據(jù),及實時獲得結(jié)果的數(shù)據(jù);2.模擬數(shù)據(jù)分析的結(jié)果,實現(xiàn)對市場未來發(fā)展的預測。理論上:內(nèi)存計算是一種在體系結(jié)構(gòu)層面上的解決方案,因此可以適用于不同的計算模式:1.基本的數(shù)據(jù)查詢分析計算2.批處理計算3.流式計算4.迭代計算5.圖計算。尋找應用場景:分析哪些需求需要這種快速分析的能力,能夠給業(yè)務帶來新的價值和競爭力。確定適用性:實際操作中其他因素的制約,考慮提速本身是否能夠影響到最終決策過程。(木桶短木板原理)HOW?—SAPHANASourceSystemSAPIn-memoryDatabaseALL?/Which?HOW?Spaceenough?Parts?Keytechnology?1.HANA運行時不是把所有的磁盤上的所有的數(shù)據(jù)都加載到內(nèi)存上。而是看你要用到哪些。2.HANA數(shù)據(jù)表的存儲是分行表和列表的。在工作的時候,行表需要全部load到內(nèi)存里,而列表因為可以分片,所以有時只需要把所需要的部分load到內(nèi)存里面就可以。加載的時間還可以,看表的大小及結(jié)構(gòu),大表的話應該也是毫秒級的,完全可以接受。
3.至于內(nèi)存夠不夠用,應該說夠用。一般都是上百G的內(nèi)存,而且也許數(shù)據(jù)表很大,也上百個G,但是如果是像列表這樣的,它有時是部分load進內(nèi)存的,不是全部,所以可以接受。HOW?--SAPHANA行列存儲行列存儲列式數(shù)據(jù)存儲的優(yōu)勢優(yōu)化的數(shù)據(jù)上載到中央處理器高效的數(shù)據(jù)壓縮快速的數(shù)據(jù)聚合可以與行式數(shù)據(jù)存儲的表關聯(lián)A10€B35$C2€D40€E12$ABCDE103524012€$€€$memoryaddress行式的數(shù)據(jù)組織列式的數(shù)據(jù)組織A10€B35$C2€D40€E12$概念視圖映射到內(nèi)存數(shù)據(jù)壓縮S:內(nèi)存容量–增長C:數(shù)據(jù)全部存儲–依舊昂貴A:大多企業(yè)解決方案----數(shù)據(jù)壓縮優(yōu)勢:列式數(shù)據(jù)有著相同的數(shù)據(jù)類型,更適合數(shù)據(jù)壓縮;減少CPU和主存之間傳輸?shù)臄?shù)據(jù)量,提高傳輸效率。分類:Lightweight:prefix/run-length/cluster/indirect/DeltaencodingHeavyweight:更高的壓縮率,同樣編碼和解碼代價也很昂貴。前綴編碼S:一列數(shù)據(jù)包含占主導地位(predominant)的值和其余的值C:在非壓縮存儲中需要存儲大量相同的值A:前綴編碼可以很好解決這個問題前提:數(shù)據(jù)根據(jù)主值進行列存儲且特征向量以主值開始Table:世界人口表按國家人口數(shù)降序排列column:國家1.4billionDirectaccess前綴編碼—壓縮率分析Table:世界人口表按國家人口數(shù)降序排列column:國家1.4billion存儲200個國家需要的bit數(shù):log2(200)->8壓縮前數(shù)據(jù):特征向量存儲每個8bit共8billion次:8billion*8bit=8billionByte=7.45GB壓縮后數(shù)據(jù):用額外的31bit存儲重復次數(shù)(log2(1.4billion)->31)特征向量存儲空間:(8billion-1.4billion)*8bit+31bit+8bit=6.15G壓縮率:(7.45GB-6.15GB)/7.45GB=17%行程編碼S:特征數(shù)量包含少數(shù)特定值C:特定值出現(xiàn)的次數(shù)非常大A:行程編碼可以很好解決這個問題前提:為獲得最大壓縮率,列存儲需要排序,因此相同元素相鄰Table:世界人口表按國家人口數(shù)降序排列column:國家Directaccess行程編碼—壓縮率分析Table:世界人口表按國家人口數(shù)降序排列column:國家存儲200個國家需要的bit數(shù):log2(200)->8壓縮前數(shù)據(jù):7.45GB壓縮后數(shù)據(jù):存儲所有特定值(國家):200*8bit存儲起始位置:200*33bit(log2(8billion)->33bit)
額外33bit存儲最后一個值出現(xiàn)的次數(shù)
總存儲:200*(33bit+8bit)+33bit≈1KB壓縮率:(7.45GB-1KB)/7.45GB另一種:NumberofoccurrencesIndirectaccess集群編碼一列分成相等大小的block,特征向量被分成固定大?。?024)的N個blocks。如果一個cluster包含的數(shù)據(jù)值相同,則用一個值來替換這個cluster中的所有值;否則保持不變。同時,用額外的一個長度為N的bitvector表示各個block是否被替換過。Table:世界人口表按國家、城市排序column:城市Indirectaccess集群編碼—壓縮率分析存儲1million個城市需要的bit數(shù):log2(1million)->20壓縮前數(shù)據(jù):8billion*20bit=18.6GB壓縮后數(shù)據(jù):每個block1024個元素,共N=8billion/1024=7.8million個block最壞情況下,每一個城市對應了一個未壓縮的block。incompressibleblocks+compressibleblocks+bitvector=1million*1024*20bit+(7.8-1)million*20bit+7.8million*1bit≈2.4GB壓縮率:(18.6GB-2.4GB)/18.6GB=87%Table:世界人口表按國家、城市排序column:城市集群編碼—計算記錄的位置集群編碼不支持直接訪問記錄。例:計算Berlin城市中有多少男人和女人。先找到berlin所對應的valueID,隨后計算其rowID的范圍為:10-16,最后計算gender的值。間接編碼與集群編碼類似,間接編碼作用于blocks(通常每個block1024個元素)。如果數(shù)據(jù)blocks有少量的特定值,采用間接編碼比較有效。前提:表中另一列元素已排序,且這兩列有相關性。Directaccess兩個索引:全局字典和本地字典Table:世界人口表按國家排序column:firstname名字間接編碼—壓縮率分析存儲5million個名字需要的bit數(shù):log2(5million)->23壓縮前數(shù)據(jù):8billion*23bit=21.4GB壓縮后數(shù)據(jù):每個block1024個元素,共N=8billion/1024=7.8million個block為簡化計算,假設同一國家中每1024個人平均有200個不同的名字(log2(200)->8bit),因此只需要用8bit代替23bit。Localdictionaries+compressedattributevector=(200*23bit+64bit)*7.8millionblocks+8million*8bit≈11.8GB壓縮率:(21.4GB-11.8GB)/21.4GB=44%兩個索引:全局字典和本地字典Table:世界人口表按國家排序column:firstname名字每一個block都壓縮了間接編碼—直接訪問間接編碼可以進行直接訪問。例:選擇USA國家中名字為John的生日。先找到USA所對應的recordIDs,然后確定相應的blocks,確定全局字典中John對應的valueID(576),對應于每一個block,globalvalueID(576)都轉(zhuǎn)化為localvalueID(如3),然后在block中掃描localvalueID,相關的recordsIDs的生日項就可確認。Delta編碼以上壓縮技術(shù)是降低特征向量的大小。還有一些壓縮技術(shù)降低存儲數(shù)據(jù)的數(shù)量。假設字典中的數(shù)據(jù)是alpha-numerically排序的,經(jīng)常有很多的數(shù)據(jù)是有相同的前綴。Delta編碼可以只將相同的前綴存儲一次。Delta編碼—壓縮率分析以城市為例。存儲1million個城市,假設最長的城市名有49個letter。壓縮前數(shù)據(jù):1million*49Byte=46.7MB壓縮后數(shù)據(jù):每個block16個值,共1million/16=62500個block。另外假定如下數(shù)據(jù)以方便計算:城市名字的平均長度為7,重復的字母數(shù)為3,最長城市名49letters(log2(49)->6bit總存儲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國室內(nèi)門行業(yè)發(fā)展現(xiàn)狀及前景趨勢分析報告
- 2024-2030年中國地波那非酮項目可行性研究報告
- 2024-2030年中國雙耳環(huán)行業(yè)發(fā)展狀況規(guī)劃分析報告
- 眉山職業(yè)技術(shù)學院《系統(tǒng)仿真技術(shù)》2023-2024學年第一學期期末試卷
- 2024年版風力發(fā)電項目施工合同詳細條款
- 馬鞍山職業(yè)技術(shù)學院《納米科學技術(shù)導論》2023-2024學年第一學期期末試卷
- 呂梁學院《藥物化學(I)》2023-2024學年第一學期期末試卷
- 2024年建筑行業(yè)工程承包協(xié)議更新版版B版
- 2021-2022學年云南省文山壯族苗族自治州高一上學期期中語文試題
- 洛陽商業(yè)職業(yè)學院《小學數(shù)學教學設計與技能訓練》2023-2024學年第一學期期末試卷
- 2022年度尾礦庫安全風險辨識及分級管控表
- 職業(yè)學院食品藥品監(jiān)督管理專業(yè)核心課《企業(yè)管理》課程標準
- 投標項目進度計劃
- 關于發(fā)展鄉(xiāng)村產(chǎn)業(yè)的建議
- 登泰山記-教學課件
- 2024版水電費繳費協(xié)議范本
- 北師大版四年級數(shù)學上冊第五單元《方向與位置》(大單元教學設計)
- 2024年西安交大少年班選拔考試語文試卷試題(含答案詳解)
- 2024年云南省昆明滇中新區(qū)公開招聘20人歷年重點基礎提升難、易點模擬試題(共500題)附帶答案詳解
- 2024年國開思政課《馬克思主義基本原理》大作業(yè)、形考及學習行為表現(xiàn)試題及答案請理論聯(lián)系實際談一談你對實踐的理解
- 2024屆浙江高考英語寫作分類訓練:建議信(含答案)
評論
0/150
提交評論