




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
xx大學(xué)大數(shù)據(jù)與信息工程學(xué)院大數(shù)據(jù)實驗教學(xué)平臺建設(shè)方案
目錄189701概述 2106081.1背景 2201911.2建設(shè)目標(biāo) 2289152科研教學(xué)大數(shù)據(jù)平臺概要 3321302.1總體架構(gòu)設(shè)計 3168032.2大數(shù)據(jù)教學(xué)科研平臺配套資源 4126102.2.1內(nèi)容充實的課程體系 45302.2.2多元化的大數(shù)據(jù)資源包 5300912.3科研教學(xué)大數(shù)據(jù)平臺優(yōu)勢 7231842.3.1安全可靠的實驗環(huán)境,大幅度提升大數(shù)據(jù)技能 7229442.3.2桌面虛擬化平臺架構(gòu) 8196532.3.3增加高校硬實力和影響力 8292583科研教學(xué)大數(shù)據(jù)平臺詳細(xì)設(shè)計 9217693.1桌面虛擬化 95983.1.1平臺整體架構(gòu) 9193333.1.2平臺組件解析 10183423.2大數(shù)據(jù)實驗一體機(jī) 10111133.2.1架構(gòu)設(shè)計 1166853.2.2大數(shù)據(jù)資源池建設(shè) 12227113.2.3大數(shù)據(jù)教學(xué)基礎(chǔ)平臺 17129853.3教學(xué)云盤 213673.3.1網(wǎng)盤系統(tǒng)設(shè)計 21257403.3.2文件同步管理系統(tǒng) 24238463.3.3文件分析系統(tǒng) 2778013.3.4云創(chuàng)網(wǎng)盤特點 28261893.4深度學(xué)習(xí) 309903.4.1深度學(xué)習(xí)一體機(jī) 31170723.4.2準(zhǔn)系統(tǒng) 3370633.4.3GPU 34
概述背景全球在2010年正式進(jìn)入ZB時代,根據(jù)IDC監(jiān)測,人類自有史以來所有數(shù)據(jù)量大約每18個月翻一番,意味著人類在最近18個月產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量,預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,是2010年的近30倍。大數(shù)據(jù)的需求趨勢越來越多。大數(shù)據(jù)科學(xué)研究也在不斷壯大,美國哥倫比亞大學(xué)和紐約大學(xué)、澳大利亞悉尼科技大學(xué)、日本名古屋大學(xué)、韓國釜山國立大學(xué)等紛紛成立大數(shù)據(jù)科學(xué)研究機(jī)構(gòu);美國加州大學(xué)伯克利分校和伊利諾伊大學(xué)香檳分校、英國鄧迪大學(xué)、中國香港中文大學(xué)等一大批高校開設(shè)了大數(shù)據(jù)科學(xué)課程。目前全球都面臨大數(shù)據(jù)人才荒,在未來5-10年,我國大數(shù)據(jù)市場規(guī)模年均增速將超過30%,而大數(shù)據(jù)人才缺口將突破150萬,目前大數(shù)據(jù)人才平均月薪達(dá)1.5萬,在BAT發(fā)布的招聘職位中,大數(shù)據(jù)人才超過60%,因此在高校開發(fā)云計算大數(shù)據(jù)科研平臺,建立云計算大數(shù)據(jù)科研實驗室、創(chuàng)設(shè)云計算大數(shù)據(jù)教學(xué)培訓(xùn),實現(xiàn)高校教學(xué)科研一體化流程,將為高校增加學(xué)生就業(yè)機(jī)會和薪資水平,逐步培養(yǎng)當(dāng)今互聯(lián)網(wǎng)時代IT行業(yè)的大數(shù)據(jù)人才起到至關(guān)重要的作用。建設(shè)目標(biāo)xx大學(xué)大數(shù)據(jù)與信息工程學(xué)院著眼于未來,著手從全球的技術(shù)重點難點-大數(shù)據(jù)的科研和教學(xué)出發(fā),擬打造中國大數(shù)據(jù)教學(xué)科研的標(biāo)桿,建設(shè)新一代的大數(shù)據(jù)研究教學(xué)基地,建立一套具有高可靠、可在線彈性伸縮,提供數(shù)據(jù)內(nèi)在關(guān)系和價值的大數(shù)據(jù)科研教學(xué)平臺,教學(xué)平臺具體建設(shè)目標(biāo)如下:建設(shè)桌面虛擬化平臺,解決普通PC電腦在教學(xué)過程中產(chǎn)生的維護(hù)難、易感染病毒、數(shù)據(jù)易丟失等問題。建立大數(shù)據(jù)實驗教學(xué)一體化平臺,供高校師生進(jìn)行日常的大數(shù)據(jù)教學(xué)以及上機(jī)實驗等活動。大數(shù)據(jù)實驗教學(xué)配套教材,實驗手冊以及高清視頻教程。建設(shè)配套網(wǎng)絡(luò)云盤系統(tǒng),實現(xiàn)教學(xué)資源、相關(guān)資料的備份和共享。建立大數(shù)據(jù)深度學(xué)習(xí)一體機(jī),進(jìn)行高校深度學(xué)習(xí)的科研平臺??蒲薪虒W(xué)大數(shù)據(jù)平臺概要總體架構(gòu)設(shè)計大數(shù)據(jù)教學(xué)科研整體解決方案架構(gòu)圖針對高校大數(shù)據(jù)實驗教學(xué)過程中產(chǎn)生的問題,云創(chuàng)大數(shù)據(jù)為各大高校量身定制了大數(shù)據(jù)軟硬件一體化教學(xué)科研平臺,平臺以大數(shù)據(jù)實驗一體機(jī)為核心,通過應(yīng)用容器技術(shù),在容器中可根據(jù)需求部署Hadoop、Spark、Hbase等等進(jìn)行相應(yīng)的實驗教學(xué)活動,平臺以少量機(jī)器虛擬大量實驗集群,供大量學(xué)生同時擁有多套集群進(jìn)行實驗,而每個學(xué)生的實驗環(huán)境不僅相互隔離,方便高效的完成實驗,而且實驗彼此不干擾,即使某個實驗環(huán)境被破壞,對其他人也沒有影響,一鍵重啟就可以擁有一套新集群,大幅度節(jié)省了硬件和人員管理的投入成本。同時為了易于管理、保證數(shù)據(jù)安全,實驗室中全部采用虛擬化桌面系統(tǒng),用戶的操作系統(tǒng)和應(yīng)用環(huán)境是在平臺上虛擬出來的,通過網(wǎng)絡(luò)將圖像傳輸?shù)浇K端上顯示,因此應(yīng)用的執(zhí)行全部在服務(wù)器上,終端只作為一個輸入輸出設(shè)備,更加安全和可靠。目前,高校大數(shù)據(jù)的教學(xué)、科研不僅缺少相應(yīng)的實驗設(shè)備,同時對于具體實驗內(nèi)容和實驗步驟等也缺少相應(yīng)的經(jīng)驗,對此云創(chuàng)大數(shù)據(jù)實驗教學(xué)整體方案提供一套完整的實驗教案,一方面通過大數(shù)據(jù)教材、講義PPT、視頻課程等理論學(xué)習(xí),幫助學(xué)生建立從大數(shù)據(jù)監(jiān)測與收集、存儲與處理、分析與挖掘直至大數(shù)據(jù)創(chuàng)新的完整知識體系,另一方面,搭配教學(xué)組件安裝包及實驗數(shù)據(jù)、實驗手冊、專業(yè)網(wǎng)站等一系列資源,使高??稍?6個大數(shù)據(jù)實驗中任意挑選并輕松完成實驗,大幅度降低大數(shù)據(jù)課程的學(xué)習(xí)門檻。同時實驗室的教學(xué)材料、實驗手冊等教學(xué)資源通過網(wǎng)絡(luò)云盤進(jìn)行共享,云創(chuàng)網(wǎng)絡(luò)云盤系統(tǒng)是基于云創(chuàng)cStor云存儲系統(tǒng)上構(gòu)建私有云平臺,為用戶提供了安全、穩(wěn)定、高效、性價比高的數(shù)據(jù)管理服務(wù),提供在線預(yù)覽、斷點續(xù)傳、文件自動同步、局域網(wǎng)加速、自動備份、外鏈管理、預(yù)覽權(quán)限等功能。大數(shù)據(jù)教學(xué)科研平臺配套資源作為一個可供大量學(xué)生完成大數(shù)據(jù)與云計算實驗的集成環(huán)境,該平臺同步提供了配套的培訓(xùn)服務(wù),對于教學(xué)組件的安裝、配置,教材、實驗手冊等具體應(yīng)用提供一站式服務(wù),有助于高校更好地滿足課程設(shè)計、課程上機(jī)實驗、實習(xí)實訓(xùn)、科研訓(xùn)練等多方面需求,并在一定程度上緩解大數(shù)據(jù)師資不足的問題。對于各大高校而言,即使沒有任何大數(shù)據(jù)實驗基礎(chǔ),該平臺也能助其輕松開展大數(shù)據(jù)與云計算的教學(xué)、實驗與科研。具體資源如下:內(nèi)容充實的課程體系在《實戰(zhàn)Hadoop2.0——從云計算到大數(shù)據(jù)》和實驗手冊的指導(dǎo)之下,大數(shù)據(jù)實驗一體機(jī)解決方案涵蓋大數(shù)據(jù)算法、接口、工具、平臺等多方面內(nèi)容,從大數(shù)據(jù)監(jiān)測與收集、大數(shù)據(jù)存儲與處理、大數(shù)據(jù)分析與挖掘直至大數(shù)據(jù)創(chuàng)新,幫助高校構(gòu)建完善的大數(shù)據(jù)課程體系。課程體系多元化的大數(shù)據(jù)資源包《實戰(zhàn)Hadoop2.0》:國內(nèi)第一本Hadoop編程書籍的升級版——《實戰(zhàn)Hadoop2.0》及其配套PPT(國內(nèi)知名云計算專家、中國信息協(xié)會大數(shù)據(jù)分會副會長劉鵬傾力打造)實戰(zhàn)Hadoop2.0綜合36個大數(shù)據(jù)實驗的實驗手冊及配套高清視頻課程:涵蓋原理驗證、綜合應(yīng)用、自主設(shè)計及創(chuàng)新的多層次實驗內(nèi)容,每個實驗呈現(xiàn)詳細(xì)的實驗?zāi)康摹嶒瀮?nèi)容、實驗原理和實驗流程指導(dǎo),配套相應(yīng)的實驗數(shù)據(jù)和高清視頻課程,參照手冊即可輕松完成每個實驗。實驗一實驗環(huán)境簡介實驗二集群實驗:配置集群環(huán)境實驗三HDFS實驗:部署HDFS實驗四HDFS實驗:讀寫HDFS實驗五HDFS實驗:WebHDFS實驗六YARN實驗:部署與提交YARN任務(wù)實驗七M(jìn)apReduce實驗:WordCount實驗八MapReduce實驗:SecondarySort實驗九MapReduce實驗:每天新增用戶數(shù)實驗十Spark實驗:部署Spark實驗十一Spark實驗:SparkDemo實驗十二Spark實驗:Spark-sql實驗十三Spark實驗:Spark-Streaming實驗十四Spark實驗:Graphx實驗十五ZooKeeper實驗:部署ZooKeeper實驗十六ZooKeeper實驗:進(jìn)程協(xié)作實驗十七HBase實驗:部署HBase實驗十八HBase實驗:新建HBase表實驗十九Storm實驗:部署Storm實驗二十Storm實驗:實時WordCountTopology實驗二十一Storm實驗:調(diào)試Storm-App實驗二十二Hive實驗:部署Hive實驗二十三Hive實驗:Hive建表實驗二十四Pig實驗:部署Pig實驗二十五Pig實驗:Pig版WordCount實驗二十六Oozie實驗:部署Oozie實驗二十七Oozie實驗:部署Oozie任務(wù)實驗二十八Flume實驗:使用Flume接受telnet數(shù)據(jù)實驗二十九Flume實驗:使用Flume向HDFS導(dǎo)數(shù)據(jù)實驗三十Sqoop實驗:部署Sqoop實驗三十一Sqoop實驗:使用Sqoop實現(xiàn)Mysql與HDFS數(shù)據(jù)互導(dǎo)實驗三十二Mahout實驗:部署Mahout實驗三十三Mahout實驗:Na?veBayes實驗三十四分類算法:使用Spark實現(xiàn)SVM實驗三十五聚類算法:使用Spark實現(xiàn)K-Mean實驗三十六關(guān)聯(lián)規(guī)則算法:使用Spark實現(xiàn)FP-growth實驗手冊大綱網(wǎng)站資源:國內(nèi)專業(yè)領(lǐng)域排名第一的網(wǎng)站——中國大數(shù)據(jù)、中國云計算、中國存儲、中國物聯(lián)網(wǎng)、中國智慧城市等提供全線支持,一網(wǎng)打盡各類優(yōu)質(zhì)資源。科研教學(xué)大數(shù)據(jù)平臺優(yōu)勢安全可靠的實驗環(huán)境,大幅度提升大數(shù)據(jù)技能Docker容器技術(shù):大數(shù)據(jù)教學(xué)平臺基于Docker容器技術(shù),Docker可以在容器內(nèi)部快速自動化部署應(yīng)用,并可以通過內(nèi)核虛擬化技術(shù)(namespaces及cgroups等)來提供容器的資源隔離與安全保障等。由于Docker通過操作系統(tǒng)層的虛擬化實現(xiàn)隔離,所以Docker容器在運行時,不需要類似虛擬機(jī)(VM)額外的操作系統(tǒng)開銷,提高資源利用率,并且提升諸如IO等方面的性能,可瞬間創(chuàng)建隨時運行的實驗環(huán)境。按需部署:軟件配置方面,各大高??筛鶕?jù)具體應(yīng)用,在容器云中選擇部署Hadoop、HBase、Ambari、HDFS、YARN、MapReduce、ZooKeeper、Spark、Storm、Hive、Pig、Oozie、Mahout、R語言等不同的大數(shù)據(jù)應(yīng)用組件。實驗集群完全隔離:采用Mesos+ZooKeeper+Mrathon架構(gòu)管理集群,幾臺機(jī)器即可虛擬出大量實驗集群,實驗集群完全隔離,實驗環(huán)境互不干擾,如果實驗環(huán)境破壞,一鍵重啟即可建立新集群,方便上百學(xué)生同時使用。桌面虛擬化平臺架構(gòu)完善的全系列虛擬化方案:涵蓋瘦客戶機(jī)、虛擬桌面控制器OVD、虛擬機(jī)管理軟件OVP三大環(huán)節(jié),業(yè)界方案最全面,兼容性最好,性價比最高,為企業(yè)IT提供了一種更加精簡和安全的方法來管理用戶和提供可按需訪問的敏捷桌面服務(wù)。卓越的用戶體驗:針對各種應(yīng)用場景進(jìn)行性能調(diào)優(yōu),高效傳輸協(xié)議VDX達(dá)到與傳統(tǒng)PC一致的訪問體驗。尤其是對于高清視頻的本地和在線播放,達(dá)到清晰流暢的體驗效果。更全面的數(shù)據(jù)安全保障:OVP,OVD,Thinclient三方認(rèn)證保障用戶接入安全、全方位的加密算法保障傳輸安全、靈活訪問控制進(jìn)行集中鑒權(quán)、數(shù)據(jù)統(tǒng)一存儲和備份保障個人數(shù)據(jù)安全,高可靠性HA設(shè)計保障平臺安全,最終實現(xiàn)端到端桌面虛擬化安全保護(hù)。集中式WEB管理模式:整套方案的搭建僅需兩大組件(OVP和OVD),相對業(yè)界其他廠商其部署組件最少,并可提供集中式、單一化的遠(yuǎn)程運維模式,提高了虛擬桌面部署的易用性和可維護(hù)性。專業(yè)的本地化服務(wù)模式:在全國設(shè)立多個辦事處有本地化技術(shù)支持與專業(yè)的虛擬化技術(shù)研發(fā)團(tuán)隊,成為國內(nèi)唯一具備自主研發(fā)整套虛擬化產(chǎn)品體系的廠商,產(chǎn)品個性化開發(fā)能力強(qiáng),可快速解決產(chǎn)品后期問題。增加高校硬實力和影響力提高教學(xué)水平,促使學(xué)生完善大數(shù)據(jù)知識體系:大數(shù)據(jù)實驗一體機(jī)解決方案采用理論與實驗相結(jié)合的人才培養(yǎng)模式,基于真實的企業(yè)基地實訓(xùn)經(jīng)驗,提供豐富的項目實訓(xùn)案例,結(jié)合高校各專業(yè)實際情況進(jìn)行行業(yè)數(shù)據(jù)研究,培養(yǎng)實用型人才的專業(yè)項目能力。有助于大數(shù)據(jù)實驗室建設(shè):大數(shù)據(jù)上升為國家戰(zhàn)略,發(fā)改委明確組建13個國家級大數(shù)據(jù)實驗室,高校大數(shù)據(jù)實驗教學(xué)平臺的建設(shè),符合國家戰(zhàn)略,起到示范效應(yīng),提高高校信息化水平和實驗項目研究能力,增強(qiáng)高校硬件實力。提升高校就業(yè)水平:大數(shù)據(jù)產(chǎn)業(yè)迎來發(fā)展黃金期,人才缺口相當(dāng)巨大,培養(yǎng)學(xué)生相關(guān)方面的能力,有助于提供學(xué)生就業(yè)水平,進(jìn)而增加高校影響力。科研教學(xué)大數(shù)據(jù)平臺詳細(xì)設(shè)計根據(jù)項目實際情況,建議將高校大數(shù)據(jù)實驗室分為三個步驟進(jìn)行建設(shè):1、大數(shù)據(jù)虛擬化平臺搭建--針對桌面終端零散無管理現(xiàn)狀,部署cDesktop虛擬云桌面系統(tǒng);2、后臺云存儲系統(tǒng)搭建--針對海量綜合數(shù)據(jù)的無序存儲及復(fù)用,部署大數(shù)據(jù)實驗一體機(jī)系統(tǒng);3、應(yīng)用系統(tǒng)搭建--基于基礎(chǔ)的大數(shù)據(jù)教學(xué)要求,部署智能教學(xué)云盤系統(tǒng);桌面虛擬化平臺整體架構(gòu)整體桌面云方案是由云終端Thinclient、虛擬桌面控制器OVD、虛擬機(jī)管理平臺OVP、服務(wù)器存儲設(shè)備等組成,實現(xiàn)將企業(yè)員工的辦公桌面統(tǒng)一部署于服務(wù)器上,員工的個人數(shù)據(jù)也集中存儲,然后通過網(wǎng)絡(luò)(局域網(wǎng)或廣域網(wǎng))將個人桌面系統(tǒng)快速交付給員工,員工可以通過各種不同類型的終端設(shè)備如瘦客戶機(jī)、筆記本、手機(jī)及平板等隨時隨地接入辦公,打造一種新型的桌面辦公模式。平臺組件解析cDesktopOVD桌面云平臺以獨享桌面的形式,將桌面作為一種按需服務(wù)隨時隨地交付給任何用戶,利用獨特的VDX桌面?zhèn)鬏攨f(xié)議,OVD可以快速而安全地向企業(yè)內(nèi)的所有用戶交付整個桌面,不管他們是固定辦公員工,還是移動辦公員工。平臺核心組件如下:虛擬機(jī)管理平臺OVP:構(gòu)建硬件資源可動態(tài)調(diào)度的服務(wù)器集群環(huán)境,通過虛擬機(jī)可承載Windows和Linux桌面操作系統(tǒng)和應(yīng)用,實現(xiàn)桌面池的統(tǒng)一管理和性能監(jiān)控。獨有的對稱式集群架構(gòu),可以登陸到任意一臺服務(wù)器對整個集群進(jìn)行管理,無需單獨安裝中央管理服務(wù)器,從而保證了管理平臺的高可用性。虛擬桌面控制器OVD:與OVP協(xié)同工作,內(nèi)置域服務(wù)提供集中式的桌面用戶認(rèn)證,自動化的桌面管理,控制OVP進(jìn)行創(chuàng)建、更新、還原虛擬桌面等操作。在不依賴于虛擬機(jī)的網(wǎng)絡(luò)情況下將虛擬桌面安全,快速,可靠地交付到Thinclient。云終端Thinclient:無論是體積小巧,功率低的瘦客戶機(jī),還是PC機(jī),筆記本,智能終端,都能作為云終端Thinclient的軟件載體,隨時隨地連接到虛擬桌面進(jìn)行辦公應(yīng)用。大數(shù)據(jù)實驗一體機(jī)云創(chuàng)大數(shù)據(jù)為各大高校量身定制了大數(shù)據(jù)軟硬件一體化的教學(xué)科研平臺——大數(shù)據(jù)實驗一體機(jī)。大數(shù)據(jù)實驗一體機(jī)通過應(yīng)用容器技術(shù),以少量機(jī)器虛擬大量實驗集群,可供大量學(xué)生同時擁有多套集群進(jìn)行試驗,而每個學(xué)生的實驗環(huán)境不僅相互隔離,方便高效地完成實驗,而且實驗彼此不干擾,即使某個實驗環(huán)境被破壞,對其他人也沒有影響,一鍵重啟就可以擁有一套新集群,大幅度節(jié)省了硬件和人員管理的投入成本。架構(gòu)設(shè)計通過實際需求的判斷,將大數(shù)據(jù)實驗一體機(jī)平臺設(shè)計分為3個層次IaaS、PaaS、SaaS??蒲薪虒W(xué)大數(shù)據(jù)平臺架構(gòu)圖大數(shù)據(jù)實驗一體機(jī)具體實現(xiàn)步驟如下:1)教學(xué)科研大數(shù)據(jù)資源池主要是計算資源池和存儲資源池的設(shè)計和建設(shè):cProc云處理平臺建立計算資源池;cStor云存儲系統(tǒng)建立存儲資源池;組合成大數(shù)據(jù)資源池。2)大數(shù)據(jù)教學(xué)基礎(chǔ)平臺通過Hadoop大數(shù)據(jù)平臺建設(shè)來達(dá)到使用Hadoop一攬子解決方案建設(shè)。大數(shù)據(jù)資源池建設(shè)cProc云計算cProc是一種處理海量數(shù)據(jù)的高效分布式軟硬件集合的云處理平臺,該平臺可以從TB乃至PB級的數(shù)據(jù)中挖掘出有用的信息,并對這些海量信息進(jìn)行快捷、高效的處理。cProc云處理平臺是搭建在云存儲系統(tǒng)上,對業(yè)務(wù)層直接提供對外開發(fā)接口和數(shù)據(jù)傳輸接口的分布式數(shù)據(jù)處理平臺。cProc云處理平臺是一種處理海量數(shù)據(jù)的并行編程模型和計算框架,用于對大規(guī)模數(shù)據(jù)集的并行計算。cProc架構(gòu)圖同時cProc云處理軟件支持和關(guān)系數(shù)據(jù)庫混合模式,絕大部分海量數(shù)據(jù)存放于分布式平臺并進(jìn)行分布式處理,少量實時性要求很高的數(shù)據(jù)存放于關(guān)系數(shù)據(jù)庫,以滿足支撐各種類型的業(yè)務(wù)需求。支持支撐查詢、統(tǒng)計、分析業(yè)務(wù);可支撐深度數(shù)據(jù)挖掘和商業(yè)智能分析業(yè)務(wù)。要求對標(biāo)準(zhǔn)SQL規(guī)范支持度達(dá)到50%以上。提供屬性選擇、分類預(yù)測、回歸預(yù)測、聚類分析、關(guān)聯(lián)分析、時間序列分析等數(shù)據(jù)挖掘算法。提供食品二維碼掃描功能,能夠?qū)Ω黝愋畔崿F(xiàn)溯源。數(shù)據(jù)立方我們以B+樹的結(jié)構(gòu)建立了字段的索引,每個B+樹結(jié)構(gòu)的字段索引相當(dāng)于一個數(shù)據(jù)平面,這樣一個全局?jǐn)?shù)據(jù)表與其多個重要字段的索引就組成了一個類似于立方體的數(shù)據(jù)組織結(jié)構(gòu),我們稱之為“數(shù)據(jù)立方”。數(shù)據(jù)立方圖cProc是一種用于數(shù)據(jù)分析與索引的技術(shù)架構(gòu)。它是針對大數(shù)據(jù)(bigdata)的處理利器,可以對元數(shù)據(jù)進(jìn)行任意多關(guān)鍵字實時索引。通過cProc對元數(shù)據(jù)進(jìn)行分析之后,可以大大加快數(shù)據(jù)的查詢和檢索效率。 cProc是凌駕于數(shù)據(jù)存儲層和數(shù)據(jù)庫系統(tǒng)之上的,通過cProc解析后,可以大大增加數(shù)據(jù)查詢和檢索等業(yè)務(wù),可以讓系統(tǒng)平臺具備數(shù)據(jù)實時入庫、實時查詢、查詢結(jié)果實時傳輸?shù)葍?yōu)勢?;旌洗鎯Σ呗曰旌洗鎯Σ呗钥梢院喪鰹镠DFS分布式文件系統(tǒng)用來存儲海量數(shù)據(jù),可以根據(jù)存儲的數(shù)據(jù)類型建立索引,HBase也可用來存儲海量數(shù)據(jù),其由查詢條件建立索引表,數(shù)據(jù)庫對小型數(shù)據(jù)的存儲處理。分布式文件系統(tǒng)支持?jǐn)U展到PB級容量。分布式文件系統(tǒng)HDFS是一個開源云處理平臺Hadoop框架的底層實現(xiàn)部分,適合運行在通用硬件上的分布式文件系統(tǒng),具有高容錯性,能提高吞吐量的數(shù)據(jù)訪問,非常適合于大規(guī)模數(shù)據(jù)集上的應(yīng)用。MapReduce在HDFS的基礎(chǔ)上實現(xiàn)的并行框架,為用戶提供容易使用的并行編程模式,MapReduce處理包括兩個階段,Map(映射)階段和Reduce(規(guī)范)階段。首先,Map函數(shù)把一組(Key,Value)輸入,映射為一組中間結(jié)果(Key,Value),然后通過Reduce函數(shù)把具有相同Key值的中間結(jié)果,進(jìn)行合并化簡。MapReduce將處理作業(yè)分成許多小的單元,同時數(shù)據(jù)也會被HDFS分為多個Block,并且每個數(shù)據(jù)塊被復(fù)制多份,保證系統(tǒng)的可靠性,HDFS按照一定的規(guī)則將數(shù)據(jù)塊放置在集群中的不同機(jī)器上,以便MapReduce在數(shù)據(jù)宿主機(jī)器上進(jìn)行處理。HBase類似Bigtable的分布式數(shù)據(jù)庫,是一個稀疏的,長期存儲的,多維的,排序的映射表.這張表的索引是行關(guān)鍵字,列關(guān)鍵字和時間戳。所有數(shù)據(jù)庫的更新都是一個時間戳標(biāo)記,每個更新都是一個新的版本,而HBase會保留一定數(shù)量的版本,這個值是可以設(shè)定的。客戶端可以獲取距離某個時間最近的版本,或者一次獲取所有版本。cStor云存儲技術(shù)架構(gòu)cStor云存儲系統(tǒng)包括軟件與硬件,是一個海量的云存儲平臺。cStor云存儲系統(tǒng)采用了最先進(jìn)的云計算技術(shù)、網(wǎng)絡(luò)通信技術(shù)以及分布式文件系統(tǒng)技術(shù),將廉價的、性能低下的硬件存儲節(jié)點組織管理起來,提供高性能、高可靠的存儲系統(tǒng)。與傳統(tǒng)的大規(guī)模存儲系統(tǒng)相比,cStor針對絕大多數(shù)數(shù)據(jù)密集型應(yīng)用的特點從多個方面進(jìn)行了優(yōu)化,從而在一定規(guī)模下達(dá)到成本、可靠性和性能的最佳平衡。cStor憑著超低的價格、優(yōu)異的性能、高度可靠、綠色節(jié)能、無限容量、在線自動伸縮、易用通用等諸多壓倒性優(yōu)勢,獲得了用戶的一致稱贊。作為云計算架構(gòu)中的基礎(chǔ)設(shè)施層,隨著全球數(shù)據(jù)量的爆炸式增長,對云存儲技術(shù)和產(chǎn)品的需求已經(jīng)呈現(xiàn)空前擴(kuò)張,未來的云存儲市場將比目前IT業(yè)的市場總和還要大,因此云存儲產(chǎn)品必將具有異常廣闊的市場前景。cStor云存儲文件系統(tǒng)采用分布式的存儲機(jī)制,將數(shù)據(jù)分散存儲在多臺獨立的存儲服務(wù)器上。它采用包括元數(shù)據(jù)管理服務(wù)器(管理節(jié)點)、數(shù)據(jù)存儲節(jié)點服務(wù)器(存儲節(jié)點)以及客戶端節(jié)點的結(jié)構(gòu)構(gòu)成一個虛擬的海量存儲卷,如下圖所示。cStor云存儲系統(tǒng)架構(gòu)圖管理節(jié)點保存系統(tǒng)的元數(shù)據(jù),負(fù)責(zé)對整個文件系統(tǒng)的管理,管理節(jié)點在邏輯上只有一個,但采用主備雙機(jī)鏡像的方式,保證系統(tǒng)的不間斷服務(wù);存儲節(jié)點負(fù)責(zé)具體的數(shù)據(jù)存儲工作,數(shù)據(jù)以文件的形式存儲在存儲節(jié)點上,存儲節(jié)點的個數(shù)可以有多個,其個數(shù)直接決定了cStor云存儲系統(tǒng)的規(guī)模;cStor云存儲系統(tǒng)提供的管理監(jiān)控中心可以對每一個節(jié)點進(jìn)行管理,包括設(shè)備運行狀態(tài)、磁盤運行狀態(tài)、服務(wù)在線情況以及異常告警等功能;另外,網(wǎng)管監(jiān)控中心還提供有如FTP賬戶添加等客戶端管理和配置工具。這種分布式系統(tǒng)最大的好處是有利于存儲系統(tǒng)的擴(kuò)展和實現(xiàn),在小規(guī)模的數(shù)據(jù)擴(kuò)展時,只需要添加具體的存儲節(jié)點即可,而不需要添加整套設(shè)備。下圖為cStor云存儲系統(tǒng)部署示意圖。cStor云存儲系統(tǒng)部署示意圖cStor云存儲系統(tǒng)所有的節(jié)點均通過網(wǎng)絡(luò)的方式連接起來,其中存儲節(jié)點采用廉價的計算機(jī)節(jié)點,運用自適應(yīng)副本管理技術(shù)進(jìn)行容錯。所有存儲節(jié)點同時擔(dān)任對外服務(wù)功能,客戶端分別掛載到不同存儲節(jié)點訪問云存儲系統(tǒng)。通過增加或者減少存儲節(jié)點的方式,即可以對存儲系統(tǒng)進(jìn)行在線伸縮,由于采用了自適應(yīng)副本管理技術(shù)進(jìn)行容錯,系統(tǒng)在線伸縮的過程中,不影響系統(tǒng)對外提供服務(wù)。工作原理對于cStor云存儲的用戶來說,通過cStor客戶端可以將海量云存儲系統(tǒng)映射成一個本地海量磁盤(Windows客戶端)或者映射到一個目錄(Linux客戶端),對于此磁盤或者目錄的讀寫操作,即可實現(xiàn)云存儲系統(tǒng)數(shù)據(jù)的讀寫。同時,由于cStor文件系統(tǒng)支持POSIX接口規(guī)范,對于目前一般的應(yīng)用不需要做二次開發(fā)即可使用。管理機(jī)制cStor云存儲系統(tǒng)采用的是一種基于網(wǎng)絡(luò)的管理工具,稱之為cStor網(wǎng)管監(jiān)控中心,主要用來對cStor云存儲系統(tǒng)進(jìn)行遠(yuǎn)程監(jiān)控和管理,其具體功能包括:提供存儲機(jī)架的虛擬化管理??梢员O(jiān)測到每個節(jié)點服務(wù)器的運行狀態(tài)(包括主備元數(shù)據(jù)服務(wù)器和存儲節(jié)點服務(wù)器的內(nèi)存、CPU、系統(tǒng)盤的利用情況等)。磁盤的運行狀態(tài)和使用情況監(jiān)控。卷管理服務(wù)器的設(shè)置和賬戶管理。系統(tǒng)操作日志管理及審計。大數(shù)據(jù)教學(xué)基礎(chǔ)平臺Hadoop架構(gòu)Hadoop可以在大數(shù)據(jù)處理應(yīng)用中廣泛應(yīng)用,得益于其自身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲,對例如像ETL這樣的批處理操作相對合適,因為類似這樣操作的批處理結(jié)果可以直接走向存儲。Hadoop的MapReduce功能實現(xiàn)了將單個任務(wù)打碎,并將碎片任務(wù)(Map)發(fā)送到多個節(jié)點上,之后再以單個數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉庫里。Hadoop架構(gòu)圖通過上圖我們可以看出,Hadoop由許多元素構(gòu)成。其最底部是HadoopDistributedFileSystem(HDFS),它存儲Hadoop集群中所有存儲節(jié)點上的文件。HDFS(對于本文)的上一層是MapReduce引擎,該引擎由JobTrackers和TaskTrackers組成。通過對Hadoop分布式計算平臺最核心的分布式文件系統(tǒng)HDFS、MapReduce處理過程,以及數(shù)據(jù)倉庫工具Hive和分布式數(shù)據(jù)庫Hbase的介紹,基本涵蓋了Hadoop分布式平臺的所有技術(shù)核心。Hadoop關(guān)鍵技術(shù)下面我們將從HDFS、MapReduce、HBase三大部分詳細(xì)介紹Hadoop的關(guān)鍵指數(shù):HDFSHDFS架構(gòu)圖對外部客戶機(jī)而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)建、刪除、移動或重命名文件,等等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的(參見圖1),這是由它自身的特點決定的。這些節(jié)點包括NameNode(僅一個),它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為HDFS提供存儲塊。由于僅存在一個NameNode,因此這是HDFS的一個缺點(單點失?。4鎯υ贖DFS中的文件被分成塊,然后將這些塊復(fù)制到多個計算機(jī)中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。MapReduceMapReduce架構(gòu)圖MapReduce主要功能如下:數(shù)據(jù)劃分和計算任務(wù)調(diào)度系統(tǒng)自動將一個作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊,每個數(shù)據(jù)塊對應(yīng)于一個計算任務(wù)(Task),并自動調(diào)度計算節(jié)點來處理相應(yīng)的數(shù)據(jù)塊。作業(yè)和任務(wù)調(diào)度功能主要負(fù)責(zé)分配和調(diào)度計算節(jié)點(Map節(jié)點或Reduce節(jié)點),同時負(fù)責(zé)監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負(fù)責(zé)Map節(jié)點執(zhí)行的同步控制。數(shù)據(jù)/代碼互定位為了減少數(shù)據(jù)通信,一個基本原則是本地化數(shù)據(jù)處理,即一個計算節(jié)點盡可能處理其本地磁盤上所分布存儲的數(shù)據(jù),這實現(xiàn)了代碼向數(shù)據(jù)的遷移;當(dāng)無法進(jìn)行這種本地化數(shù)據(jù)處理時,再尋找其他可用節(jié)點并將數(shù)據(jù)從網(wǎng)絡(luò)上傳送給該節(jié)點(數(shù)據(jù)向代碼遷移),但將盡可能從數(shù)據(jù)所在的本地機(jī)架上尋找可用節(jié)點以減少通信延遲。系統(tǒng)優(yōu)化為了減少數(shù)據(jù)通信開銷,中間結(jié)果數(shù)據(jù)進(jìn)入Reduce節(jié)點前會進(jìn)行一定的合并處理;一個Reduce節(jié)點所處理的數(shù)據(jù)可能會來自多個Map節(jié)點,為了避免Reduce計算階段發(fā)生數(shù)據(jù)相關(guān)性,Map節(jié)點輸出的中間結(jié)果需使用一定的策略進(jìn)行適當(dāng)?shù)膭澐痔幚恚WC相關(guān)性數(shù)據(jù)發(fā)送到同一個Reduce節(jié)點;此外,系統(tǒng)還進(jìn)行一些計算性能優(yōu)化處理,如對最慢的計算任務(wù)采用多備份執(zhí)行、選最快完成者作為結(jié)果。出錯檢測和恢復(fù)以低端商用服務(wù)器構(gòu)成的大規(guī)模MapReduce計算集群中,節(jié)點硬件(主機(jī)、磁盤、內(nèi)存等)出錯和軟件出錯是常態(tài),因此MapReduce需要能檢測并隔離出錯節(jié)點,并調(diào)度分配新的節(jié)點接管出錯節(jié)點的計算任務(wù)。同時,系統(tǒng)還將維護(hù)數(shù)據(jù)存儲的可靠性,用多備份冗余存儲機(jī)制提高數(shù)據(jù)存儲的可靠性,并能及時檢測和恢復(fù)出錯的數(shù)據(jù)。HBaseHBace架構(gòu)圖HBase即HadoopDatabase,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術(shù)可在廉價PCServer上搭建起大規(guī)模結(jié)構(gòu)化存儲集群。上圖描述HadoopEcoSystem中的各層系統(tǒng)。其中,HBase位于結(jié)構(gòu)化存儲層,HadoopHDFS為HBase提供了高可靠性的底層存儲支持,HadoopMapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機(jī)制。此外,Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計處理變的非常簡單。Sqoop則為HBase提供了方便的RDBMS數(shù)據(jù)導(dǎo)入功能,使得傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)向HBase中遷移變的非常方便。Hadoop優(yōu)勢Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點:高可靠性:按位存儲和處理數(shù)據(jù)的能力值得人們信賴。高擴(kuò)展性:在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點中。高效性:能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁8呷蒎e性:能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。低成本:與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、YonghongZ-Suite等數(shù)據(jù)集市相比,Hadoop是開源的,項目的軟件成本因此會大大降低。教學(xué)云盤網(wǎng)盤系統(tǒng)設(shè)計技術(shù)特點系統(tǒng)采用基于云存儲的平臺設(shè)計模式,打造的同步存儲檢索云。云創(chuàng)網(wǎng)盤系統(tǒng)包括:【文件同步管理系統(tǒng)】、【文件存儲服務(wù)系統(tǒng)】、【文件分析系統(tǒng)】。文件存儲服務(wù)系統(tǒng)是指通過集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。文件同步管理系統(tǒng)是指以云存儲系統(tǒng)為基礎(chǔ),通過多種智能設(shè)備終端收集數(shù)據(jù),將數(shù)據(jù)同步到統(tǒng)一存儲云上。文件分析系統(tǒng)是指在已有數(shù)據(jù)的基礎(chǔ)上,通過全文索引,按照權(quán)限劃分等方式對存儲系統(tǒng)中的各種類型數(shù)據(jù)進(jìn)行全文檢索,同時對視頻等相關(guān)文件進(jìn)行格式轉(zhuǎn)換,供用戶進(jìn)行在線瀏覽。文件同步管理系統(tǒng)應(yīng)用示意圖文件存儲服務(wù)系統(tǒng)采用cStor云存儲系統(tǒng),為文件管理服務(wù)端提供底層數(shù)據(jù)存儲及管理服務(wù)??梢宰鳛闃?biāo)準(zhǔn)的存儲系統(tǒng)為網(wǎng)盤應(yīng)用系統(tǒng)提供標(biāo)準(zhǔn)的數(shù)據(jù)存儲。存儲系統(tǒng)應(yīng)用示意圖系統(tǒng)設(shè)計原則1.高可用性原則:7x24小時不間斷可用性。2.高性能原則:具有較高實用性,有效實現(xiàn)萬級別用戶服務(wù)。3.高性價比原則。4.據(jù)用戶及業(yè)務(wù)規(guī)模作出最合理的配置方案。5.高可管理性原則。6.統(tǒng)一前端、分布中端、統(tǒng)一后端存儲架構(gòu)。7.先進(jìn)性/可擴(kuò)展性原則。8.采用先進(jìn)架構(gòu)及技術(shù),可升級、易擴(kuò)容,可持續(xù)。系統(tǒng)功能云創(chuàng)網(wǎng)盤系統(tǒng)旨在方便用戶對自己文件的備份,保存。在使用云創(chuàng)網(wǎng)盤中可讓用戶體會到如下優(yōu)勢:便于攜帶:將常用文件存入網(wǎng)絡(luò)硬盤,在需要的時候既可以用來展示,還可以給其他人發(fā)送電子郵件等,同時也避免了攜帶太多文件的麻煩。便于保管:可以將個人電腦中的重要文件存入網(wǎng)絡(luò)硬盤,防止因為電腦以外造成的文件丟失。便于共享:將想要共享的文件、照片、視頻等進(jìn)行外鏈分享,方便同事等對這些珍貴文件進(jìn)行查看。利于文件珍藏:由于個人電腦硬盤空間有限,可以將喜歡的文件存入網(wǎng)盤即可。節(jié)省時間:將自己常用的軟件及電腦驅(qū)動軟件存入網(wǎng)盤,即節(jié)約本地硬盤空間,也省去了尋找相關(guān)軟件的麻煩。保護(hù)隱私:可將自己電腦中的隱私文件存入私人網(wǎng)盤,并設(shè)置訪問密碼和訪問權(quán)限,從而有效地保護(hù)私人秘密。操作直觀方便簡單:根據(jù)所使用的網(wǎng)絡(luò)硬盤直接在網(wǎng)上注冊使用。安全可靠:使用備份技術(shù)對數(shù)據(jù)備份,即使一塊數(shù)據(jù)損壞還存在多個備份。文件同步管理系統(tǒng)云創(chuàng)網(wǎng)盤系統(tǒng)是針對用戶文件管理混亂且易丟失的情況,且不斷增長的情況下,造成用戶文檔管理低效而開發(fā)的云存儲云盤軟件,提供多終端無縫訪問,不改變用戶使用習(xí)慣的前提下,為用戶提供高效文檔管理利器。云創(chuàng)網(wǎng)盤系統(tǒng)還提供的目錄共享、文件歷史版本恢復(fù)、文件外鏈、目錄操作歷史等特色功能,讓用戶更方便協(xié)作、為文檔編輯提供補(bǔ)償機(jī)制、提供API文檔與外部接口,同時提供豐富的插件來滿足不同用戶的個性化需求。同時提供用戶自主注冊功能描述基于云存儲平臺的多終端數(shù)據(jù)同步服務(wù),為用戶提供個性化的數(shù)據(jù)管理方式。系統(tǒng)提供了一套完整的數(shù)據(jù)應(yīng)用、管理、監(jiān)控的解決方案。同時,同步管理系統(tǒng)作為數(shù)據(jù)應(yīng)用系統(tǒng),為用戶提供個人數(shù)據(jù)存儲、分享服務(wù),保護(hù)數(shù)據(jù)安全等基礎(chǔ)服務(wù)。此外,靈活的空間管理、集中的賬戶配置、實時的日志審計方便系統(tǒng)管理者實現(xiàn)全方位的管理和監(jiān)控。系統(tǒng)整體部署圖滿足用戶安全訪問特性,通過防火墻的控制,可以達(dá)到安全訪問的要求,同時對用戶數(shù)據(jù)集進(jìn)行模塊化分析,防止用戶數(shù)據(jù)被盜用。主要功能點收集數(shù)據(jù)集中存儲為為用戶提供安全可靠的數(shù)據(jù)集中存儲環(huán)境。避免數(shù)據(jù)不必要丟失。隨時隨地訪問數(shù)據(jù)。提供基于PC、web、Android、iPhone/iPad等終端設(shè)備的數(shù)據(jù)同步客戶端。多種格式數(shù)據(jù)收集通訊錄:備份通訊錄聯(lián)系人,快速整理通訊錄。短信:手機(jī)端增量備份短信,網(wǎng)頁實時查看搜索。視頻:本地視頻同步上傳,在線視頻同步播放。圖片:手機(jī)端wifi智能圖片同步。文件:各種格式文件快速同步。筆記備份同步:手機(jī)端添加記事筆記,實時同步。統(tǒng)一管理提供子賬號功能,并可對子賬戶進(jìn)行權(quán)限分配。元/流分離設(shè)計模式,支持秒傳機(jī)制,版本歷史,事件列表等。安全可靠基于OAuth協(xié)議,保證數(shù)據(jù)傳輸安全??梢灾С志W(wǎng)絡(luò)銀行SSL加密技術(shù),文件加密存儲和傳輸。主要特點元/流分開設(shè)計模式,支持秒傳,去重復(fù)文件的描述信息和文件內(nèi)容本身分開存儲,將描述信息存儲到數(shù)據(jù)庫,文件內(nèi)容存到任cStor云存儲系統(tǒng)。如果服務(wù)器存在相同內(nèi)容的文件,則使用服務(wù)器上已經(jīng)存儲的副本,省去再次上傳的消耗。提供標(biāo)準(zhǔn)REST風(fēng)格API云創(chuàng)網(wǎng)盤系統(tǒng)開放了rest風(fēng)格的API,以便開發(fā)者使用。云創(chuàng)網(wǎng)盤系統(tǒng)使用的客戶端/移動端均是基于API進(jìn)行開發(fā)的。基于OAuth2.0的用戶驗證機(jī)制Oauth是安全的,用戶登錄完成之后,客戶端/移動端將都不在保存用戶的帳號信息(用戶名和密碼),為之后的API服務(wù)提供了簡單的、標(biāo)準(zhǔn)的訪問方式。插件機(jī)制云創(chuàng)網(wǎng)盤系統(tǒng)提供插件機(jī)制,即可以動態(tài)的添加或者刪除一些功能。到目前為止,我們提供了40多個功能各異的插件,另外,用戶開發(fā)如有相關(guān)需求也可以開發(fā)一些插件以滿足個性化需求??梢浦残栽苿?chuàng)網(wǎng)盤系統(tǒng)支持跨平臺,可以在Windows、Linux、MACOS等平臺上運行,用戶可以根據(jù)自己的需求選擇不同的服務(wù)器平臺。方便與現(xiàn)有系統(tǒng)集成提供AD(LDAP)域驗證以及CAS驗證方式,可和現(xiàn)有系統(tǒng)方便集成。文件分析系統(tǒng)隨著信息化的普及,用戶可收集文檔途徑增多,同時對用戶有益的內(nèi)容也越來越多,用戶收集到信息存儲后,怎么讓用戶方便快捷的查找文檔成為提高用戶體驗一個非常重要的標(biāo)準(zhǔn)。對用戶在云存儲系統(tǒng)中的數(shù)據(jù)進(jìn)行全文索引處理,用戶可方便的對自己擁有文檔進(jìn)行檢索。針對用戶的office文檔、電子郵件、合同,單據(jù)等非結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)量很大的情況下,用戶很難從中找到需要的信息,云檢索系統(tǒng)旨在解決此用戶需求,滿足用戶對大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行檢索,使用戶能快速、高效的查詢上述類型的非結(jié)構(gòu)化數(shù)據(jù)。系統(tǒng)內(nèi)部構(gòu)架圖提供對Word、Excel、PowerPoint、PDF、TXT以及其它文檔內(nèi)容的查詢。提供對上述文件內(nèi)容的在線瀏覽功能。檢索系統(tǒng)特點:與存儲同步系統(tǒng)完美融合,適配權(quán)限分配,對查詢信息進(jìn)行靈活處理。檢索速度快,不受硬件性能影響。檢索系統(tǒng)分布式部署、并發(fā)檢索。檢索速度不再受單臺服務(wù)器性能的限制,可根據(jù)海量數(shù)據(jù)規(guī)模增長需求,提高檢索速度。規(guī)模彈性化擴(kuò)展系統(tǒng)方案具備云檢索彈性擴(kuò)展能力,當(dāng)資源不足時,可隨時無障礙擴(kuò)充硬件資源,前端應(yīng)用業(yè)務(wù)無需停機(jī)等待或程序調(diào)整,完全不受擴(kuò)充影響。具備彈性擴(kuò)展能力的高速檢索平臺有助于控制前期建設(shè)規(guī)模,根據(jù)業(yè)務(wù)運營進(jìn)展有序擴(kuò)張。提供API接口,能夠靈活支持各種應(yīng)用接入,同時支持關(guān)系數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入,方便傳統(tǒng)應(yīng)用向云架構(gòu)遷移。服務(wù)穩(wěn)定云檢索平臺內(nèi)置監(jiān)控功能,多維度監(jiān)測檢索平臺及節(jié)點運行質(zhì)量,平臺調(diào)度系統(tǒng)根據(jù)監(jiān)控數(shù)據(jù)調(diào)度資源保障檢索服務(wù)穩(wěn)定提供。云創(chuàng)網(wǎng)盤特點便捷的文件管理集中存儲用戶所有數(shù)據(jù),分類管理,配額控制,合理規(guī)劃用戶空間。在線預(yù)覽:不用安裝任何插件,即可在線高質(zhì)量預(yù)覽文件,支持大多數(shù)文件類型。斷點續(xù)傳:如果意外造成傳輸中斷,再次上傳文件時將從斷點處繼續(xù)上次的傳輸。個人回收站:刪除的文件將移動到Web端的回收站,并保留30天,以便進(jìn)行誤刪恢復(fù)??缙脚_支持支持Web端、PC端(Windows)以及移動端(iPad、iPhone、Android)多平臺數(shù)據(jù)同步,實現(xiàn)數(shù)據(jù)無縫對接,隨時隨地訪問云端文件,輕松實現(xiàn)移動教學(xué)科研。數(shù)據(jù)同步和備份自動同步各平臺文件與云端自動保持一致,在任一設(shè)備對文件的增刪或修改,都會實時更新到其他設(shè)備同步動態(tài)實時查看同步進(jìn)度,管理同步進(jìn)程,還有詳細(xì)的歷史記錄供您查看選擇性同步您可能不希望將云端所有文件都同步到本地磁盤,或者想先同步某些緊急性較高的文件,那么可以對文件目錄進(jìn)行選擇性過濾同步局域網(wǎng)加速自動檢測擁有相同文件的其他終端,已同步完成的文件將直接在局域網(wǎng)內(nèi)分發(fā),大大減少帶寬占用,同步速度可提高10倍以上自動備份您可以指定電腦、手機(jī)等存儲硬件上的文件夾、文件、數(shù)碼相片、相冊、通訊錄等上傳到云端或網(wǎng)絡(luò)空間,云創(chuàng)網(wǎng)盤會自動進(jìn)行備份,實現(xiàn)長期保存、在線瀏覽,下載本地等快捷的文件分享大文件發(fā)送無論是GB級的單個大文件,還是多個文件的批量發(fā)送,接受者都可通過鏈接迅捷下載外鏈管理對于重要文件,您可以設(shè)置有效期和訪問密碼,系統(tǒng)還會統(tǒng)計下載次數(shù)預(yù)覽權(quán)限您可以控制外鏈接受者的文件使用權(quán)限,有效限定文件的使用范疇郵件分享支持郵件分享外鏈,以郵件形式發(fā)送鏈接地址,溝通更便捷安全可靠從數(shù)據(jù)傳輸?shù)桨踩鎯?,均采用最高級的安全策略,專為用戶打造專有的存儲空間,確保用戶數(shù)據(jù)安全可靠。日志審計全面的日志功能,記錄各文檔生命周期的操作記錄,用戶的使用情況也會被完整記錄,且無法刪除或更改,便于管理員進(jìn)行監(jiān)控和審計用戶安全管理網(wǎng)盤管理員,除管理用戶的基本設(shè)置、所屬團(tuán)隊及用戶的訪問權(quán)限外,還可以對用戶的訪問安全策略進(jìn)行配置數(shù)據(jù)安全存儲采用最先領(lǐng)先的云存儲技術(shù)進(jìn)行數(shù)據(jù)存儲,確保數(shù)據(jù)安全可靠深度學(xué)習(xí)深度學(xué)習(xí)已經(jīng)成為人工智能時代的入口,國內(nèi)外行業(yè)巨頭紛紛在語音識別、圖像識別、自然語言處理等領(lǐng)域拓展深度學(xué)習(xí)版圖,代表性的有谷歌的深度學(xué)習(xí)框架TensorFlow,F(xiàn)acebook的人工智能計算服務(wù)器BigSur,越來越“聰明”的IBM人工智能Watson,微軟的“深度殘差學(xué)習(xí)”,科大訊飛的語音識別云等。簡單地說,深度學(xué)習(xí)通過構(gòu)建深層神經(jīng)網(wǎng)絡(luò),模擬人類大腦的工作原理。如圖所示,深層神經(jīng)網(wǎng)絡(luò)由一個輸入層,數(shù)個隱層,以及一個輸出層構(gòu)成。每層有若干個神經(jīng)元,每個神經(jīng)元模擬人類的神經(jīng)細(xì)胞,而結(jié)點之間的連接模擬神經(jīng)細(xì)胞之間的連接??梢詫⑸疃葘W(xué)習(xí)理解為大腦的“構(gòu)建”,雖然潛力無限,但是門檻不可謂不高。首先,深度學(xué)習(xí)網(wǎng)絡(luò)模型復(fù)雜,計算量大。以DNN(深度神經(jīng)網(wǎng)絡(luò))為例,它需要模擬人腦的計算能力,而人腦包含100多億個神經(jīng)細(xì)胞,這要求DNN中神經(jīng)元多,神經(jīng)元間連接數(shù)量也相當(dāng)驚人,如此龐大的計算量需要高性能的硬件以及與之配套的軟件系統(tǒng)提供支撐。其次,DNN需要大量數(shù)據(jù)才能訓(xùn)練出高準(zhǔn)確率的模型。為了達(dá)到理想的學(xué)習(xí)效果,DNN需要利用海量訓(xùn)練數(shù)據(jù),進(jìn)行反復(fù)多次實驗,從而選擇合理的選擇優(yōu)化方式,訓(xùn)練出高準(zhǔn)確率的模型。因此,深度學(xué)習(xí)對訓(xùn)練數(shù)據(jù)提出了較高要求。再者,對于不少深度學(xué)習(xí)研究者而言,部署困難成為了一個大問題。很多時候,即使購入了高精尖的深度學(xué)習(xí)設(shè)備,但由于難以部署,高價買回的設(shè)備只能擱置。因此,深度學(xué)習(xí)成為一個效果很好但門檻極高的方向。而云創(chuàng)大數(shù)據(jù)發(fā)布的DeepRack深度學(xué)習(xí)一體機(jī),切實幫助解決深度學(xué)習(xí)應(yīng)用中遇到的障礙與困境。深度學(xué)習(xí)一體機(jī)DeepRack深度學(xué)習(xí)一體機(jī)是南京云創(chuàng)大數(shù)據(jù)科技股份有限公司自主研發(fā)的深度學(xué)習(xí)軟硬件平臺,包含24U半高機(jī)柜,最多可配置4臺4U高性能服務(wù)器;每臺服務(wù)器CPU選用最新的英特爾E5-2600系列至強(qiáng)處理器;每臺服務(wù)器最多可插入4塊英偉達(dá)GPU卡;可選配GeForceTitanX、TeslaK40、TeslaK80等各檔次英偉達(dá)GPU卡;部署有TensorFlow、Caffe等主流的深度學(xué)習(xí)開源工具軟件,并提供大量免費圖片數(shù)據(jù)。根據(jù)操作手冊用戶可快速搭建屬于自己的深度學(xué)習(xí)應(yīng)用,從而提高了工作效率。DeepRack深度學(xué)習(xí)一體機(jī)具有超高性價比、超高計算性能、超高可靠性等特性,能夠為用戶提供性能卓越、穩(wěn)定、便捷、安全的深度學(xué)習(xí)計算服務(wù)。產(chǎn)品特性:使用DeepRack深度學(xué)習(xí)一體機(jī)解決方案,用戶可快速搭建屬于自己的深度學(xué)習(xí)應(yīng)用。靈活的高性能硬件配置??DeepRack深度學(xué)習(xí)一體機(jī)包含24U半高機(jī)柜,最多可配置4臺4U高性能服務(wù)器;每臺服務(wù)器CPU選用最新的英特爾E5-2600系列至強(qiáng)處理器;每臺服務(wù)器最多可插入4塊英偉達(dá)GPU卡;可選配GeForceTitanX、TeslaK20、K40、K80等各檔次英偉達(dá)GPU卡,以滿足不同深
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- u盤供貨合同范本
- 住宅贈予合同范本
- 農(nóng)業(yè)種子買賣協(xié)議合同范本
- 化妝服務(wù)合同范本簡易
- 業(yè)務(wù)指導(dǎo)合同范本
- 2024年招商銀行呼和浩特分行招聘考試真題
- 加盟學(xué)員簽約合同范本
- 買土地合同范本
- 加油站聘用站長合同范本
- 借款項目合同范本
- 《臨床篇疾病概論》課件
- 2024托盤行業(yè)市場趨勢分析報告
- 碼頭安全生產(chǎn)知識培訓(xùn)
- 初中數(shù)學(xué)解《一元二次方程》100題含答案解析
- DB11 945-2012 建設(shè)工程施工現(xiàn)場安全防護(hù)、場容衛(wèi)生及消防保衛(wèi)標(biāo)準(zhǔn)
- BEC商務(wù)英語初級考試歷年真題及答案6套
- 牛津書蟲系列1-6級 雙語 4B-03.金銀島中英對照
- GB/T 44625-2024動態(tài)響應(yīng)同步調(diào)相機(jī)技術(shù)要求
- 家具廠質(zhì)量管理體系手冊
- 瀝青拌合站安裝專項施工方案
- 《家庭教育學(xué)第2版》全套教學(xué)課件
評論
0/150
提交評論