大數(shù)據(jù)平臺(tái)技術(shù)框架選型分析范文_第1頁(yè)
大數(shù)據(jù)平臺(tái)技術(shù)框架選型分析范文_第2頁(yè)
大數(shù)據(jù)平臺(tái)技術(shù)框架選型分析范文_第3頁(yè)
大數(shù)據(jù)平臺(tái)技術(shù)框架選型分析范文_第4頁(yè)
大數(shù)據(jù)平臺(tái)技術(shù)框架選型分析范文_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

WORD式 可編緝 WORD格式 可編緝 專(zhuān)業(yè)知識(shí) 整理分享 專(zhuān)業(yè)知識(shí) 整理分享 WORD格式 可編緝 專(zhuān)業(yè)知識(shí) 整理分享大數(shù)據(jù)平臺(tái)框架選型分析城市大數(shù)據(jù)平臺(tái),首先是作為一個(gè)數(shù)據(jù)管理平臺(tái)》核心需求是數(shù)據(jù)的存和取,然后因?yàn)楹A繑?shù)據(jù)、多數(shù)據(jù)類(lèi)型的信息需要有豐富的數(shù)據(jù)接入能力和數(shù)據(jù)標(biāo)準(zhǔn)化處理能力,有了技術(shù)能力就需要縱深挖掘囹加價(jià)值更好的服務(wù),如信息統(tǒng)計(jì)、分析挖掘、全文檢索等,考慮到面向的戶(hù)對(duì)象有的是上,曇的應(yīng)用集成商,所以要考慮靈活的數(shù)據(jù)接口服務(wù)來(lái)支撐:、平臺(tái)產(chǎn)品業(yè)務(wù)流程

、選型思路必要技術(shù)組件服務(wù):ETL〉非/關(guān)系數(shù)據(jù)倉(cāng)儲(chǔ)〉大數(shù)據(jù)處理引擎冫服務(wù)協(xié)調(diào)冫分析Bl平臺(tái)監(jiān)管尹“Area平臺(tái)層T就[DW分四、選型要求o需要滿足我們平臺(tái)的幾大杉心功能需求,子功能不設(shè)局限性。如不滿足全哥需要對(duì)未滿足的其它核心功能的開(kāi)放使用服務(wù)支持2`國(guó)內(nèi)外資料及社區(qū)盡量豐富,包括組件服務(wù)的成熟度流行度較高需要對(duì)選型平臺(tái)自身所包含的核心功能有較為深入的理解,易用其API或基于源碼開(kāi)發(fā)商業(yè)服務(wù)性?xún)r(jià)比高,并有空間脫離第三方商業(yè)技木服務(wù)一些非功能性需求的條件標(biāo)準(zhǔn)清晰,如承載的集群節(jié)點(diǎn)、處理數(shù)據(jù)量及安全機(jī)制等五、選型需要考慮簡(jiǎn)單性親自試用人據(jù)套件。這也就意味著:安裝它'將它連接到你的Had閌p安裝'成你的不同接口(文件、數(shù)據(jù)庫(kù)、B2B等等),并最終建模、部署、執(zhí)行一些人據(jù)作業(yè)。自己來(lái)了解使用大數(shù)據(jù)套件的容易程度一一僅讓某個(gè)提供商的顧問(wèn)來(lái)為你展示它是如何工作是遠(yuǎn)遠(yuǎn)不夠的。親自做一個(gè)概念驗(yàn)證。廣泛性是否該大趾據(jù)奔件支將廣泛使用的開(kāi)源標(biāo)準(zhǔn)一一不只是Iladoop和它的生態(tài)統(tǒng)'還有通過(guò)SO胛和RESTweb服務(wù)的數(shù)據(jù)集成等等。它是否廾源'并能根據(jù)你的定問(wèn)地易于改變或擴(kuò)展?是否存在一個(gè)含有文檔、論壇、博客和交流會(huì)的大社區(qū)?性:是否支持所有需要的特性?Hadp的發(fā)行版本(如果你己經(jīng)使用了某一個(gè))?你想要使用的Hadp生態(tài)系統(tǒng)的所有部分?你想要集成的所有接口、技術(shù)、產(chǎn)品?請(qǐng)注意過(guò)多的特性可能會(huì)大大增加復(fù).雜性和費(fèi)用。所以請(qǐng)查證你是否真正需要一個(gè)非常重量級(jí)的解決方案、是否你真的需要它的所有將性?陷阱:請(qǐng)注意某些陷阱。某些大據(jù)奔袢采用數(shù)據(jù)殛動(dòng)的付費(fèi)方式(“趾據(jù)稅")也就是說(shuō),你得為自己處理的每個(gè)數(shù)據(jù)行付費(fèi)。因?yàn)槲覀兪窃谡務(wù)撊藫?jù),所以這會(huì)變得非常昂貴.并不是所有的大數(shù)裾耷件都會(huì)生成本地Apa山elladoap代碼,通常要在每個(gè)Iladoop集群的服務(wù)器上安裝一個(gè)私有引擎,而這樣就會(huì)解除對(duì)于軟件提供商的獨(dú)立性。還要考慮你使用人數(shù)據(jù)套件真正想做的事情、某些解決方案僅支持將doop用于ETL來(lái)填充數(shù)據(jù)至數(shù)據(jù)倉(cāng)庫(kù),而其他一些解決方案還提供了諸如后處理,轉(zhuǎn)換或Had卩集群上的大數(shù)據(jù)分析。ETL僅是ApacheIladoop和其生態(tài)系統(tǒng)的一種使用情形。、方案分析自建奔件hortonworks國(guó)內(nèi)類(lèi)exadoopTDW+fineBI成本10U胄開(kāi)源培訓(xùn)服務(wù)3k/人授權(quán)支持1傭K性能單集群最大規(guī)模達(dá)到56傭臺(tái),處理數(shù)據(jù)量可達(dá)百P級(jí)功能需整合IIDFS和YARN數(shù)據(jù)理從各種引擎訪問(wèn)數(shù)據(jù)根據(jù)策略加載和管理數(shù)據(jù)身份驗(yàn)證、授權(quán)和數(shù)據(jù)保護(hù)人規(guī)模配置、管理、監(jiān)控和運(yùn)營(yíng)Hadoop群集與您的據(jù)分析工具集成跨平臺(tái)配置部著易操作性安裝復(fù)雜,操作要專(zhuān)業(yè)培訓(xùn)。圖形設(shè)計(jì)界面。參數(shù)配置易上手。應(yīng)用國(guó)外大客戶(hù)較多文檔/社文檔較多,社區(qū)一般湘關(guān)專(zhuān)業(yè)培訓(xùn)較官方社區(qū)比較活躍(英文)中文社區(qū)有1個(gè)文檔較少'多為英文文檔文檔較少,無(wú)商用服務(wù),尢任何技術(shù)支持?jǐn)U展開(kāi)源開(kāi)放開(kāi)源開(kāi)放開(kāi)源開(kāi)放移植支持多操作統(tǒng)支持多操作統(tǒng)支持多操作宗支持多操作宗監(jiān)控優(yōu)勢(shì)名勢(shì)跟噠產(chǎn)品階段逐步完善整哈自定義套.件自選流行組件'資料豐富整合周期不可控監(jiān)控功能強(qiáng)大Armbri開(kāi)源強(qiáng)大支持的開(kāi)源奔配0商業(yè)服務(wù)支持商業(yè)成本較高嚇國(guó)產(chǎn)套件2、交流雯持方3,商業(yè)服務(wù)較靈活依賴(lài)于打包服務(wù)公司的飛捋嚇開(kāi)源中文點(diǎn)2、基于人數(shù)據(jù)處理心,靈活組合其它纟且件來(lái)適應(yīng)不同產(chǎn)品階段及項(xiàng)半定制套件,預(yù)學(xué)現(xiàn)用七、相關(guān)資料https://prestodb.in/httP'//w嫵thinksaas.“在“/topic/233669/WORDWORDWORDACompleteEnterpriselladoopACompleteEnterpriselladoopDataPlatformHOP(hortonworks)TDW—TencentdistributedDataWarehouseoenixlesforcehdJava,Apache11BaseSQL,,tingerHive,Hortonworks YARN DAGrestaacebonkFY.arkpark-Efi!JSQLHadoopMapReduceIouderaImpalaGoogleDremelHDFSHBase-EpacheDriIlGoogleDremelpacheTajo — YARN SQLiveHadoopMapReduceSQLacebookPumaitterRainbirdYahooS4witterStormJavaClojurepacheHamaHadoopBSP(BulkSynchronousParallel)fGoogle??PregelopacheGiraphsynchronousparalsynchronousparalGooglePregelHaLoop i-&fk??MapReduceisterHadoopMapReducei-&fk??MapReduceerkeleySparkScala ,#MapReducepReduceDataTarrent10eve1DBgleocksDBGoogleLevelDB,HyperDexstringsintegersfloatslists?mapsokynCabinetVoldemort'kAmazonDynamo'LinkedlnazonDynamKV''airJavapacheAccumuloigtableigtable'foikit'Eladoop#Zookeeper-Lis?VMware?azonSimpleDBVerticaErlangSQLssandraHyperTable ,Facebook2008*Cassandra , Zvents Bigtableoundationl)B NOSQL ,, PowersetuchDBongoDBachyandéHadoop Tachyon, HadoopFSsFS.6HadoopwitterMesosgleBorgHadoopYarnMesosIacebookScribeHOFSHOFSPushPushIauderaFILillieloudera,,ogstashKibanaElasticSearchkibana WebOi?JhWORD式 可編緝、肖息系統(tǒng)tormMZeroMQabbitMQ很底層的高性能網(wǎng)綹庫(kù)在AMQP基礎(chǔ)上完整的,可復(fù)用的個(gè)業(yè)消息糹統(tǒng)pacheActiveMQJafka能力強(qiáng)勁的開(kāi)源消息總線開(kāi)原的、高性能的、跨協(xié)言分布式消息糸統(tǒng),最早是由№ache孵化的fka〔由LinkedIn"U?*Apache)克隆而來(lái)pacheKafkainkedin于2舊0年丨2月份開(kāi)源的分布式消息系統(tǒng),它主要用于處理活躍的流式數(shù)據(jù),由a寫(xiě)成分布式服務(wù)分布式服務(wù),Pox0S算法的實(shí)現(xiàn)'對(duì),應(yīng)Google的ChubbypacheAvrodoap中的RPCacebooKThrift,支持C++/Java/PHP等眾多語(yǔ)言集群管理Nagios監(jiān)視糸統(tǒng)坯行狀態(tài)和網(wǎng)絡(luò)信的監(jiān)視衤統(tǒng)UCBerke發(fā)起的一個(gè)開(kāi)源集群監(jiān)視頂目設(shè)計(jì)用于測(cè)量數(shù)以千i十的pacheAmbari(loop成員,管理和監(jiān)視Apachelladaop隼群的開(kāi)源框架基礎(chǔ)設(shè)榿evelDBgle頂級(jí)大牛開(kāi)發(fā)的單機(jī)版鍵值數(shù)據(jù)庫(kù),具有非常高的寫(xiě)性能Table源于Google'ortedStringTableRecord10源于Gole1atBuffens針對(duì)游戲開(kāi)發(fā)的高效的跨平臺(tái)序列化庫(kù)相比ProtoBuffers開(kāi)耥更小,因?yàn)镕latBuffers沒(méi)有解忻過(guò)程rotocolBuffersgle公司汗發(fā)的一種數(shù)據(jù)描述語(yǔ)言,類(lèi)似于XML能夠結(jié)構(gòu)化贛裾序列化,可用于數(shù)據(jù)存儲(chǔ)、通信憐議等方面。它不依賴(lài)于語(yǔ)訁和平臺(tái)并且可擴(kuò)展性極強(qiáng)。nsistentHashingNetty1997年由麻省理工學(xué)院提礫乜標(biāo)是為了解決因丬寺網(wǎng)中的熱點(diǎn)(Hotspot)間懸,初衷和CARP十分糞似,基本解決了在P2P環(huán)境中最為關(guān)鍵的問(wèn)一一如何在動(dòng)態(tài)的網(wǎng)絡(luò)拓?fù)渲蟹植即鎯?chǔ)和路由JBOSS提供的一個(gè)java丑原框架.提供異步的、事件驅(qū)動(dòng)的網(wǎng)絡(luò)應(yīng)用程序榧架,用以快速開(kāi)發(fā)高性能、高可靠性的網(wǎng)絡(luò)服務(wù)器和晷戶(hù)端程序。100證ilt“布隆過(guò)濾器,悸70年由布隆提出,是一個(gè)很長(zhǎng)的二進(jìn)制矢量和一系列隨映射函數(shù),可以用于檢索一個(gè)元素是否在一個(gè)集合中,優(yōu)點(diǎn)是空間效率和查詢(xún)時(shí)間部遠(yuǎn)遠(yuǎn)超過(guò)一般的算法,缺點(diǎn)是有一定的誤識(shí)別率和刪除困難。索引孥NutchF%Java實(shí)現(xiàn)的搜索引學(xué),誕生Hadoop的地方。ticene一套信息檜索工具包,但并不包含搜索引擎系統(tǒng),它包含了索引結(jié)構(gòu)、讀寫(xiě)索弓《工具“相關(guān)性工具,排序等功能〕.rC10ud基于Sar和Zookeeper的分布式搜索Solr4.0的核心組件之一,主要思想是使用Zookeeper作為集群的配置信息中心Ir是基于Lucene的搜索。開(kāi)原的(Apache2協(xié)議),分布式的'RESTful的,構(gòu)建在ApacheLuceneIasticSearch之上的的搜索引擎. 專(zhuān)業(yè)知識(shí) 整理分享WORD式 可編緝phinx一個(gè)基于SQL的全文檜索引擎,可結(jié)合MySQL、PostgreSQL做全文檢索可提供比數(shù)據(jù)庫(kù)本身更專(zhuān)業(yè)的搜索功能,單一索弓《可達(dá)1億條記錄4傭0萬(wàn)條記錄清況下的登詢(xún)速度為伍x秒(毫秒級(jí))。enseiDBLinkin公司開(kāi)發(fā)的一個(gè)丑原分布式實(shí)時(shí)半結(jié)構(gòu)化數(shù)據(jù)庫(kù),在全文索引的基礎(chǔ)封裝了BrowseQueryLanguage(BOL?糞似頭凵的查詢(xún)語(yǔ)法。據(jù)挖掘ahotlt ,目標(biāo)是建立一個(gè)可擴(kuò)展的杌器學(xué)習(xí)庫(kù)丨aasenStack美國(guó)國(guó)家航空航大局和Rackspace合作研發(fā)的'以Apache許可證授權(quán)云平臺(tái)管理的項(xiàng)目,它不是一個(gè)軟件。這個(gè)項(xiàng)目由幾個(gè)主要的組件組合起來(lái)完成一些具體的工作,旨在為公共及私有云的建設(shè)與管理提供軟件的開(kāi)原項(xiàng)。6個(gè)心頌?zāi)浚篘ova(計(jì)算'Compute)'Swift(對(duì)象存儲(chǔ),卟j“0,Glance〔鏡像'Image〕'Keystone〔身份.Identity)orizon(自助冂戶(hù)'Dashboard)'Quantum&Melange(網(wǎng)鉻&地址管理),另外還有若干社

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論