云計算商家對比_第1頁
云計算商家對比_第2頁
云計算商家對比_第3頁
云計算商家對比_第4頁
云計算商家對比_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

云計算應用與展望主要內容云計算商業(yè)模式云計算產(chǎn)品Google云計算應用場景分析云計算的未來云計算商業(yè)模式商業(yè)模式介紹IT界商業(yè)模式案例探析社會計算商業(yè)模式案例探析云計算商業(yè)模式案例探析云計算商業(yè)模式什么是商業(yè)模式為實現(xiàn)客戶價值最大化,把能使企業(yè)運行的內外各要素整合起來,形成一個完整的高效率的具有獨特核心競爭力的運行系統(tǒng),并通過最優(yōu)實現(xiàn)形式滿足客戶需求、實現(xiàn)客戶價值,同時使系統(tǒng)達成持續(xù)贏利目標的整體解決方案商業(yè)模式通過什么方式或途徑來賺錢IT界商業(yè)模式案例探析直銷模式讓我成為PC市場中的“大佬”“軟硬兼施”讓顧客為我瘋狂戴爾:直銷模式直銷采用行業(yè)標準與客戶建立直接聯(lián)系供應鏈管理多元化經(jīng)營精細化管理按需定制直接銷售、提供資源注重客戶反饋提供專人客戶負責制蘋果:軟硬結合客戶價值注重客戶體驗出眾的營銷技巧盈利模式賣硬件獲得一次性高額利潤賣音樂和軟件獲得持續(xù)利潤資源流程代表獨立、完美的精神產(chǎn)品設計和開發(fā)社會計算商業(yè)模式探析我們的服務都是免費的,如何賺錢咱們擁有龐大的用戶群,何愁沒有錢賺Twitter:廣告業(yè)務+商家收費微博營銷網(wǎng)絡廣告向跟隨者或其他用戶發(fā)送廣告購買搜索關鍵詞、顯示在主頁趨勢上通過微博實時市場營銷(向商家收費)名人效應…Facebook:方式多樣精準廣告開放平臺第三方應用虛擬用品F-connect社會化購物移動互聯(lián)網(wǎng)…云計算與商業(yè)模式IaaSIaaSPaaS處處是黃金寶藏...PC互聯(lián)網(wǎng)云計算云計算現(xiàn)有商業(yè)模式探析我們幫助別人建立云計算,賣出了更多的硬軟件和服務我們將閑置的資源出租出去,獲得豐厚的經(jīng)濟回報我們提供在線軟件服務,客戶不斷增加Amazon:提供云服務計算服務存儲服務數(shù)據(jù)庫服務消息傳送服務管理維護按使用付費IBM:構建云平臺寧波“物流云”杭州“金融云”北京“智慧城市云”無錫IBM云計算中心打造構建云計算平臺…政府企業(yè)Salesforce:軟件即服務在線軟件租用服務提供商CRM在線軟件軟件租賃根據(jù)使用付費云計算商業(yè)模式云計算商業(yè)模式還未成熟各大公司基于自身產(chǎn)品,在現(xiàn)有業(yè)務上進行擴展更新、更好的云計算商業(yè)模式還在探索中…是否有更好的想法,或許會誕生新的IT巨人你云計算產(chǎn)品(實際案例)案例一:AmazonWebService案例二:Yahoo!案例三:eBay案例四:Baidu案例五:IBM案例六:GoogleAmazonWebServiceAWS核心服務計算服務存儲服務數(shù)據(jù)庫服務消息傳送服務AWS-計算服務AmazonElasticComputingCloud(EC2)要通過虛擬化技術向用戶提供計算資源用戶可以根據(jù)自己的需求動態(tài)地申請或停止資源的使用AmazonElasticMapReduce通過在AmazonEC2和AmazonS3上構建Hadoop框架而實現(xiàn)AWS-存儲服務AmazonSimpleStorageService(S3)存儲容量是可以動態(tài)擴展在AWS云上的其他服務也可以直接訪問S3上的數(shù)據(jù)AWS-數(shù)據(jù)庫服務AmazonSimpleDB是基于S3和EC2向用戶提供輕量級的數(shù)據(jù)存儲和查詢服務AmazonRelationalDatabaseService(RDS)用戶通過RDS可以使用MySQL所具有的功能還支持Oracle11g的功能AWS-消息傳送服務AmazonSimpleQueueService(SQS)提供計算機之間傳遞和存儲消息服務AmazonSimpleNotificationService(SNS)在云中建立、操作和發(fā)送通知的Web服務AmazonSimpleEmailService(SES)提供高擴展的大量事務性郵件發(fā)送服務AmazonWebServiceAWS客戶廣泛,其中包括著名的互聯(lián)網(wǎng)公司和創(chuàng)業(yè)型公司2010年,AWS部門的收入已達5億美元,已經(jīng)成為Amazon收入的重要組成部分Yahoo!Yahoo!云計算平臺上主要有三大利器HadoopSherpaMObStorHadoopYahoo!將Hadoop應用于自己的各項業(yè)務和產(chǎn)品中數(shù)據(jù)分析、內容優(yōu)化、反垃圾郵件系統(tǒng)、廣告的優(yōu)化選擇、大數(shù)據(jù)處理、用戶興趣預測、搜索排名、廣告定位等如:實時服務系統(tǒng)從數(shù)據(jù)庫中讀取用戶到興趣的映射,Hadoop集群則基于最新數(shù)據(jù)重新排列內容并更新頁面。SherpaSherpaYahoo!的分布式數(shù)據(jù)存儲和服務平臺主要針對的是結構化的記錄型數(shù)據(jù)。Sherpa平臺上最關鍵的是PNUTSPNUTS大規(guī)模并行處理的分布式數(shù)據(jù)庫系統(tǒng)放棄了傳統(tǒng)關系型數(shù)據(jù)庫強一致性的要求由StorageUnits、Router、TabletController和MessageBroker四部分組成MObStoreMObStor主要用來存儲非結構化的二進制大文件對數(shù)據(jù)提供可靠、安全存儲的同時還能向用戶提供快速的響應體系結構分為三層,分別為對象存儲層(ObjectStoreLayer)本地對象管理層(LocalObjectManagementLayer)全局對象儲存層(GlobalObjectManagementLayer)Yahoo!Yahoo!一直推動著Hadoop的發(fā)展Hadoop中國云計算大會也受到許多人的關注eBay基于開源云計算框架Hadoop建立了自己的集群—Athena開源云平臺項目—TurmericAthena核心層包括Hadoop運行時環(huán)境、通用工具和HDFSMapReduce層為開發(fā)和執(zhí)行任務提供API和控件數(shù)據(jù)獲取層數(shù)據(jù)獲取層的主要框架是HBase、Pig和Hive工具、加載庫層主要的加載庫有:統(tǒng)計庫(R)、機器學習庫(Mahout)、數(shù)學相關庫(Hama)和eBay自己開發(fā)的解析網(wǎng)絡日志的庫(Mobius)監(jiān)視和警告層Ganglia是分布式集群的監(jiān)視系統(tǒng),Nagios則用來警告關鍵事件如服務器不可達、硬盤已滿等。Turmeric面向服務構架的綜合平臺,用戶可以在上面開發(fā)、部署、管理和監(jiān)控服務核心運行庫基于流水線架構,主要用來運行服務和客戶端開發(fā)工具提供Eclipse插件來幫助創(chuàng)建服務和客戶端監(jiān)控器該監(jiān)控器包含多個組件:收集客戶端和服務端信息的運行收集組件、數(shù)據(jù)配置組件、監(jiān)控節(jié)點信息的服務監(jiān)控組件以及方便用戶查看的控制臺組件Turmeric安全服務提供平臺上的安全服務(如驗證、授權、組服務等)與策略服務交互,其中策略遵從XACML(可擴展的訪問控制標記語言)結構和語法。策略管理控制臺管理策略的定制倉庫服務這是端到端平臺上服務注冊、附件管理功能的抽象,具體的功能依賴于下層的倉庫產(chǎn)品WSDL聲明服務通過這項功能用戶可以定義服務的WSDL接口eBayeBay使用云計算通過構建自己的集群系統(tǒng)來處理大規(guī)模的商品數(shù)據(jù)和用戶需求,面對數(shù)據(jù)的增長,云計算成為互聯(lián)網(wǎng)公司的首選百度Hadoop的應用框計算Hadoop在百度的應用在百度,Hadoop主要應用于以下幾個方面:日志的存儲和統(tǒng)計網(wǎng)頁數(shù)據(jù)的分析和挖掘商業(yè)分析,如用戶的行為、廣告關注度在線數(shù)據(jù)的反饋,及時得到在線廣告的點擊情況用戶網(wǎng)頁的聚類,分析用戶的推薦度及用戶之間的關聯(lián)度框計算用戶在框中輸入服務需求系統(tǒng)識別用戶的需求基于服務提供商直接返回服務需求分析基于互聯(lián)網(wǎng)的一站式服務服務集成百度框計算確定用戶需求后會選擇哪個服務提供者為用戶提供服務百度的選擇甚至影響一些服務提供商的發(fā)展云計算帶來的影響不僅限于技術,任何互聯(lián)網(wǎng)公司都不能置身事外。IBM云計算解決方案云計算產(chǎn)品云計算解決方案“藍色洞察力”決策分析云系統(tǒng)處理全球小型交易等業(yè)務LotusLIve使得公司內員工及合作伙伴協(xié)作高效化桌面的集中虛擬化提高了控制管理的安全性及維護的方便性云計算解決方案存儲云實現(xiàn)虛擬化儲存,將數(shù)據(jù)儲存在一起,有效地節(jié)約了空間數(shù)據(jù)中心整合里面的應用程序也隨之部署在云計算上,實現(xiàn)資源整合生產(chǎn)研發(fā)如在芯片設計時需要昂貴的軟件和巨大的計算存儲資源,采用設計制造云后既減少了設計成本提高資源利用,同時也保證了知識產(chǎn)權的安全。云計算產(chǎn)品IBM在虛擬化和云計算方面擁有眾多產(chǎn)品,設計基礎設施層、平臺層和應用層IBMEnsembles將計算、存儲、網(wǎng)絡等物理資源虛擬成基礎設施資源池,隱藏了內部實現(xiàn)細節(jié)向上層提供資源訪問和管理的接口IBMTSAM提供應用服務的管理平臺,包括服務的設計、部署和運行管理整個階段,實現(xiàn)了硬件到操作系統(tǒng)、中間件的整體管理自動化IBMSmartCloud用于數(shù)據(jù)中心的云服務軟件,在向公司用戶提供云存儲的同時也提供數(shù)據(jù)分析、銷售管理、測試工具等服務IBMIBM使用云計算整合自身的全球資源提供優(yōu)質服務基于對云計算的認識,IBM提供公有云、私有云和混合云多個選項,減少用戶對隱私、安全的顧慮來吸引用戶Google云計算技術云計算產(chǎn)品Google云計算技術Google在云計算擁有著名的GFS、Bigtable、MapReduce三大技術GFS針對數(shù)據(jù)密集型應用的分布式文件系統(tǒng)運行在廉價硬件環(huán)境上并擁有較高的容錯性Bigtable管理海量結構化數(shù)據(jù)的分布式存儲系統(tǒng)提供簡單的數(shù)據(jù)模式動態(tài)地控制數(shù)據(jù)部署通過維護稀疏的多維排序映射表來檢索數(shù)據(jù)MapReduce編程模型利用輸入鍵/值對集輸出新的鍵/值對集將并行計算細節(jié)隱藏用戶只需實現(xiàn)map函數(shù)和reduce函數(shù)即可Google云計算產(chǎn)品GoogleAppEngine一種架構Web應用程序的平臺用戶可以利用提供的SDK開發(fā)Web應用程序,并將其上傳到平臺上Google負責應用的管理和維護平臺還提供網(wǎng)頁抓取、圖像操作、郵件等多種服務云端應用程序GoogleDocs基于Web的文檔處理程序支持在線編輯和多人協(xié)作GoogleCloudConnect可以直接將本地Microsoftoffice和云端的GoogleDocs連結起來文檔在本地保存的同時也保存在云中并通過鏈接向別人分享自己的文檔GoogleGoogle以其先進的技術在云計算發(fā)展中處于領先位置代表性云計算方案比較GoogleAppEngine亞馬遜AWS微軟Azure提供的服務類型PaaSIaaS、PaaS、SaaSPaaS服務間的關聯(lián)度所有服務被捆綁在一起,耦合度高可以任意選擇服務組合,耦合度低可以任意選擇服務組合,耦合度低虛擬化技術未使用XenHyper-V運行環(huán)境Google自身提供的環(huán)境,位于云端亞馬遜平臺,位于云端云端或本地支持的編程語言Python、Java多種多種使用的數(shù)據(jù)庫Datastore(構建在Bigtable之上)用戶可以根據(jù)需要在EC2上運行Oracle、SQLServer等,也可使用亞馬遜的SimpleDB改進的SQLServer使用限制最多最少較少實現(xiàn)功能最少最多較多計費方式有免費部分和收費項目按實際使用量付費按實際使用量付費可擴展性自動擴充所需資源并進行負載均衡需要手動或通過編程自動的增加所需的虛擬機數(shù)量需要手動或通過編程自動地增加所需的虛擬機數(shù)量不同應用之間的隔離通過沙盒來實現(xiàn)不同的應用運行在不同的虛擬機,以此實現(xiàn)隔離不同的應用運行在不同的虛擬機,以此實現(xiàn)隔離計算服務比較MapReduceEC2Azure計算服務服務類型PaaSIaaSPaaS虛擬機的使用未使用用戶可以根據(jù)需要設置運行虛擬機的硬件配置系統(tǒng)自動分配運行環(huán)境Google自身提供的環(huán)境,用戶無法自行調配由用戶自行提供運行程序所需的AMI(亞馬遜機器映像)程序運行在系統(tǒng)自動為用戶生成的裝有WindowsServer2008的虛擬機上易用性最好稍差較好靈活性稍差最好較好適用的應用程序適合可以并行處理的應用程序任意任意可在WindowsServer2008上運行的程序,尤其適合有大量并行用戶的應用程序存儲服務比較GFSS3Blob存儲系統(tǒng)結構數(shù)據(jù)塊服務器上的文件分塊存儲桶、對象兩級模式容器、Blob兩級模式可擴展性可通過增加數(shù)據(jù)塊服務器數(shù)量擴展存儲容量可通過增加桶中對象數(shù)量擴展存儲容量可通過增加容器中Blob數(shù)量擴展存儲容量數(shù)據(jù)交互方式用戶和數(shù)據(jù)塊服務器進行數(shù)據(jù)交互用戶可以從獲得授權的對象中取得數(shù)據(jù)用戶可以從獲得授權的Blob中取得數(shù)據(jù)存儲限制無特殊限制桶的數(shù)量和對象的大小有限制,但對象的數(shù)量無限制Blob大小有限制,但是容器和Blob數(shù)量未限制容量擴展方式自動手動或編程實現(xiàn)自動擴容手動或編程實現(xiàn)自動擴容容錯技術針對主、從服務器有各自的容錯技術數(shù)據(jù)監(jiān)聽回傳、Merkle哈希樹、數(shù)據(jù)冗余存儲僅重傳出錯的Block(塊)、數(shù)據(jù)冗余存儲數(shù)據(jù)庫服務比較GoogleAppEngineDatastore亞馬遜SimpleDB微軟SQL數(shù)據(jù)服務系統(tǒng)結構Model、實體組、實體三級模式域、條目、屬性、值四級模式Authority、容器、實體三級模式主要存儲的數(shù)據(jù)類型結構化和半結構化數(shù)據(jù)結構化數(shù)據(jù)結構化數(shù)據(jù)所用的查詢語言GQL支持有限的SQL語句SQL查詢限制返回的結果不能超過1000條響應時間不能超過5秒返回的結果不能超過500頁數(shù)據(jù)更新時間有延遲,但不是常態(tài)有延遲沒有延遲實現(xiàn)的功能較多最少最多Google云計算應用場景分析Google云計算技術框架應用場景分析1:Google網(wǎng)站流量分析應用場景分析2:Google搜索Google云計算的技術架構Google的云計算應用均依賴于四個基礎組件分布式文件存儲,GFS并行數(shù)據(jù)處理模型MapReduce分布式鎖Chubby結構化數(shù)據(jù)表BigTableGoogle云計算應用MapReduceBigTableGFSChubbyGoogle云計算的技術架構Google云計算應用BigTableGFSMapReduceChubby組件調用關系分析Google云計算的技術架構Chubby的作用為GFS提供鎖服務,選擇Master節(jié)點;記錄Master的相關描述信息通過獨占鎖記錄ChunkServer的活躍情況為BigTable提供鎖服務,記錄子表元信息(如子表文件信息、子表分配信息、子表服務器信息)(可能)記錄MapReduce的任務信息為第三方提供鎖服務與文件存儲Google云計算應用BigTableGFSMapReduceChubbyGoogle云計算的技術架構GFS的作用存儲BigTable的子表文件為第三方應用提供大尺寸文件存儲功能文件讀操作流程API與Master通信,獲取文件元信息根據(jù)指定的讀取位置和讀取長度,API發(fā)起并發(fā)操作,分別從若干ChunkServer上讀取數(shù)據(jù)API組裝所得數(shù)據(jù),返回結果Google云計算應用BigTableGFSMapReduceChubbyGoogle云計算的技術架構BigTable的作用為Google云計算應用(或第三方應用)提供數(shù)據(jù)結構化存儲功能類似于數(shù)據(jù)庫為應用提供簡單數(shù)據(jù)查詢功能(不支持聯(lián)合查詢)為MapReduce提供數(shù)據(jù)源或數(shù)據(jù)結果存儲Google云計算應用BigTableGFSMapReduceChubbyGoogle云計算的技術架構BigTable的存儲與服務請求的響應劃分為子表存儲,每個子表對應一個子表文件,子表文件存儲于GFS之上BigTable通過元數(shù)據(jù)組織子表每個子表都被分配給一個子表服務器一個子表服務器可同時分配多個子表子表服務器負責對外提供服務,響應查詢請求Tablet1:<startRowKey1,endRowKey1>,root\bigtable\tablet1,……Tablet2:<startRowKey2,endRowKey2>,root\bigtable\tablet2,……Tablet3:<startRowKey3,endRowKey3>,root\bigtable\tablet3,……Tablet4:<startRowKey4,endRowKey4>,root\bigtable\tablet4,……Google云計算的技術架構MapReduce的作用對BigTable中的數(shù)據(jù)進行并行計算處理(如統(tǒng)計、歸類等)使用BigTable或GFS存儲計算結果Google云計算應用BigTableGFSMapReduceChubby應用場景分析1

——Google網(wǎng)站流量分析GoogleAnalytics免費的企業(yè)級網(wǎng)絡分析解決方案幫助企業(yè)了解網(wǎng)站流量和營銷效果能以靈活的方式(各類報表)查看并分析流量數(shù)據(jù)應用場景分析1

——Google網(wǎng)站流量分析應用場景分析1

——Google網(wǎng)站流量分析基本功能統(tǒng)計網(wǎng)站的基本數(shù)據(jù),包括會話、綜合瀏覽量、點擊量和字節(jié)流量等等分析網(wǎng)站頁面關注度,幫助企業(yè)調整或增刪頁面分析用戶瀏覽路徑,優(yōu)化頁面布局分析用戶訪問來源鏈接,提高廣告投資回報分析用戶訪問環(huán)境(如OS和Explorer),幫助美化頁面應用場景分析1

——Google網(wǎng)站流量分析應用的特征海量數(shù)據(jù)需要存儲海量的用戶行為數(shù)據(jù)(如點擊時間、位置等)海量用戶需要為任意多的網(wǎng)站提供流量分析技術路線使用BigTable存儲和檢索數(shù)據(jù),使用MapReduce統(tǒng)計數(shù)據(jù)應用場景分析1

——Google網(wǎng)站流量分析BigTable中的表設計原始點擊數(shù)據(jù)表行鍵:點擊時間列鍵:網(wǎng)站URL、網(wǎng)站名稱、用戶IP地址、來源URL、目標URL……目前尺寸約200TB200910101210112009101012101220091010121013URL標題IP地址來源URL目標URL應用場景分析1

——Google網(wǎng)站流量分析BigTable中的表設計統(tǒng)計數(shù)據(jù)表行鍵:網(wǎng)站URL(倒排)列鍵:點擊次數(shù)(如記錄最近一個月每日的訪問次數(shù)等)、頁面關注度(如記錄網(wǎng)站頁面的訪問比率)、來源網(wǎng)站(如記錄TOP10)、目標網(wǎng)站(如記錄TOP10)…每個列中記錄的內容是字符串,Analytics在查詢后需要解析字符串獲得統(tǒng)計結果可根據(jù)統(tǒng)計內容的增多增加新的列目前尺寸約20TB應用場景分析1

——Google網(wǎng)站流量分析業(yè)務流程分析數(shù)據(jù)采集原始點擊數(shù)據(jù)表數(shù)據(jù)處理統(tǒng)計數(shù)據(jù)表數(shù)據(jù)查詢MapReduce應用場景分析1

——Google網(wǎng)站流量分析基礎設施應用服務器集群BigTable集群1BigTable集群2GFS集群Chubby集群MapReduce集群應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)采集數(shù)據(jù)來源頁面內嵌腳本點擊行為腳本應用服務器獲取到數(shù)據(jù)后,存入BigTable應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)采集數(shù)據(jù)存儲流程向BigTable中寫入點擊信息尋找子表服務器向內存臨時子表寫入信息(含排序)如超過閾值則存儲為子表文件GFS:存儲子表文件子表合并、壓縮應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)處理例如,統(tǒng)計網(wǎng)站(如)過去一周網(wǎng)頁訪問比例數(shù)據(jù)處理流程數(shù)據(jù)查詢MapReduce操作數(shù)據(jù)存儲點擊數(shù)據(jù)表統(tǒng)計數(shù)據(jù)表GFS應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)處理:MapReduceMap操作假設過去一周查詢結果文件在GFS中包含M個Chunk,那么Master尋找M個空閑的Worker,分別處理這M個Chunk,得到每個網(wǎng)站中頁面的訪問次數(shù)<com.xxx,aaa.asp><com.yyy,bbb.asp><com.zzz,aaa.asp><com.xxx,bbb.asp><com.xxx,aaa.asp><com.zzz,bbb.asp><com.xxx,<aaa.asp,2><bbb.asp,1>><com.yyy,<bbb.asp,1>><com.zzz,<aaa.asp,1><bbb.asp,1>>應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)處理:MapReduce自動排序對M個中間結果進行排序<com.xxx,<aaa.asp,2><bbb.asp,1>><com.yyy,<bbb.asp,1>><com.zzz,<aaa.asp,1><bbb.asp,1>><com.yyy,<ccc.asp,10><ddd.asp,12>><com.xxx,<aaa.asp,100><ccc.asp,10>><com.zzz,<ddd.asp,1><ccc.asp,10>><com.xxx,<aaa.asp,2><bbb.asp,1>><com.xxx,<aaa.asp,100><ccc.asp,10>><com.yyy,<bbb.asp,1>><com.yyy,<ccc.asp,10><ddd.asp,12>><com.zzz,<aaa.asp,1><bbb.asp,1>><com.zzz,<ddd.asp,1><ccc.asp,10>>應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)處理:MapReduceReduce操作假設得到該網(wǎng)站含N個網(wǎng)站,那么可以分配N臺Worker分別處理單個網(wǎng)站的數(shù)據(jù)<com.xxx,<aaa.asp,2><bbb.asp,1>><com.xxx,<aaa.asp,100><ccc.asp,10>><com.yyy,<bbb.asp,1>><com.yyy,<ccc.asp,10><ddd.asp,12>><com.zzz,<aaa.asp,1><bbb.asp,1>><com.zzz,<ddd.asp,1><ccc.asp,10>><com.xxx,<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>><com.yyy,<bbb.asp,0.0435><ccc.asp,0.4348><ddd.asp,0.5217>><com.zzz,<aaa.asp,0.0769><bbb.asp,0.0769><ddd.asp,0.0769><ccc.asp,0.7692>>應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)處理寫入數(shù)據(jù)應用程序將分析結果寫入統(tǒng)計數(shù)據(jù)表<com.xxx,<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>><com.yyy,<bbb.asp,0.0435><ccc.asp,0.4348><ddd.asp,0.5217>><com.zzz,<aaa.asp,0.0769><bbb.asp,0.0769><ddd.asp,0.0769><ccc.asp,0.7692>>應用場景分析1

——Google網(wǎng)站流量分析數(shù)據(jù)查詢從數(shù)據(jù)統(tǒng)計表中查詢行獲取對應列的數(shù)據(jù),解析,得到并展示最終結果數(shù)據(jù)處理是定期的,非實時響應查詢<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>應用場景分析2

——Google搜索Google搜索的總體業(yè)務流程數(shù)據(jù)采集:Spider數(shù)據(jù)整理生成各類子表,如音樂表、生活搜索表、學術搜索表等壓縮數(shù)據(jù)表,清洗失效數(shù)據(jù)數(shù)據(jù)檢索應用場景分析2

——Google搜索數(shù)據(jù)采集通過若干Spider在網(wǎng)絡上搜集數(shù)據(jù)使用BigTable存儲數(shù)據(jù)行鍵:倒排的URL列鍵:網(wǎng)站名稱、語言、HTML描述、圖片、鏈接……時間戳:記錄不同時刻的網(wǎng)頁快照應用場景分析2

——Google搜索數(shù)據(jù)采集Spider可能的數(shù)據(jù)處理流程Spider獲取到網(wǎng)頁數(shù)據(jù)從Chubby的元數(shù)據(jù)中找到該URL所處的子表從子表服務器中尋找對應的行如果該行不存在,則插入新的行讀取網(wǎng)頁內容列,比較新舊數(shù)據(jù)增加時間戳,標識新數(shù)據(jù)若當前時間戳超過指定數(shù)目,刪除最舊內容處理完畢存在對應行對應行鍵不存在數(shù)據(jù)未變化數(shù)據(jù)發(fā)生變化應用場景分析2

——Google搜索數(shù)據(jù)整理Google搜索包括多個子類生活搜索:租房、車票、酒店等資訊搜索:熱門新聞、分類新聞等學術搜索:學術論文定期計算網(wǎng)站評價數(shù)據(jù)例如PageRank的計算具有統(tǒng)一的數(shù)據(jù)來源使用不同的表存儲數(shù)據(jù)可能使用MapReduce定期刷新數(shù)據(jù)應用場景分析2

——Google搜索數(shù)據(jù)整理(Google學術搜索)應用場景分析2

——Google搜索數(shù)據(jù)整理(Google學術搜索)數(shù)據(jù)抽取尋找包含學術(論文)信息的網(wǎng)頁數(shù)據(jù),并結構化存儲學術(論文)信息抽?。ǚ治鰠⒖嘉墨I、摘要等)可能的技術方案:MapReduce+BigTable數(shù)據(jù)統(tǒng)計基于抽取的數(shù)據(jù)進行統(tǒng)計分析(如分析被引用次數(shù)等)可能的技術方案MapReduce+BigTable學術信息BigTable行鍵:論文標題列鍵:作者、主題詞、摘要、參考文獻、期刊信息、被引用次數(shù)、下載鏈接……應用場景分析2

——Google搜索數(shù)據(jù)整理(Google學術搜索)如何使用MapReduce抽取數(shù)據(jù)?生成抽取目標(URL)文件將目標文件分割為M塊尋找M個Worker分別做Map處理查詢網(wǎng)站的網(wǎng)頁數(shù)據(jù)是否包含論文描述信息抽取論文描述信息,輸出按論文標題將輸出排序將論文描述信息存入BigTable尋找若干Worker做Reduce處理MapReduce自動處理自動處理應用場景分析2

——Google搜索數(shù)據(jù)整理(Google學術搜索)如何獲取論文統(tǒng)計數(shù)據(jù)(如論文引用次數(shù))分析論文信息表,二次MapReduce論文A,參考文獻:{論文B,論文C,論文D}論文B,參考文獻:{論文Q,論文C,論文A}論文C,參考文獻:{論文D,論文H,論文A}論文F,參考文獻:{論文A,論文C}論文E,參考文獻:{論文S,論文A,論文D}論文S,參考文獻:{論文E,論文F}<論文B,1><論文C,1><論文D,1><論文Q,1><論文C,1><

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論