大型WEB站點架構設計文檔_第1頁
大型WEB站點架構設計文檔_第2頁
大型WEB站點架構設計文檔_第3頁
大型WEB站點架構設計文檔_第4頁
大型WEB站點架構設計文檔_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

...wd......wd......wd...1、HTML靜態(tài)化其實大家都知道,效率最高、消耗最小的就是純靜態(tài)化的html頁面,所以我們盡可能使我們的網站上的頁面采用靜態(tài)頁面來實現(xiàn),這個最簡單的方法其實也是最有效的方法。但是對于大量內容并且頻繁更新的網站,我們無法全部手動去挨個實現(xiàn),于是出現(xiàn)了我們常見的信息發(fā)布系統(tǒng)CMS,像我們常訪問的各個門戶站點的新聞頻道,甚至他們的其他頻道,都是通過信息發(fā)布系統(tǒng)來管理和實現(xiàn)的,信息發(fā)布系統(tǒng)可以實現(xiàn)最簡單的信息錄入自動生成靜態(tài)頁面,還能具備頻道管理、權限管理、自動抓取等功能,對于一個大型網站來說,擁有一套高效、可管理的CMS是必不可少的。

除了門戶和信息發(fā)布類型的網站,對于交互性要求很高的社區(qū)類型網站來說,盡可能的靜態(tài)化也是提高性能的必要手段,將社區(qū)內的帖子、文章進展實時的靜態(tài)化,有更新的時候再重新靜態(tài)化也是大量使用的策略,像Mop的大雜燴就是使用了這樣的策略,網易社區(qū)等也是如此。

同時,html靜態(tài)化也是某些緩存策略使用的手段,對于系統(tǒng)中頻繁使用數(shù)據(jù)庫查詢但是內容更新很小的應用,可以考慮使用html靜態(tài)化來實現(xiàn),比方論壇中論壇的公用設置信息,這些信息目前的主流論壇都可以進展后臺管理并且存儲再數(shù)據(jù)庫中,這些信息其實大量被前臺程序調用,但是更新頻率很小,可以考慮將這局部內容進展后臺更新的時候進展靜態(tài)化,這樣防止了大量的數(shù)據(jù)庫訪問請求。

2、圖片服務器別離

大家知道,對于Web服務器來說,不管是Apache、IIS還是其他容器,圖片是最消耗資源的,于是我們有必要將圖片與頁面進展別離,這是基本上大型網站都會采用的策略,他們都有獨立的圖片服務器,甚至很多臺圖片服務器。這樣的架構可以降低提供頁面訪問請求的服務器系統(tǒng)壓力,并且可以保證系統(tǒng)不會因為圖片問題而崩潰,在應用服務器和圖片服務器上,可以進展不同的配置優(yōu)化,比方apache在配置ContentType的時候可以盡量少支持,盡可能少的LoadModule,保證更高的系統(tǒng)消耗和執(zhí)行效率。

3、數(shù)據(jù)庫集群和庫表散列

大型網站都有復雜的應用,這些應用必須使用數(shù)據(jù)庫,那么在面對大量訪問的時候,數(shù)據(jù)庫的瓶頸很快就能顯現(xiàn)出來,這時一臺數(shù)據(jù)庫將很快無法滿足應用,于是我們需要使用數(shù)據(jù)庫集群或者庫表散列。

在數(shù)據(jù)庫集群方面,很多數(shù)據(jù)庫都有自己的解決方案,Oracle、Sybase等都有很好的方案,常用的MySQL提供的Master/Slave也是類似的方案,您使用了什么樣的DB,就參考相應的解決方案來實施即可。

上面提到的數(shù)據(jù)庫集群由于在架構、成本、擴張性方面都會受到所采用DB類型的限制,于是我們需要從應用程序的角度來考慮改善系統(tǒng)架構,庫表散列是常用并且最有效的解決方案。我們在應用程序中安裝業(yè)務和應用或者功能模塊將數(shù)據(jù)庫進展別離,不同的模塊對應不同的數(shù)據(jù)庫或者表,再按照一定的策略對某個頁面或者功能進展更小的數(shù)據(jù)庫散列,比方用戶表,按照用戶ID進展表散列,這樣就能夠低成本的提升系統(tǒng)的性能并且有很好的擴展性。sohu的論壇就是采用了這樣的架構,將論壇的用戶、設置、帖子等信息進展數(shù)據(jù)庫別離,然后對帖子、用戶按照板塊和ID進展散列數(shù)據(jù)庫和表,最終可以在配置文件中進展簡單的配置便能讓系統(tǒng)隨時增加一臺低成本的數(shù)據(jù)庫進來補充系統(tǒng)性能。

4、緩存

緩存一詞搞技術的都接觸過,很多地方用到緩存。網站架構和網站開發(fā)中的緩存也是非常重要。這里先講述最基本的兩種緩存。高級和分布式的緩存在后面講述。

架構方面的緩存,對Apache比較熟悉的人都能知道Apache提供了自己的緩存模塊,也可以使用外加的Squid模塊進展緩存,這兩種方式均可以有效的提高Apache的訪問響應能力。

網站程序開發(fā)方面的緩存,Linux上提供的MemoryCache是常用的緩存接口,可以在web開發(fā)中使用,比方用Java開發(fā)的時候就可以調用MemoryCache對一些數(shù)據(jù)進展緩存和通訊共享,一些大型社區(qū)使用了這樣的架構。另外,在使用web語言開發(fā)的時候,各種語言基本都有自己的緩存模塊和方法,PHP有Pear的Cache模塊,Java就更多了,.net不是很熟悉,相信也肯定有。

5、鏡像鏡像是大型網站常采用的提高性能和數(shù)據(jù)安全性的方式,鏡像的技術可以解決不同網絡接入商和地域帶來的用戶訪問速度差異,比方ChinaNet和EduNet之間的差異就促使了很多網站在教育網內搭建鏡像站點,數(shù)據(jù)進展定時更新或者實時更新。在鏡像的細節(jié)技術方面,這里不闡述太深,有很多專業(yè)的現(xiàn)成的解決架構和產品可選。也有廉價的通過軟件實現(xiàn)的思路,比方Linux上的rsync等工具。

6、負載均衡

負載均衡將是大型網站解決高負荷訪問和大量并發(fā)請求采用的終極解決方法。

負載均衡技術開展了多年,有很多專業(yè)的服務提供商和產品可以選擇,我個人接觸過一些解決方法,其中有兩個架構可以給大家做參考。

7、硬件四層交換

第四層交換使用第三層和第四層信息包的報頭信息,根據(jù)應用區(qū)間識別業(yè)務流,將整個區(qū)間段的業(yè)務流分配到適宜的應用服務器進展處理。第四層交換功能就象是虛IP,指向物理服務器。它傳輸?shù)臉I(yè)務服從的協(xié)議多種多樣,有、FTP、NFS、Telnet或其他協(xié)議。這些業(yè)務在物理服務器根基上,需要復雜的載量平衡算法。在IP世界,業(yè)務類型由終端TCP或UDP端口地址來決定,在第四層交換中的應用區(qū)間那么由源端和終端IP地址、TCP和UDP端口共同決定。

在硬件四層交換產品領域,有一些知名的產品可以選擇,比方Alteon、F5等,這些產品很昂貴,但是物有所值,能夠提供非常優(yōu)秀的性能和很靈活的管理能力。Yahoo中國當初接近2000臺服務器使用了三四臺Alteon就搞定了。

8、軟件四層交換大家知道了硬件四層交換機的原理后,基于OSI模型來實現(xiàn)的軟件四層交換也就應運而生,這樣的解決方案實現(xiàn)的原理一致,不過性能稍差。但是滿足一定量的壓力還是游刃有余的,有人說軟件實現(xiàn)方式其實更靈活,處理能力完全看你配置的熟悉能力。

軟件四層交換我們可以使用Linux上常用的LVS來解決,LVS就是LinuxVirtualServer,他提供了基于心跳線heartbeat的實時災難應對解決方案,提高系統(tǒng)的魯棒性,同時可供了靈活的虛擬VIP配置和管理功能,可以同時滿足多種應用需求,這對于分布式的系統(tǒng)來說必不可少。

一個典型的使用負載均衡的策略就是,在軟件或者硬件四層交換的根基上搭建squid集群,這種思路在很多大型網站包括搜索引擎上被采用,這樣的架構低成本、高性能還有很強的擴張性,隨時往架構里面增減節(jié)點都非常容易。這樣的架構我準備空了專門詳細整理一下和大家探討。

對于大型網站來說,前面提到的每個方法可能都會被同時使用到,我這里介紹得比較淺顯,具體實現(xiàn)過程中很多細節(jié)還需要大家慢慢熟悉和體會,有時一個很小的squid參數(shù)或者apache參數(shù)設置,對于系統(tǒng)性能的影響就會很大,希望大家一起討論,到達拋磚引玉之效。用squid做webcacheserver,而apache在squid的后面提供真正的web服務。當然使用這樣的架構必須要保證主頁上大局部都是靜態(tài)頁面。這就需要程序員的配合將頁面在反響給客戶端之前將頁面全部轉換成靜態(tài)頁面?;究闯鰏ina和sohu對于頻道等欄目都用了一樣的技術,即squid來監(jiān)聽這些IP的80端口,而真正的webserver來監(jiān)聽另外一個端口。從用戶的感覺上來說不會有任何的區(qū)別,而相對于將webserver直接和客戶端連在一起的方式,這樣的方式明顯的節(jié)省的帶寬和服務器。用戶訪問的速度感覺也會更快。:///arch/yupoo_arch.html帶寬:4000M/S(參考)

服務器數(shù)量:60臺左右

Web服務器:Ligd,Apache,nginx

應用服務器:Tomcat

其他:Python,Java,MogileFS、ImageMagick等關于Squid與TomcatSquid與Tomcat似乎在Web2.0站點的架構中較少看到。我首先是對Squid有點疑問,對此阿華的解釋是"目前暫時還沒找到效率比Squid高的緩存系統(tǒng),原來命中率確實很差,后來在Squid前又裝了層Ligd,基于url做hash,同一個圖片始終會到同一臺squid去,所以命中率徹底提高了"對于應用服務器層的Tomcat,現(xiàn)在Yupoo!技術人員也在逐漸用其他輕量級的東西替代,而YPWS/YPFS現(xiàn)在已經用Python進展開發(fā)了。名次解釋:YPWS--YupooWebServerYPWS是用Python開發(fā)的一個小型Web服務器,提供基本的Web服務外,可以增加針對用戶、圖片、外鏈網站顯示的邏輯判斷,可以安裝于任何有空閑資源的服務器中,遇到性能瓶頸時方便橫向擴展。YPFS--YupooFileSystem與YPWS類似,YPFS也是基于這個Web服務器上開發(fā)的圖片上傳服務器。

【Updated:有網友留言質疑Python的效率,Yupoo老大劉平陽在del.icio.us上寫到"YPWS用Python自己寫的,每臺機器每秒可以處理294個請求,現(xiàn)在壓力幾乎都在10%以下"】圖片處理層接下來的ImageProcessServer負責處理用戶上傳的圖片。使用的軟件包也是ImageMagick,在上次存儲升級的同時,對于銳化的比率也調整過了(我個人感覺,效果確實好了很多)。〞Magickd“是圖像處理的一個遠程接口服務,可以安裝在任何有空閑CPU資源的機器上,類似Memcached的服務方式。我們知道Flickr的縮略圖功能原來是用ImageMagick軟件包的,后來被雅虎收購后出于版權原因而不用了〔?〕;EXIF與IPTCFlicke是用Perl抽取的,我是非常建議Yupoo!針對EXIF做些文章,這也是潛在產生受益的一個重點。圖片存儲層原來Yupoo!的存儲采用了磁盤陣列柜,基于NFS方式的,隨著數(shù)據(jù)量的增大,〞Yupoo!開發(fā)部從07年6月份就開場著手研究一套大容量的、能滿足Yupoo!今后開展需要的、安全可靠的存儲系統(tǒng)“,看來Yupoo!系統(tǒng)比較有信心,也是滿懷期待的,畢竟這要支撐以TB計算的海量圖片的存儲和管理。我們知道,一張圖片除了原圖外,還有不同尺寸的,這些圖片統(tǒng)一存儲在MogileFS中。對于其他局部,常見的Web2.0網站必須軟件都能看到,如MySQL、Memcached、Ligd等。Yupoo!一方面采用不少相比照擬成熟的開源軟件,一方面也在自行開發(fā)定制適合自己的架構組件。這也是一個Web2.0公司所必需要走的一個途徑。非常感謝一下Yupoo!阿華對于技術信息的分享,技術是共通的。下一個能爆料是哪家?--EOF--ligd+squid這套緩存是放在另外一個機房作為cdn的一個節(jié)點使用的,圖中沒描繪清楚,給大家?guī)聿槐懔恕?/p>

squid前端用ligd沒用nginx,主要是用了這么久,沒出啥大問題,所以就沒想其他的了。

URLHash的擴展性確實不好,能做的就是不輕易去增減服務器,我們目前是5臺服務器做一組hash.我們現(xiàn)在用Python寫的WebServer,在效率方面,我可以給個測試數(shù)據(jù),根據(jù)目前的訪問日志模擬訪問測試的結果是1臺ypws,平均每秒處理294個請求(加載所有的邏輯判斷)。

在可靠性上,還不沒具體的數(shù)據(jù),目前運行1個多月還沒有任何異常。lvs每個節(jié)點上都裝nginx,主要是為了反向代理及處理靜態(tài)內容,不過apache已顯得不是那么必需,準備逐漸去掉。我們處理圖片都是即時的,我們目前半數(shù)以上的服務器都裝了magickd服務,用來分擔圖片處理請求。:///review/tailrank_arch.html每天數(shù)以千萬計的Blog內容中,實時的熱點是什么?Tailrank這個Web2.0Startup致力于答復這個問題。專門爆料網站架構的ToddHoff對KevinBurton進展了采訪。于是我們能了解一下Tailrank架構的一些信息。每小時索引2400萬的Blog與Feed,內容處理能力為160-200Mbps,IO寫入大約在10-15MBps。每個月要處理52T之多的原始數(shù)據(jù)。Tailrank所用的爬蟲現(xiàn)在已經成為一個獨立產品:spinn3r。服務器硬件目前大約15臺服務器,CPU是64位的Opteron。每臺主機上掛兩個SATA盤,做RAID0。據(jù)我所知,國內很多Web2.0公司也用的是類似的方式,SATA盤容量達,低廉價格,堪稱不二之選。操作系統(tǒng)用的是DebianLinux。Web服務器用Apache2.0,Squid做反向代理服務器。數(shù)據(jù)庫Tailrank用MySQL數(shù)據(jù)庫,聯(lián)邦數(shù)據(jù)庫形式。存儲引擎用InnoDB,數(shù)據(jù)量500GB。KevinBurton也指出了MySQL5在修了一些多核模式下互斥鎖的問題(ThisBug?)。到數(shù)據(jù)庫的JDBC驅動連接池用lbpool做負載均衡。MySQLSlave或者Master的復制用MySQLSlaveSync來輕松完成。不過即使這樣,還要花費20%的時間來折騰DB。其他開放的軟件任何一套系統(tǒng)都離不開適宜的Profiling工具,Tailrank也不利外,針對Java程序的Benchmark用Benchmark4j。Log工具用Log5j(不是Log4j)。Tailrank所用的大局部工具都是開放的。Tailrank的一個比較大的競爭對手是Techmeme,雖然二者暫時看面向內容的側重點有所不同。其實,最大的對手還是自己,當需要挖掘的信息量越來越大,如果精準并及時的呈現(xiàn)給用戶內容的成本會越來越高。從現(xiàn)在來看,Tailrank離預期目標還差的很遠。期待羅馬早日建成://hideto.javaeye/blog/129726YouTube架構學習關鍵字:YouTube原文:YouTubeArchitecture

YouTube開展迅速,每天超過1億的視頻點擊量,但只有很少人在維護站點和確保伸縮性。

平臺

Apache

Python

Linux(SuSe)

MySQL

psyco,一個動態(tài)的Python到C的編譯器

ligd代替Apache做視頻查看

狀態(tài)

支持每天超過1億的視頻點擊量

成立于2005年2月

于2006年3月到達每天3千萬的視頻點擊量

于2006年7月到達每天1億的視頻點擊量

2個系統(tǒng)管理員,2個伸縮性軟件架構師

2個軟件開發(fā)工程師,2個網絡工程師,1個DBA

處理飛速增長的流量Java代碼while

(true)

{

identify_and_fix_bottlenecks();

drink();

sleep();

notice_new_bottleneck();

}

每天運行該循環(huán)屢次

Web服務器

1,NetScaler用于負載均衡和靜態(tài)內容緩存

2,使用mod_fast_cgi運行Apache

3,使用一個Python應用服務器來處理請求的路由

4,應用服務器與多個數(shù)據(jù)庫和其他信息源交互來獲取數(shù)據(jù)和格式化html頁面

5,一般可以通過添加更多的機器來在Web層提高伸縮性

6,Python的Web層代碼通常不是性能瓶頸,大局部時間阻塞在RPC

7,Python允許快速而靈活的開發(fā)和部署

8,通常每個頁面服務少于100毫秒的時間

9,使用psyco(一個類似于JIT編譯器的動態(tài)的Python到C的編譯器)來優(yōu)化內部循環(huán)

10,對于像加密等密集型CPU活動,使用C擴展

11,對于一些開銷昂貴的塊使用預先生成并緩存的html

12,數(shù)據(jù)庫里使用行級緩存

13,緩存完整的Python對象

14,有些數(shù)據(jù)被計算出來并發(fā)送給各個程序,所以這些值緩存在本地內存中。這是個使用不當?shù)牟呗?。應用服務器里最快的緩存將預先計算的值發(fā)送給所有服務器也花不了多少時間。只需弄一個代理來監(jiān)聽更改,預計算,然后發(fā)送。

視頻服務

1,花費包括帶寬,硬件和能源消耗

2,每個視頻由一個迷你集群來host,每個視頻被超過一臺機器持有

3,使用一個集群意味著:

-更多的硬盤來持有內容意味著更快的速度

-failover。如果一臺機器出故障了,另外的機器可以繼續(xù)服務

-在線備份

4,使用ligd作為Web服務器來提供視頻服務:

-Apache開銷太大

-使用epoll來等待多個fds

-從單進程配置轉變?yōu)槎噙M程配置來處理更多的連接

5,大局部流行的內容移到CDN:

-CDN在多個地方備份內容,這樣內容離用戶更近的時機就會更高

-CDN機器經常內存缺乏,因為內容太流行以致很少有內容進出內存的顛簸

6,不太流行的內容(每天1-20瀏覽次數(shù))在許多colo站點使用YouTube服務器

-長尾效應。一個視頻可以有多個播放,但是許多視頻正在播放。隨機硬盤塊被訪問

-在這種情況下緩存不會很好,所以花錢在更多的緩存上可能沒太大意義。

-調節(jié)RAID控制并注意其他低級問題

-調節(jié)每臺機器上的內存,不要太多也不要太少

視頻服務關鍵點

1,保持簡單和廉價

2,保持簡單網絡路徑,在內容和用戶間不要有太多設備

3,使用常用硬件,昂貴的硬件很難找到幫助文檔

4,使用簡單而常見的工具,使用構建在Linux里或之上的大局部工具

5,很好的處理隨機查找(SATA,tweaks)

縮略圖服務

1,做到高效令人驚奇的難

2,每個視頻大概4張縮略圖,所以縮略圖比視頻多很多

3,縮略圖僅僅host在幾個機器上

4,持有一些小東西所遇到的問題:

-OS級別的大量的硬盤查找和inode和頁面緩存問題

-單目錄文件限制,特別是Ext3,后來移到多分層的構造。內核2.6的最近改進可能讓Ext3允許大目錄,但在一個文件系統(tǒng)里存儲大量文件不是個好主意

-每秒大量的請求,因為Web頁面可能在頁面上顯示60個縮略圖

-在這種高負載下Apache表現(xiàn)的非常糟糕

-在Apache前端使用squid,這種方式工作了一段時間,但是由于負載繼續(xù)增加而以失敗告終。它讓每秒300個請求變?yōu)?0個

-嘗試使用ligd但是由于使用單線程它陷于困境。遇到多進程的問題,因為它們各自保持自己單獨的緩存

-如此多的圖片以致一臺新機器只能接收24小時

-重啟機器需要6-10小時來緩存

5,為了解決所有這些問題YouTube開場使用Google的BigTable,一個分布式數(shù)據(jù)存儲:

-防止小文件問題,因為它將文件收集到一起

-快,錯誤容忍

-更低的延遲,因為它使用分布式多級緩存,該緩存與多個不同collocation站點工作

-更多信息參考GoogleArchitecture,GoogleTalkArchitecture和BigTable數(shù)據(jù)庫

1,早期

-使用MySQL來存儲元數(shù)據(jù),如用戶,tags和描述

-使用一整個10硬盤的RAID10來存儲數(shù)據(jù)

-依賴于信用卡所以YouTube租用硬件

-YouTube經過一個常見的革命:單服務器,然后單master和多readslaves,然后數(shù)據(jù)庫分區(qū),然后sharding方式

-痛苦與備份延遲。master數(shù)據(jù)庫是多線程的并且運行在一個大機器上所以它可以處理許多工作,slaves是單線程的并且通常運行在小一些的服務器上并且備份是異步的,所以slaves會遠遠落后于master

-更新引起緩存失效,硬盤的慢I/O導致慢備份

-使用備份架構需要花費大量的money來獲得增加的寫性能

-YouTube的一個解決方案是通過把數(shù)據(jù)分成兩個集群來將傳輸分出優(yōu)先次序:一個視頻查看池和一個一般的集群

2,后期

-數(shù)據(jù)庫分區(qū)

-分成shards,不同的用戶指定到不同的shards

-擴散讀寫

-更好的緩存位置意味著更少的IO

-導致硬件減少30%

-備份延遲降低到0

-現(xiàn)在可以任意提升數(shù)據(jù)庫的伸縮性

數(shù)據(jù)中心策略

1,依賴于信用卡,所以最初只能使用受管主機提供商

2,受管主機提供商不能提供伸縮性,不能控制硬件或使用良好的網絡協(xié)議

3,YouTube改為使用colocationarrangement?,F(xiàn)在YouTube可以自定義所有東西并且協(xié)定自己的契約

4,使用5到6個數(shù)據(jù)中心加CDN

5,視頻來自任意的數(shù)據(jù)中心,不是最近的匹配或其他什么。如果一個視頻足夠流行那么移到CDN

6,依賴于視頻帶寬而不是真正的延遲??梢詠碜匀魏蝐olo

7,圖片延遲很嚴重,特別是當一個頁面有60張圖片時

8,使用BigTable將圖片備份到不同的數(shù)據(jù)中心,代碼查看誰是最近的

學到的東西

1,Stallfortime。創(chuàng)造性和風險性的技巧讓你在短期內解決問題而同時你會發(fā)現(xiàn)長期的解決方案

2,Proioritize。找出你的服務中核心的東西并對你的資源分出優(yōu)先級別

3,Pickyourbattles。別怕將你的核心服務分出去。YouTube使用CDN來分布它們最流行的內容。創(chuàng)立自己的網絡將花費太多時間和太多money

4,Keepitsimple!簡單允許你更快的重新架構來回應問題

5,Shard。Sharding幫助隔離存儲,CPU,內存和IO,不僅僅是獲得更多的寫性能

6,Constantiterationonbottlenecks:

-軟件:DB,緩存

-OS:硬盤I/O

-硬件:內存,RAID

7,Yousucceedasateam。擁有一個跨越條律的了解整個系統(tǒng)并知道系統(tǒng)內部是什么樣的團隊,如安裝打印機,安裝機器,安裝網絡等等的人。Withagoodteamallthingsarepossible。://hideto.javaeye/blog/130815Google架構學習關鍵字:Google原文:GoogleArchitecture

Google是伸縮性的王者。Google一直的目標就是構建高性能高伸縮性的根基組織來支持它們的產品。

平臺

Linux

大量語言:Python,Java,C++

狀態(tài)

在2006年大約有450,000臺廉價服務器

在2005年Google索引了80億Web頁面,現(xiàn)在沒有人知道數(shù)目

目前在Google有超過200個GFS集群。一個集群可以有1000或者甚至5000臺機器。成千上萬的機器從運行著5000000000000000字節(jié)存儲的GFS集群獲取數(shù)據(jù),集群總的讀寫吞吐量可以到達每秒40兆字節(jié)

目前在Google有6000個MapReduce程序,而且每個月都寫成百個新程序

BigTable伸縮存儲幾十億的URL,幾百千千兆的衛(wèi)星圖片和幾億用戶的參數(shù)選擇

堆棧

Google形象化它們的根基組織為三層架構:

1,產品:搜索,廣告,email,地圖,視頻,聊天,博客

2,分布式系統(tǒng)根基組織:GFS,MapReduce和BigTable

3,計算平臺:一群不同的數(shù)據(jù)中心里的機器

4,確保公司里的人們部署起來開銷很小

5,花費更多的錢在防止喪失日志數(shù)據(jù)的硬件上,其他類型的數(shù)據(jù)那么花費較少

可信賴的存儲機制GFS(GoogleFileSystem)

1,可信賴的伸縮性存儲是任何程序的核心需求。GFS就是Google的核心存儲平臺

2,GoogleFileSystem-大型分布式構造化日志文件系統(tǒng),Google在里面扔了大量的數(shù)據(jù)

3,為什么構建GFS而不是利用已有的東西因為可以自己控制一切并且這個平臺與別的不一樣,Google需要:

-跨數(shù)據(jù)中心的高可靠性

-成千上萬的網絡節(jié)點的伸縮性

-大讀寫帶寬的需求

-支持大塊的數(shù)據(jù),可能為上千兆字節(jié)

-高效的跨節(jié)點操作分發(fā)來減少瓶頸

4,系統(tǒng)有Master和Chunk服務器

-Master服務器在不同的數(shù)據(jù)文件里保持元數(shù)據(jù)。數(shù)據(jù)以64MB為單位存儲在文件系統(tǒng)中??蛻舳伺cMaster服務器交流來在文件上做元數(shù)據(jù)操作并且找到包含用戶需要數(shù)據(jù)的那些Chunk服務器

-Chunk服務器在硬盤上存儲實際數(shù)據(jù)。每個Chunk服務器跨越3個不同的Chunk服務器備份以創(chuàng)立冗余來防止服務器崩潰。一旦被Master服務器指明,客戶端程序就會直接從Chunk服務器讀取文件

6,一個上線的新程序可以使用已有的GFS集群或者可以制作自己的GFS集群

7,關鍵點在于有足夠的根基組織來讓人們對自己的程序有所選擇,GFS可以調整來適應個別程序的需求

使用MapReduce來處理數(shù)據(jù)

1,現(xiàn)在你已經有了一個很好的存儲系統(tǒng),你該怎樣處理如此多的數(shù)據(jù)呢比方你有許多TB的數(shù)據(jù)存儲在1000臺機器上。數(shù)據(jù)庫不能伸縮或者伸縮到這種級別花費極大,這就是MapReduce出現(xiàn)的原因

2,MapReduce是一個處理和生成大量數(shù)據(jù)集的編程模型和相關實現(xiàn)。用戶指定一個map方法來處理一個鍵/值對來生成一個中間的鍵/值對,還有一個reduce方法來合并所有關聯(lián)到同樣的中間鍵的中間值。許多真實世界的任務都可以使用這種模型來表現(xiàn)。以這種風格來寫的程序會自動并行的在一個大量機器的集群里運行。運行時系統(tǒng)照顧輸入數(shù)據(jù)劃分、程序在機器集之間執(zhí)行的調度、機器失敗處理和必需的內部機器交流等細節(jié)。這允許程序員沒有多少并行和分布式系統(tǒng)的經歷就可以很容易使用一個大型分布式系統(tǒng)資源

3,為什么使用MapReduce

-跨越大量機器分割任務的好方式

-處理機器失敗

-可以與不同類型的程序工作,例如搜索和廣告。幾乎任何程序都有map和reduce類型的操作。你可以預先計算有用的數(shù)據(jù)、查詢字數(shù)統(tǒng)計、對TB的數(shù)據(jù)排序等等

4,MapReduce系統(tǒng)有三種不同類型的服務器

-Master服務器分配用戶任務到Map和Reduce服務器。它也跟蹤任務的狀態(tài)

-Map服務器接收用戶輸入并在其根基上處理map操作。結果寫入中間文件

-Reduce服務器接收Map服務器產生的中間文件并在其根基上處理reduce操作

5,例如,你想在所有Web頁面里的字數(shù)。你將存儲在GFS里的所有頁面拋入MapReduce。這將在成千上萬臺機器上同時進展并且所有的調整、工作調度、失敗處理和數(shù)據(jù)傳輸將自動完成

-步驟類似于:GFS->Map->Shuffle->Reduction->StoreResultsbackintoGFS

-在MapReduce里一個map操作將一些數(shù)據(jù)映射到另一個中,產生一個鍵值對,在我們的例子里就是字和字數(shù)

-Shuffling操作聚集鍵類型

-Reduction操作計算所有鍵值對的綜合并產生最終的結果

6,Google索引操作管道有大約20個不同的map和reduction。

7,程序可以非常小,如20到50行代碼

8,一個問題是落伍者。落伍者是一個比其他程序慢的計算,它阻塞了其他程序。落伍者可能因為緩慢的IO或者臨時的CPU不能使用而發(fā)生。解決方案是運行多個同樣的計算并且當一個完成后殺死所有其他的

9,數(shù)據(jù)在Map和Reduce服務器之間傳輸時被壓縮了。這可以節(jié)省帶寬和I/O。

在BigTable里存儲構造化數(shù)據(jù)

1,BigTable是一個大伸縮性、錯誤容忍、自管理的系統(tǒng),它包含千千兆的內存和1000000000000000的存儲。它可以每秒鐘處理百萬的讀寫

2,BigTable是一個構建于GFS之上的分布式哈希機制。它不是關系型數(shù)據(jù)庫。它不支持join或者SQL類型查詢

3,它提供查詢機制來通過鍵訪問構造化數(shù)據(jù)。GFS存儲存儲不透明的數(shù)據(jù)而許多程序需求有構造化數(shù)據(jù)

4,商業(yè)數(shù)據(jù)庫不能到達這種級別的伸縮性并且不能在成千上萬臺機器上工作

5,通過控制它們自己的低級存儲系統(tǒng)Google得到更多的控制權來改進它們的系統(tǒng)。例如,如果它們想讓跨數(shù)據(jù)中心的操作更簡單這個特性,它們可以內建它

6,系統(tǒng)運行時機器可以自由的增刪而整個系統(tǒng)保持工作

7,每個數(shù)據(jù)條目存儲在一個格子里,它可以通過一個行key和列key或者時間戳來訪問

8,每一行存儲在一個或多個tablet中。一個tablet是一個64KB塊的數(shù)據(jù)序列并且格式為SSTable

9,BigTable有三種類型的服務器:

-Master服務器分配tablet服務器,它跟蹤tablet在哪里并且如果需要那么重新分配任務

-Tablet服務器為tablet處理讀寫請求。當tablet超過大小限制(通常是100MB-200MB)時它們拆開tablet。當一個Tablet服務器失敗時,那么100個Tablet服務器各自挑選一個新的tablet然后系統(tǒng)恢復。

-Lock服務器形成一個分布式鎖服務。像翻開一個tablet來寫、Master調整和訪問控制檢查等都需要互斥

10,一個locality組可以用來在物理上將相關的數(shù)據(jù)存儲在一起來得到更好的locality選擇

11,tablet盡可能的緩存在RAM里

硬件

1,當你有很多機器時你怎樣組織它們來使得使用和花費有效

2,使用非常廉價的硬件

3,A1,000-foldcomputerpowerincreasecanbehadfora33timeslowercostifyouyouuseafailure-proneinfrastructureratherthananinfrastructurebuiltonhighlyreliablecomponents.Youmustbuildreliabilityontopofunreliabilityforthisstrategytowork.

4,Linux,in-houserackdesign,PC主板,低端存儲

5,Priceperwattageonperformancebasisisn'tgettingbetter.Havehugepowerandcoolingissues

6,使用一些collocation和Google自己的數(shù)據(jù)中心

其他

1,迅速更改而不是等待QA

2,庫是構建程序的卓越方式

3,一些程序作為服務提供

4,一個根基組織處理程序的版本,這樣它們可以發(fā)布而不用害怕會破壞什么東西

Google將來的方向

1,支持地理位置分布的集群

2,為所有數(shù)據(jù)創(chuàng)立一個單獨的全局名字空間。當前的數(shù)據(jù)由集群別離

3,更多和更好的自動化數(shù)據(jù)遷移和計算

4,解決當使用網絡劃分來做廣闊區(qū)域的備份時的一致性問題(例如保持服務即使一個集群離線維護或由于一些損耗問題)

學到的東西

1,根基組織是有競爭性的優(yōu)勢。特別是對Google而言。Google可以很快很廉價的推出新服務,并且伸縮性其他人很難到達。許多公司采取完全不同的方式。許多公司認為根基組織開銷太大。Google認為自己是一個系統(tǒng)工程公司,這是一個新的對待軟件構建的方式

2,跨越多個數(shù)據(jù)中心仍然是一個未解決的問題。大局部網站都是一個或者最多兩個數(shù)據(jù)中心。我們不得不成認怎樣在一些數(shù)據(jù)中心之間完整的分布網站是很需要技巧的

3,如果你自己沒有時間從零開場重新構建所有這些根基組織你可以看看Hadoop。Hadoop是這里很多同樣的主意的一個開源實現(xiàn)

4,平臺的一個優(yōu)點是初級開發(fā)人員可以在平臺的根基上快速并且放心的創(chuàng)立健全的程序。如果每個工程都需要創(chuàng)造同樣的分布式根基組織的輪子,那么你將陷入

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論