版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
信息存儲(chǔ)和檢索IntroductiontoInformationStorageandManagement-2一.信息存儲(chǔ):1.存儲(chǔ)系統(tǒng)2.存儲(chǔ)網(wǎng)絡(luò)技術(shù)二.信息檢索:1.布爾檢索2.詞項(xiàng)詞典與倒排記錄表3.詞典及容錯(cuò)式檢索4.索引構(gòu)建5.索引壓縮6.文檔評(píng)分、詞項(xiàng)權(quán)重計(jì)算及向量空間模型IntroductiontoInformationStorageandManagement-3二.信息檢索:7.一個(gè)完整搜索系統(tǒng)中的評(píng)分計(jì)算8.信息檢索的評(píng)價(jià)9.相關(guān)反饋及查詢擴(kuò)展10.相關(guān)反饋及查詢擴(kuò)展11.XML檢索12.概率檢索模型第1章信息存儲(chǔ)與管理的介紹IntroductiontoInformationStorageandManagement-5為什么要信息存儲(chǔ)“數(shù)字時(shí)代–信息爆炸”21st
世紀(jì)是一個(gè)信息時(shí)代
信息增長(zhǎng)率不斷提高信息是成功的重要要素隨著數(shù)據(jù)獲取設(shè)備數(shù)量的增長(zhǎng)及數(shù)據(jù)的廣泛應(yīng)用,越來越多的信息由個(gè)人產(chǎn)生,超過了商業(yè)信息的生產(chǎn)量。當(dāng)個(gè)人的信息被其他人共享時(shí),該信息會(huì)增值。信息產(chǎn)生時(shí),通常存儲(chǔ)在本地設(shè)備上,如手機(jī)、攝像機(jī)、筆記本,需要對(duì)大量信息進(jìn)行存儲(chǔ)和管理。IntroductiontoInformationStorageandManagement-6信息需要良性循環(huán)
UsersofInformationCentralizedinformationstorageandprocessingUploadinginformationAccessinginformationWiredWirelessWiredWirelessNetworkNetworkDemandformoreInformationCreatorsofinformationVirtuouscycleofinformationIntroductiontoInformationStorageandManagement-7信息存儲(chǔ)的重要性信息對(duì)商業(yè)的日益增長(zhǎng)的重要性大大增加了對(duì)數(shù)據(jù)存儲(chǔ)和管理的挑戰(zhàn)性。商業(yè)機(jī)構(gòu)需要管理的數(shù)據(jù)信息已經(jīng)驅(qū)動(dòng)著各種策略的產(chǎn)生,使之在數(shù)據(jù)生命周期內(nèi),根據(jù)數(shù)據(jù)的價(jià)值來分類和創(chuàng)建數(shù)據(jù)管理規(guī)則。本章描述信息存儲(chǔ)架構(gòu)的發(fā)展,從簡(jiǎn)單的直連式模型都復(fù)雜的網(wǎng)絡(luò)拓?fù)?。還介紹信息生命周期管理(InformationLifecycleManagement,ILM)策略。IntroductiontoInformationStorageandManagement-81.1:信息存儲(chǔ)根據(jù)這一章節(jié),可以了解:描述信息對(duì)個(gè)人和商業(yè)的重要性數(shù)據(jù)和信息的定義數(shù)據(jù)的分類存儲(chǔ)架構(gòu)和它的演化過程IntroductiontoInformationStorageandManagement-91.1.1數(shù)據(jù)當(dāng)前的數(shù)據(jù)主要指數(shù)字?jǐn)?shù)據(jù),下面是一些促進(jìn)數(shù)字?jǐn)?shù)據(jù)增長(zhǎng)的要素:數(shù)據(jù)處理能力的提升數(shù)字存儲(chǔ)的低成本可負(fù)擔(dān)的和更快的通信技術(shù)誰創(chuàng)建了數(shù)據(jù)?個(gè)人商業(yè)“數(shù)據(jù)是原始事實(shí)的集合,從中可以得到一些結(jié)論?!?10101010101010101101000010101011010101010101010101010101010101010VideoPhotoBookLetterDigitalDataIntroductiontoInformationStorageandManagement-101.1.1數(shù)據(jù)研究和商業(yè)數(shù)據(jù)實(shí)例:地震:包括收集不同來源和不同參數(shù)的地震數(shù)據(jù),以及其他需要處理后才有意義的相關(guān)數(shù)據(jù)。生成數(shù)據(jù):包括產(chǎn)品不同方法的數(shù)據(jù),比如庫存、價(jià)格、可用量和銷售量??蛻魯?shù)據(jù):關(guān)系到公司客戶的數(shù)據(jù),比如訂購信息、發(fā)貨地址以及購買歷史清單。醫(yī)療數(shù)據(jù):涉及到醫(yī)療護(hù)理的數(shù)據(jù),比如病人歷史記錄、放射圖像、藥物詳細(xì)信息和其他醫(yī)療器械、保險(xiǎn)信息等。IntroductiontoInformationStorageandManagement-111.1.2數(shù)據(jù)類型數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)其中超過80%企業(yè)信息是非架構(gòu)化RowsandColumnsContractsImagesManualsX-RaysInstantMessagesFormsE-MailAttachmentsCheckDocumentsPDFsWebPagesAudioVideoInvoicesRichMediaStructured(20%)Unstructured(80%)IntroductiontoInformationStorageandManagement-121.1.3信息不管是結(jié)構(gòu)化數(shù)據(jù)還是非架構(gòu)化數(shù)據(jù),除非在一個(gè)有意義的環(huán)境下,否則都不能滿足任何個(gè)人的或是商業(yè)的目的。商業(yè)應(yīng)用分析原始數(shù)據(jù)以找出有意義的趨勢(shì)?;谶@些基本趨勢(shì),公司可以制定和修改其策略。例如,只需通過分析客戶的購買模式和維護(hù)客戶的物品清單,零售商就可以辨認(rèn)出客戶喜歡的樣式和品牌的名字。有效的數(shù)據(jù)分析不僅給現(xiàn)在的商業(yè)應(yīng)用帶來利益,而且通過采用創(chuàng)造性方式使用數(shù)據(jù)還能創(chuàng)造出潛在的、新的商業(yè)機(jī)會(huì)?!扒舐氄衅搁T戶網(wǎng)站”就是這樣一個(gè)實(shí)例。為了接觸到更廣泛的潛在雇主,找工作的人把他們的簡(jiǎn)歷發(fā)布在各種提供工作搜索功能的網(wǎng)站上。這些網(wǎng)站收集這些簡(jiǎn)歷并將其集中在一個(gè)可以讓雇主訪問的地方。另外,公司也會(huì)提供工作職位到求職招聘網(wǎng)站上。“工作匹配軟件”就可以根據(jù)簡(jiǎn)歷中的關(guān)鍵字和職位要求中的關(guān)鍵字進(jìn)行匹配。IntroductiontoInformationStorageandManagement-131.1.4存儲(chǔ)由于個(gè)人和商業(yè)應(yīng)用產(chǎn)生的數(shù)據(jù)必須存儲(chǔ)起來,以便在進(jìn)一步處理可以進(jìn)行訪問。在一個(gè)計(jì)算環(huán)境下,用來存儲(chǔ)數(shù)據(jù)的設(shè)備被稱為存儲(chǔ)設(shè)備(storagedevice,或簡(jiǎn)稱storage)。存儲(chǔ)設(shè)備的類型取決于數(shù)據(jù)類型以及數(shù)據(jù)創(chuàng)建和使用的頻率。像手機(jī)或數(shù)碼相機(jī)中的內(nèi)存、DVD、CD-ROM和個(gè)人電腦中的硬盤等都是存儲(chǔ)設(shè)備的實(shí)例。商業(yè)應(yīng)用中通常使用的幾種存儲(chǔ)介質(zhì)包括內(nèi)部硬盤、外部磁盤陣列和磁帶。IntroductiontoInformationStorageandManagement-141.2存儲(chǔ)技術(shù)和架構(gòu)的發(fā)展以前,所有的組織在其數(shù)據(jù)中心都有集中的計(jì)算機(jī)(大型)和信息存儲(chǔ)設(shè)備(磁帶卷和磁盤架)。分散的企業(yè)部門內(nèi)部服務(wù)器導(dǎo)致了信息的難于保護(hù)、不易管理,并產(chǎn)生了信息孤島以及增加了操作的開銷。起初,只有有限的策略和方法來管理這些服務(wù)器及其創(chuàng)建的數(shù)據(jù)。IntroductiontoInformationStorageandManagement-151.2存儲(chǔ)技術(shù)和架構(gòu)的發(fā)展為了克服這些困難,存儲(chǔ)技術(shù)從非智能存儲(chǔ)發(fā)展到智能網(wǎng)絡(luò)存儲(chǔ):冗余磁盤陣列(RedundantArrayofIndependentDisks,RAID):這種技術(shù)是用來解決數(shù)據(jù)的存儲(chǔ)成本、性能和可用性等問題。直接存儲(chǔ)(Direct-attachedStorage,DAS):存儲(chǔ)設(shè)備直接連接到服務(wù)器(主機(jī))或是機(jī)器中的服務(wù)器組。存儲(chǔ)設(shè)備可以在服務(wù)器的內(nèi)部或者外部。外部DAS緩解了內(nèi)部存儲(chǔ)的容量限制。存儲(chǔ)區(qū)域網(wǎng)(StorageAreaNetwork,SAN):這是一個(gè)專用的、高性能的光纖通道(FC)網(wǎng)絡(luò),用來完成服務(wù)器和存儲(chǔ)設(shè)備之間塊級(jí)別的通信。存儲(chǔ)設(shè)備被分區(qū)并指定給不同服務(wù)器,從而被分別訪問。相比于DAS,SAN提供了更好的可擴(kuò)展性、可用性、性能和更低的成本。IntroductiontoInformationStorageandManagement-16網(wǎng)絡(luò)互聯(lián)存儲(chǔ)(Network-attachedStorage,NAS):這是一個(gè)專用于文件服務(wù)類應(yīng)用的存儲(chǔ)設(shè)備。不像SAN,它通過現(xiàn)有的通信網(wǎng)絡(luò)(LAN)連接,并為不同客戶提供文件訪問。由于它主要是為文件服務(wù)類應(yīng)用提供存儲(chǔ)服務(wù),所以較其他通用文件服務(wù)器,它有更高的擴(kuò)展性、可用性、性能和更低的成本。IP存儲(chǔ)區(qū)域網(wǎng)(InternetProtocolSAN,IPSAN):IPSAN是存儲(chǔ)架構(gòu)里的一個(gè)最新的發(fā)展,是SAN和NAS技術(shù)的集成。IPSAN提供了在局域網(wǎng)和廣域網(wǎng)(LAN和WAN)上的塊級(jí)別傳輸,從而具有更高的數(shù)據(jù)融合性和可用性。IntroductiontoInformationStorageandManagement-17StorageTechnologyandArchitectureEvolutionIPSANMultiProtocolRouterSAN/NASFCSANLANRAIDArrayJBODInternalDASTimeIntroductiontoInformationStorageandManagement-181.3數(shù)據(jù)中心基礎(chǔ)設(shè)施企業(yè)組織通過數(shù)據(jù)中心為整個(gè)企業(yè)提供集中的數(shù)據(jù)處理能力。數(shù)據(jù)中心基礎(chǔ)設(shè)施包括計(jì)算機(jī)、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)設(shè)備、專用的備用電源和環(huán)境控制設(shè)備(如空調(diào)和滅火器)大型組織通常維護(hù)多個(gè)數(shù)據(jù)中心,以便分散數(shù)據(jù)處理負(fù)擔(dān),并在災(zāi)難發(fā)生時(shí)提供數(shù)據(jù)備份。數(shù)據(jù)中心的存儲(chǔ)需求往往要不同的存儲(chǔ)架構(gòu)組合才能滿足。IntroductiontoInformationStorageandManagement-191.3.1核心部件一個(gè)數(shù)據(jù)中心要實(shí)現(xiàn)基本功能,必須要有5個(gè)核心部件:-應(yīng)用:一個(gè)應(yīng)用就是一個(gè)提供了計(jì)算操作邏輯的計(jì)算機(jī)程序。應(yīng)用(比如一個(gè)訂購處理系統(tǒng))可以部署在數(shù)據(jù)庫之上,通過使用操作系統(tǒng)提供的服務(wù)來完成對(duì)存儲(chǔ)設(shè)備的讀寫操作。-數(shù)據(jù)庫:通常,數(shù)據(jù)庫管理系統(tǒng)(DBMS)提供了一種結(jié)構(gòu)化方式,把數(shù)據(jù)存儲(chǔ)成具有關(guān)聯(lián)關(guān)系的邏輯表。DBMS可以優(yōu)化存儲(chǔ)和檢索數(shù)據(jù)的過程。-服務(wù)器和操作系統(tǒng):指運(yùn)行應(yīng)用和數(shù)據(jù)庫的計(jì)算平臺(tái)。-網(wǎng)絡(luò):指介于客戶端和服務(wù)器之間,或是服務(wù)器和存儲(chǔ)之間的一個(gè)數(shù)據(jù)通路。-存儲(chǔ)陣列:永久存儲(chǔ)數(shù)據(jù)以供后續(xù)使用的設(shè)備。通常這些核心部件都被視為獨(dú)立的管理單元,但只要所有這些部件一起工作才能達(dá)到數(shù)據(jù)處理的要求。IntroductiontoInformationStorageandManagement-20ExampleofanOrderProcessingSystemLANFCSANStorageArrayDBMSServer/OSApplicationUserInterfaceClient1.用戶通過客戶端的訂購處理軟件的用戶界面(AUI)發(fā)出一個(gè)訂單。2.客戶通過局域網(wǎng)(LAN)與服務(wù)器相連,通過服務(wù)器上的DBMS更新相關(guān)信息,如客戶姓名、地址、付款方式和訂購數(shù)量。3.DBMS通過服務(wù)器操作系統(tǒng)將數(shù)據(jù)寫到存儲(chǔ)陣列中物理磁盤上的數(shù)據(jù)庫中。4.存儲(chǔ)網(wǎng)絡(luò)在服務(wù)器和存儲(chǔ)陣列之間提供了通信連接,并傳輸相關(guān)的讀寫命令。5.存儲(chǔ)陣列在接收到服務(wù)器的讀寫命令后,在物理磁盤上進(jìn)行必要的存儲(chǔ)數(shù)據(jù)操作。IntroductiontoInformationStorageandManagement-211.3.2數(shù)據(jù)中心部件的關(guān)鍵需求數(shù)據(jù)中心操作的不可中斷性對(duì)商業(yè)機(jī)構(gòu)的生存和成功至關(guān)重要。因此,很有必要用一個(gè)可靠的存儲(chǔ)基礎(chǔ)設(shè)施來保證數(shù)據(jù)隨時(shí)可訪問。對(duì)數(shù)據(jù)中心的需求:AvailabilityDataIntegritySecurityCapacityScalabilityPerformanceManageabilityIntroductiontoInformationStorageandManagement-221.3.3管理存儲(chǔ)基礎(chǔ)設(shè)施管理一個(gè)現(xiàn)代的復(fù)雜數(shù)據(jù)中心牽涉到許多任務(wù)。關(guān)鍵的管理任務(wù)包括以下幾點(diǎn):-監(jiān)控(Monitoring):持續(xù)不斷地收集信息和復(fù)查整個(gè)數(shù)據(jù)中心的基礎(chǔ)設(shè)施。數(shù)據(jù)中心需要監(jiān)控的方面包括安全性、性能、可訪問性和容量。-報(bào)告(Reporting):周期性地反映資源的性能、容量和使用率。報(bào)告可以幫助確定與數(shù)據(jù)中心運(yùn)行相關(guān)的業(yè)務(wù)評(píng)判和分?jǐn)傎M(fèi)用。-供應(yīng)(Provision):提供支持?jǐn)?shù)據(jù)中心運(yùn)行的性能、容量和使用率。供應(yīng)行為包括容量和資源規(guī)劃。IntroductiontoInformationStorageandManagement-231.4信息管理中的關(guān)鍵挑戰(zhàn)數(shù)字世界的爆炸:信息的增長(zhǎng)速度正呈指數(shù)級(jí)上升。為保證高可用性而進(jìn)行的數(shù)據(jù)復(fù)制以及數(shù)據(jù)的多用途都是信息多重增長(zhǎng)的重要原因。對(duì)信息依賴的上升信息的策略性使用在決定商業(yè)成功上起到了重要的作用,并且在市場(chǎng)中也提供了競(jìng)爭(zhēng)優(yōu)勢(shì)。信息價(jià)值的改變今天看起來有價(jià)值的信息,在明天看來也許會(huì)貶值。信息的價(jià)值隨著時(shí)間不斷改變。
IntroductiontoInformationStorageandManagement-241.5生命周期管理信息生命周期(InformationLifecycle):是指隨著時(shí)間變化而發(fā)生的“信息價(jià)值的改變”。在創(chuàng)建之初,數(shù)據(jù)通常有最高的價(jià)值并且使用頻繁。隨著數(shù)據(jù)存在時(shí)間的不斷增加,對(duì)數(shù)據(jù)的訪問就不那么頻繁,其價(jià)值也在逐步降低。根據(jù)信息價(jià)值的變化,掌握信息生命周期對(duì)于部署合適的存儲(chǔ)基礎(chǔ)設(shè)施是十分有幫助的。CreateAccessMigrateArchiveDisposeNeworderValueProcessorderDeliverorderWarrantyclaimFulfilledorderAgeddataWarrantyVoidedProtectTimeIntroductiontoInformationStorageandManagement-251.5.1信息生命周期管理處理信息生命周期管理(ILM)是一種主動(dòng)的策略,它允許一個(gè)IT組織根據(jù)預(yù)先定義的商業(yè)策略來高效地管理數(shù)據(jù)的整個(gè)生命周期,并通過優(yōu)化存儲(chǔ)基礎(chǔ)設(shè)施來實(shí)現(xiàn)最大的投資回報(bào)。ILM策略應(yīng)具有以下特征:-以業(yè)務(wù)為中心(Business-centric):它應(yīng)該和業(yè)務(wù)的關(guān)鍵流程、關(guān)鍵應(yīng)用以及初始狀態(tài)整合在一起,以滿足現(xiàn)在和將來的信息增長(zhǎng)需求。-集中式管理(Centrallymanaged):業(yè)務(wù)的所有信息都應(yīng)該在ILM策略的考慮范圍之內(nèi)。-基于策略的(Policy-based):ILM的實(shí)現(xiàn)不應(yīng)該局限在幾個(gè)部門里。它應(yīng)該作為一個(gè)策略來實(shí)現(xiàn),并且包含所有的業(yè)務(wù)應(yīng)用、流程和資源。-異構(gòu)的(heterogeneous):一個(gè)ILM策略應(yīng)該把所有類型的存儲(chǔ)平臺(tái)和操作系統(tǒng)都考慮進(jìn)來。
-優(yōu)化的(optimized):由于信息價(jià)值的不同,ILM策略應(yīng)該考慮不同的存儲(chǔ)需要,并且
按照信息對(duì)商業(yè)的價(jià)值來分配存儲(chǔ)資源。IntroductiontoInformationStorageandManagement-26分層存儲(chǔ)分層存儲(chǔ)是一種通過定義不同存儲(chǔ)級(jí)別來降低總體存儲(chǔ)成本的方法。每一層都要不同級(jí)別的保護(hù)、性能、數(shù)據(jù)訪問頻率和其他考慮因素。信息根據(jù)其在不同時(shí)間段內(nèi)的價(jià)值存儲(chǔ)在不同層上并進(jìn)行相應(yīng)的移動(dòng)。例如,關(guān)鍵任務(wù)和最經(jīng)常訪問的信息需要存儲(chǔ)在第一層次,該層次使用了最高性能的存儲(chǔ)介質(zhì),也具有最高的保護(hù)級(jí)別。中等訪問頻率和其他次重要數(shù)據(jù)存儲(chǔ)在第二個(gè)層次,該層次相應(yīng)的存儲(chǔ)介質(zhì)會(huì)便宜些,其性能和保護(hù)能力也屬于中等。很少使用或面向特殊事件使用的信息則可以存儲(chǔ)在更低的層次上。IntroductiontoInformationStorageandManagement-271.5.2ILM實(shí)現(xiàn)Policy-basedAlignmentofStorageInfrastructurewithDataValueAUTOMATEDFLEXIBLEClassify
data/
applicationsbasedonbusinessrulesImplementpolicieswith
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 現(xiàn)金贖樓服務(wù)合同還款時(shí)間及費(fèi)用說明
- 旅游活動(dòng)贊助商合同
- 商業(yè)印刷品購買協(xié)議
- 私人借款協(xié)議范本在線
- 裝飾合同補(bǔ)充細(xì)則
- 借款協(xié)議與擔(dān)保合同
- 倉儲(chǔ)物流信息管理系統(tǒng)合作協(xié)議
- 設(shè)計(jì)合作終止協(xié)議解除合同條件
- 現(xiàn)房車庫買賣合同范本
- 租房質(zhì)量承諾
- 《登岳陽樓》課件+2023-2024學(xué)年統(tǒng)編版高中語文必修下冊(cè)
- 新進(jìn)高校教師工作計(jì)劃
- 2024年人教版初一生物(上冊(cè))期末試卷及答案(各版本)
- 中考英語688高頻詞大綱詞頻表
- 《馬克思主義發(fā)展史》題集
- 人教新目標(biāo)版英語七下Unit 11《How was your school trip》(Section A 1a-1c)教學(xué)設(shè)計(jì)
- 大話機(jī)器人智慧樹知到期末考試答案章節(jié)答案2024年青海大學(xué)
- 含新能源發(fā)電接入的電力系統(tǒng)低頻振蕩阻尼控制研究綜述
- 2024年全國(guó)甲卷高考數(shù)學(xué)(理數(shù))真題試題(原卷版+含解析)
- 電大建筑材料(A)歷年試題和答案(精)請(qǐng)勿轉(zhuǎn)載
- 貴州省遵義市播州區(qū)2023-2024學(xué)年八年級(jí)上學(xué)期期末學(xué)業(yè)水平監(jiān)測(cè)數(shù)學(xué)試卷(含解析)
評(píng)論
0/150
提交評(píng)論