數(shù)據(jù)庫考試復(fù)習(xí)題_第1頁
數(shù)據(jù)庫考試復(fù)習(xí)題_第2頁
數(shù)據(jù)庫考試復(fù)習(xí)題_第3頁
數(shù)據(jù)庫考試復(fù)習(xí)題_第4頁
數(shù)據(jù)庫考試復(fù)習(xí)題_第5頁
已閱讀5頁,還剩68頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)庫考試復(fù)習(xí)題數(shù)據(jù)庫考試復(fù)習(xí)題數(shù)據(jù)庫考試復(fù)習(xí)題xxx公司數(shù)據(jù)庫考試復(fù)習(xí)題文件編號(hào):文件日期:修訂次數(shù):第1.0次更改批準(zhǔn)審核制定方案設(shè)計(jì),管理制度8、ODBC,OLEDB,JDBCODBC(OpenDatabaseConnectivity,開放數(shù)據(jù)庫互連)提供了一種標(biāo)準(zhǔn)的API(應(yīng)用程序編程接口)方法來訪問DBMS(DatabaseManagementSystem)。這些API利用SQL來完成其大部分任務(wù)。ODBC本身也提供了對(duì)SQL語言的支持,用戶可以直接將SQL語句送給ODBC。ODBC的設(shè)計(jì)者們努力使它具有最大的獨(dú)立性和開放性:與具體的編程語言無關(guān),與具體的數(shù)據(jù)庫系統(tǒng)無關(guān),與具體的操作系統(tǒng)無關(guān)。OLEDB(ObjectLinkingandEmbedding,Database,對(duì)象鏈接嵌入數(shù)據(jù)庫,有時(shí)亦寫作OLEDB或OLE-DB)是微軟為以統(tǒng)一方式訪問不同類型的數(shù)據(jù)存儲(chǔ)設(shè)計(jì)的一種應(yīng)用程序接口,是一組用組件對(duì)象模型(COM)實(shí)現(xiàn)的接口,而與對(duì)象連接與嵌入(OLE)無關(guān)。它被設(shè)計(jì)成為ODBC的一種高級(jí)替代者和繼承者,把它的功能擴(kuò)展到支持更多種類的非關(guān)系型數(shù)據(jù)庫,例如可能不支持SQL的對(duì)象數(shù)據(jù)庫和電子表格(如Excel)。OLEDB用一組抽象概念(包括數(shù)據(jù)源、會(huì)話、命令和行集)將數(shù)據(jù)的存儲(chǔ)從需要訪問數(shù)據(jù)的應(yīng)用中分離出來。這是因?yàn)椴煌膽?yīng)用需要訪問不同數(shù)據(jù)類型和數(shù)據(jù)源,但是并不需要了解具體如何使用特定技術(shù)的方法訪問這些數(shù)據(jù)。OLEDB在概念上分為了消費(fèi)者和提供者。消費(fèi)者是那些需要訪問數(shù)據(jù)的應(yīng)用程序,提供者是實(shí)現(xiàn)了那些接口并將數(shù)據(jù)提供給消費(fèi)者的軟件組件。OLEDB是微軟數(shù)據(jù)訪問組件(MDAC)的一部分。MDAC是一組微軟技術(shù),以框架的方式相互作用,為程序員開發(fā)訪問幾乎任何數(shù)據(jù)存儲(chǔ)提供了一個(gè)統(tǒng)一并全面的方法。OLEDB的提供者可以用于提供像文本文件和電子表格一樣簡單的數(shù)據(jù)存儲(chǔ)的訪問,也可以提供像Oracle、SQLServer和SybaseASE一樣復(fù)雜的數(shù)據(jù)庫的訪問。OLEDB同樣可以提供對(duì)層次類型的數(shù)據(jù)存儲(chǔ)(如電子郵件系統(tǒng))的訪問。另一方面,由于不同的數(shù)據(jù)存儲(chǔ)技術(shù)可能具有不同的能力,OLEDB提供者不需要實(shí)現(xiàn)OLEDB中每一個(gè)接口。通過使用COM對(duì)象實(shí)現(xiàn)可用的能力-OLEDB提供者將把數(shù)據(jù)存儲(chǔ)技術(shù)的功能映射到特定的COM接口上。當(dāng)某種接口提供的能力在所使用的數(shù)據(jù)庫技術(shù)中不適用時(shí),微軟稱該接口的可用性為"provider-specific"。同時(shí),提供者也可以擴(kuò)大數(shù)據(jù)存儲(chǔ)的能力-這些能力在微軟的用語中被稱為services。JDBC(JavaDataBaseConnectivity,java數(shù)據(jù)庫連接)是一種用于執(zhí)行SQL語句的JavaAPI,可以為多種關(guān)系數(shù)據(jù)庫提供統(tǒng)一訪問,它由一組用Java語言編寫的類和接口組成。JDBC提供了一種基準(zhǔn),據(jù)此可以構(gòu)建更高級(jí)的工具和接口,使數(shù)據(jù)庫開發(fā)人員能夠編寫數(shù)據(jù)庫應(yīng)用程序,二.敘述題1、文件系統(tǒng)與數(shù)據(jù)庫系統(tǒng)有什么區(qū)別使用數(shù)據(jù)庫系統(tǒng)有什么優(yōu)點(diǎn)文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)之間的區(qū)別。

(1)文件系統(tǒng)用文件將數(shù)據(jù)長期保存在外存上,數(shù)據(jù)庫系統(tǒng)用數(shù)據(jù)庫統(tǒng)一存儲(chǔ)數(shù)據(jù);

(2)文件系統(tǒng)中的程序和數(shù)據(jù)有一定的聯(lián)系,數(shù)據(jù)庫系統(tǒng)中的程序和數(shù)據(jù)分離;

(3)文件系統(tǒng)用操作系統(tǒng)中的存取方法對(duì)數(shù)據(jù)進(jìn)行管理,數(shù)據(jù)庫系統(tǒng)用DBMS統(tǒng)一管理和控制數(shù)據(jù);

(4)文件系統(tǒng)實(shí)現(xiàn)以文件為單位的數(shù)據(jù)共享,數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)以記錄和字段為單位的數(shù)據(jù)共享。

文件系統(tǒng)和數(shù)據(jù)庫系統(tǒng)之間的聯(lián)系:

(1)均為數(shù)據(jù)組織的管理技術(shù);

(2)均由數(shù)據(jù)管理軟件管理數(shù)據(jù),程序與數(shù)據(jù)之間用存取方法進(jìn)行轉(zhuǎn)換;

(3)數(shù)據(jù)庫系統(tǒng)是在文件系統(tǒng)的基礎(chǔ)上發(fā)展而來的。現(xiàn)代的數(shù)據(jù)庫管理系統(tǒng)應(yīng)該具備的7個(gè)功能:使用數(shù)據(jù)庫系統(tǒng)的好處是:·查詢迅速、準(zhǔn)確,而且可以節(jié)約大量紙面文件;·數(shù)據(jù)結(jié)構(gòu)化,并由DBMS統(tǒng)一管理;·數(shù)據(jù)冗余度??;·具有較高的數(shù)據(jù)獨(dú)立性;·數(shù)據(jù)的共享性好;·DBMS還提供了數(shù)據(jù)的控制功能。2、何謂視圖?舉例說明在數(shù)據(jù)庫設(shè)計(jì)時(shí)引入視圖有何益處。

從用戶角度來看,一個(gè)視圖是從一個(gè)特定的角度來查看數(shù)據(jù)庫中的數(shù)據(jù)。從數(shù)據(jù)庫系統(tǒng)內(nèi)部來看,一個(gè)視圖是由SELECT語句組成的查詢定義的虛擬表。從數(shù)據(jù)庫系統(tǒng)內(nèi)部來看,視圖是由一張或多張表中的數(shù)據(jù)組成的,從數(shù)據(jù)庫系統(tǒng)外部來看,視圖就如同一張表一樣,對(duì)表能夠進(jìn)行的一般操作都可以應(yīng)用于視圖,例如查詢,插入,修改,刪除操作等。視圖是一個(gè)虛擬表,其內(nèi)容由查詢定義。同真實(shí)的表一樣,視圖包含一系列帶有名稱的列和行數(shù)據(jù)。但是,視圖并不在數(shù)據(jù)庫中以存儲(chǔ)的數(shù)據(jù)值集形式存在。行和列數(shù)據(jù)來自由定義視圖的查詢所引用的表,并且在引用視圖時(shí)動(dòng)態(tài)生成。對(duì)其中所引用的基礎(chǔ)表來說,視圖的作用類似于篩選。定義視圖的篩選可以來自當(dāng)前或其它數(shù)據(jù)庫的一個(gè)或多個(gè)表,或者其它視圖。分布式查詢也可用于定義使用多個(gè)異類源數(shù)據(jù)的視圖。視圖是存儲(chǔ)在數(shù)據(jù)庫中的查詢的SQL語句,它主要出于兩種原因:安全原因,視圖可以隱藏一些數(shù)據(jù),如:社會(huì)保險(xiǎn)基金表,可以用視圖只顯示姓名,地址,而不顯示社會(huì)保險(xiǎn)號(hào)和工資數(shù)等,另一原因是可使復(fù)雜的查詢易于理解和使用。視圖:查看圖形或文檔的方式。視圖一經(jīng)定義便存儲(chǔ)在數(shù)據(jù)庫中,與其相對(duì)應(yīng)的數(shù)據(jù)并沒有像表那樣又在數(shù)據(jù)庫中再存儲(chǔ)一份,通過視圖看到的數(shù)據(jù)只是存放在基本表中的數(shù)據(jù)。對(duì)視圖的操作與對(duì)表的操作一樣,可以對(duì)其進(jìn)行查詢、修改(有一定的限制)、刪除。當(dāng)對(duì)通過視圖看到的數(shù)據(jù)進(jìn)行修改時(shí),相應(yīng)的基本表的數(shù)據(jù)也要發(fā)生變化,同時(shí),若基本表的數(shù)據(jù)發(fā)生變化,則這種變化也可以自動(dòng)地反映到視圖中。視圖的優(yōu)點(diǎn)視圖有很多優(yōu)點(diǎn),主要表現(xiàn)在:1.視點(diǎn)集中視圖集中即是使用戶只關(guān)心它感興趣的某些特定數(shù)據(jù)和他們所負(fù)責(zé)的特定任務(wù)。這樣通過只允許用戶看到視圖中所定義的數(shù)據(jù)而不是視圖引用表中的數(shù)據(jù)而提高了數(shù)據(jù)的安全性。2.簡化操作視圖大大簡化了用戶對(duì)數(shù)據(jù)的操作。因?yàn)樵诙x視圖時(shí),若視圖本身就是一個(gè)復(fù)雜查詢的結(jié)果集,這樣在每一次執(zhí)行相同的查詢時(shí),不必重新寫這些復(fù)雜的查詢語句,只要一條簡單的查詢視圖語句即可。可見視圖向用戶隱藏了表與表之間的復(fù)雜的連接操作。3.定制數(shù)據(jù)視圖能夠?qū)崿F(xiàn)讓不同的用戶以不同的方式看到不同或相同的數(shù)據(jù)集。因此,當(dāng)有許多不同水平的用戶共用同一數(shù)據(jù)庫時(shí),這顯得極為重要。4.合并分割數(shù)據(jù)在有些情況下,由于表中數(shù)據(jù)量太大,故在表的設(shè)計(jì)時(shí)常將表進(jìn)行水平分割或垂直分割,但表的結(jié)構(gòu)的變化卻對(duì)應(yīng)用程序產(chǎn)生不良的影響。如果使用視圖就可以重新保持原有的結(jié)構(gòu)關(guān)系,從而使外模式保持不變,原有的應(yīng)用程序仍可以通過視圖來重載數(shù)據(jù)。5.安全性視圖可以作為一種安全機(jī)制。通過視圖用戶只能查看和修改他們所能看到的數(shù)據(jù)。其它數(shù)據(jù)庫或表既不可見也不可以訪問。如果某一用戶想要訪問視圖的結(jié)果集,必須授予其訪問權(quán)限。視圖所引用表的訪問權(quán)限與視圖權(quán)限的設(shè)置互不影響。視圖的安全性視圖的安全性可以防止未授權(quán)用戶查看特定的行或列,是用戶只能看到表中特定行的方法如下:1在表中增加一個(gè)標(biāo)志用戶名的列;2建立視圖,是用戶只能看到標(biāo)有自己用戶名的行;3把視圖授權(quán)給其他用戶。邏輯數(shù)據(jù)獨(dú)立性視圖可以使應(yīng)用程序和數(shù)據(jù)庫表在一定程度上獨(dú)立。如果沒有視圖,應(yīng)用一定是建立在表上的。有了視圖之后,程序可以建立在視圖之上,從而程序與數(shù)據(jù)庫表被視圖分割開來。視圖可以在以下幾個(gè)方面使程序與數(shù)據(jù)獨(dú)立:1如果應(yīng)用建立在數(shù)據(jù)庫表上,當(dāng)數(shù)據(jù)庫表發(fā)生變化時(shí),可以在表上建立視圖,通過視圖屏蔽表的變化,從而應(yīng)用程序可以不動(dòng)。2如果應(yīng)用建立在數(shù)據(jù)庫表上,當(dāng)應(yīng)用發(fā)生變化時(shí),可以在表上建立視圖,通過視圖屏蔽應(yīng)用的變化,從而使數(shù)據(jù)庫表不動(dòng)。3如果應(yīng)用建立在視圖上,當(dāng)數(shù)據(jù)庫表發(fā)生變化時(shí),可以在表上修改視圖,通過視圖屏蔽表的變化,從而應(yīng)用程序可以不動(dòng)。4如果應(yīng)用建立在視圖上,當(dāng)應(yīng)用發(fā)生變化時(shí),可以在表上修改視圖,通過視圖屏蔽應(yīng)用的變化,從而數(shù)據(jù)庫可以不動(dòng)。3、使用觸發(fā)器有何優(yōu)點(diǎn)?舉例說明如何使用觸發(fā)器保證數(shù)據(jù)的一致性。

觸發(fā)器可通過數(shù)據(jù)庫中的相關(guān)表實(shí)現(xiàn)級(jí)聯(lián)更改;不過,通過級(jí)聯(lián)引用完整性約束可以更有效地執(zhí)行這些更改。觸發(fā)器可以強(qiáng)制比用CHECK約束定義的約束更為復(fù)雜的約束。與CHECK約束不同,觸發(fā)器可以引用其它表中的列。例如,觸發(fā)器可以使用另一個(gè)表中的SELECT比較插入或更新的數(shù)據(jù),以及執(zhí)行其它操作,如修改數(shù)據(jù)或顯示用戶定義錯(cuò)誤信息。觸發(fā)器也可以評(píng)估數(shù)據(jù)修改前后的表狀態(tài),并根據(jù)其差異采取對(duì)策。一個(gè)表中的多個(gè)同類觸發(fā)器(INSERT、UPDATE或DELETE)允許采取多個(gè)不同的對(duì)策以響應(yīng)同一個(gè)修改語句。

我們以BBS論壇數(shù)據(jù)庫中多個(gè)關(guān)聯(lián)表的操作為例,闡述觸發(fā)器在保持?jǐn)?shù)據(jù)完整性、一致性中的應(yīng)用。在BBS的程序設(shè)計(jì)中,我們經(jīng)常會(huì)碰到對(duì)一個(gè)數(shù)據(jù)表操作的同時(shí),還要自動(dòng)對(duì)另外幾個(gè)相關(guān)聯(lián)的數(shù)據(jù)表進(jìn)行操作,以保證各數(shù)據(jù)表之間數(shù)據(jù)的完整性與一致性。BBS論壇中常用的數(shù)據(jù)表有:BBS_User表(存儲(chǔ)用戶信息):用于存儲(chǔ)用戶信息。字段有用戶名、密碼、積分、發(fā)帖數(shù)、等級(jí)ID、最后一次發(fā)帖、qq、Email、頭像、注冊(cè)時(shí)間等;BBS_Type表:用于存儲(chǔ)大版塊信息。字段有版塊ID、版塊名稱等;BBS_LanMu表:存儲(chǔ)分論壇信息。字段有分論壇ID、名稱、所屬大版塊ID、主題總數(shù)、回復(fù)總數(shù)、版主等;BBS_Topic表:存儲(chǔ)帖子信息。字段有帖子ID、標(biāo)題、內(nèi)容、發(fā)帖人、所屬分論壇ID、回復(fù)總數(shù)、點(diǎn)擊總數(shù)、最后一次回貼時(shí)間、回帖人等;BBS_Reply表:存儲(chǔ)回復(fù)信息。字段有回復(fù)內(nèi)容、回復(fù)人、回復(fù)的帖子ID、回復(fù)時(shí)間等。在BBS論壇中,觸發(fā)器主要應(yīng)用于以下幾種情況:當(dāng)用戶在分論壇里發(fā)表帖子時(shí),對(duì)BBS_Topic表進(jìn)行操作,但同時(shí)要自動(dòng)對(duì)分論壇表BBS_LanMu里面的論壇主題總數(shù)增1,還要更新BBS_User表給該用戶增加相應(yīng)的積分,當(dāng)用戶積分達(dá)到一定分?jǐn)?shù)時(shí),自動(dòng)更新該用戶的等級(jí)ID,表示該用戶已經(jīng)升了一個(gè)等級(jí)。當(dāng)用戶回復(fù)帖子時(shí),對(duì)BBS_Reply表操作的同時(shí),也需要對(duì)分論壇表BBS_LanMu里的回復(fù)總數(shù)增1、對(duì)BBS_Topic表的回復(fù)總數(shù)增1并更新該表里的最后回帖標(biāo)題和時(shí)間,還要將BBS_User表里的該用戶的發(fā)帖數(shù)增1、自動(dòng)增加相應(yīng)積分、更新最后發(fā)帖標(biāo)題和時(shí)間等;在論壇的后臺(tái)管理中,管理員有時(shí)需要添加或者刪除一個(gè)大版塊。當(dāng)我們要?jiǎng)h除BBS_Type表一個(gè)大版塊時(shí),為了保證數(shù)據(jù)庫各表中數(shù)據(jù)的完整性與一致性,要同時(shí)對(duì)BBS_LanMu表、BBS_Topic表、BBS_Reply表中相關(guān)聯(lián)的數(shù)據(jù)記錄一并刪除。下面將以后臺(tái)管理中對(duì)論壇大版塊進(jìn)行刪除操作時(shí)應(yīng)用觸發(fā)器為例來進(jìn)行具體介紹。(1)需求分析在一個(gè)BBS中常見的論壇結(jié)構(gòu)如圖Pic-1:在一個(gè)論壇中有許多個(gè)大版塊,每個(gè)版塊又對(duì)應(yīng)多個(gè)分論壇。每個(gè)論壇又對(duì)應(yīng)多個(gè)帖子,每個(gè)帖子又對(duì)應(yīng)多個(gè)回復(fù)信息。因此需要4個(gè)相關(guān)聯(lián)的表來存儲(chǔ)相應(yīng)的信息:BBS_Type表(存儲(chǔ)大版塊信息)、BBS_LanMu表(存儲(chǔ)分論壇信息)、BBS_Topic表(存儲(chǔ)帖子信息)、BBS_Reply表(存儲(chǔ)回復(fù)信息)。BBS_Type與BBS_LanMu、BBS_LanMu與BBS_Topic、BBS_Topic與BBS_Reply之間都是一對(duì)多的關(guān)系。當(dāng)我們要?jiǎng)h除BBS_Type表一個(gè)大版塊時(shí),為了保證數(shù)據(jù)庫各表中數(shù)據(jù)的完整性與一致性,需要同時(shí)對(duì)BBS_LanMu表、BBS_Topic表、BBS_Reply表中相關(guān)聯(lián)的數(shù)據(jù)記錄一并刪除。因?yàn)檫@里面存在3對(duì)一對(duì)多的關(guān)系,如果在程序中或者存儲(chǔ)過程實(shí)現(xiàn),顯然是很困難也是不合理的。根據(jù)觸發(fā)器的作用以及這4個(gè)表之間的關(guān)系,采用嵌套觸發(fā)器來實(shí)現(xiàn)這個(gè)刪除功能。為BBS_Type表、BBS_LanMu表、BBS_Topic表分別建立一個(gè)AFTER觸發(fā)器,該觸發(fā)器由DELETE事件觸發(fā)。采用嵌套觸發(fā)器可以在數(shù)據(jù)庫里自動(dòng)完成這多個(gè)表中相關(guān)記錄的刪除,大大簡化了業(yè)務(wù)邏輯。這樣即保證了數(shù)據(jù)的完整性與一致性,又保證程序設(shè)計(jì)的合理性與方便性。(2)創(chuàng)建觸發(fā)器根據(jù)需求分析,為BBS_Type表、BBS_LanMu表、BBS_Topic表分別建立AFTER觸發(fā)器,該觸發(fā)器由DELETE事件觸發(fā)。建立在這3個(gè)表之上的觸發(fā)器之間是嵌套觸發(fā)的關(guān)系,即BBS_Type表上的觸發(fā)器觸發(fā)BBS_LanMu表上的觸發(fā)器,BBS_LanMu表上的觸發(fā)器再觸發(fā)BBS_Topic表上的觸發(fā)器。本文中使用的數(shù)據(jù)庫為MicrosoftSQLServer2005。要讓觸發(fā)器能嵌套觸發(fā)必須在數(shù)據(jù)庫“屬性”中,將“遞歸觸發(fā)器已啟用”設(shè)置為TRUE。1.為BBS_Type表(存儲(chǔ)大版塊信息)建立觸發(fā)器DelType。該觸發(fā)器功能是刪除BBS_LanMu表中屬于剛刪除的大版塊的所有分論壇信息。CREATEtrigger[DelType]on[dbo].[BBS_Type]afterdeleteasbegindeclare@typeidintselect@typeid=TypeIDfromdeleted--獲得要被刪除的版塊IDdeletefromdbo.BBS_LanMuwhereTypeid=@typeidend2.為BBS_LanMu表(存儲(chǔ)分論壇信息)建立觸發(fā)器DelLanmu。該觸發(fā)器功能是刪除BBS_Topic表中屬于剛刪除分論壇的所有帖子信息。CREATEtrigger[DelLanmu]on[dbo].[BBS_LanMu]AFTERDELETEasBEGINdeclare@lmidintselect@lmid=LMIDfromdeleted--獲得要被刪除的分論壇IDdeletefromdbo.BBS_TopicwhereLMID=@lmidEND3.為BBS_Topic表(存儲(chǔ)帖子信息)建立觸發(fā)器DelTopic。該觸發(fā)器功能是刪除BBS_Reply表中屬于剛刪除帖子的所有回復(fù)信息。CREATEtrigger[DelTopic]on[dbo].[BBS_Topic]afterdeleteasBEGINdeclare@tidintselect@tid=TIDfromdeleted--獲得要被刪除的帖子IDdeletefromdbo.BBS_ReplywhereTID=@tidEND執(zhí)行過程觸發(fā)器執(zhí)行過程如圖Pic-2。當(dāng)數(shù)據(jù)操作層對(duì)數(shù)據(jù)表BBS_Type發(fā)出DELETE一條記錄的時(shí)候,觸發(fā)器DelType被觸發(fā),此觸發(fā)器將刪除BBS_LanMu表中屬于剛刪除的大版塊的所有分論壇信息。當(dāng)DelType觸發(fā)器對(duì)數(shù)據(jù)表BBS_LanMu刪除一條記錄時(shí),又觸發(fā)BBS_LanMu表上的觸發(fā)器DelLanmu,此觸發(fā)器將刪除BBS_Topic表中屬于剛刪除分論壇的所有帖子信息。當(dāng)DelLanmu觸發(fā)器對(duì)數(shù)據(jù)表BBS_Topic刪除一條記錄時(shí),又觸發(fā)觸發(fā)器DelTopic,此觸發(fā)器將刪除BBS_Reply表中屬于剛刪除帖子的所有回復(fù)信息。至此數(shù)據(jù)庫中與BBS_Type中刪除記錄相關(guān)聯(lián)的所有記錄全部刪除,保證了數(shù)據(jù)庫各表數(shù)據(jù)的完整性與一致性。這個(gè)過程是在數(shù)據(jù)庫中自動(dòng)進(jìn)行的,因此速度非???,用戶只需要對(duì)BBS_Type表發(fā)出刪除一條記錄的命令,其他表中相關(guān)的記錄會(huì)自動(dòng)刪除。4、在設(shè)計(jì)數(shù)據(jù)庫系統(tǒng)時(shí),應(yīng)該采取那些措施來防止介質(zhì)故障如果出現(xiàn)介質(zhì)故障,如何恢復(fù)數(shù)據(jù)庫對(duì)于OracleDBA們來說,Oracle數(shù)據(jù)庫恢復(fù)提供的選項(xiàng)種類數(shù)目實(shí)在是太多了,數(shù)據(jù)庫恢復(fù)方法可以說都取決于故障類型,但對(duì)于某一個(gè)特定的故障也可能有許多不同的恢復(fù)方法??偟膩碚f,數(shù)據(jù)庫恢復(fù)可以分為實(shí)例恢復(fù)與介質(zhì)恢復(fù)兩大類。數(shù)據(jù)庫出現(xiàn)實(shí)例故障,例如,意外掉電、后臺(tái)進(jìn)程故障,或預(yù)料發(fā)出使用ABORT命令終止數(shù)據(jù)庫實(shí)例時(shí),在啟動(dòng)數(shù)據(jù)庫時(shí)就會(huì)發(fā)現(xiàn)實(shí)例故障,此時(shí)就需要實(shí)例恢復(fù),實(shí)例恢復(fù)是數(shù)據(jù)庫自動(dòng)進(jìn)行的,可以將數(shù)據(jù)庫恢復(fù)到故障之前的事務(wù)一致性狀態(tài)。如果在聯(lián)機(jī)備份時(shí)發(fā)現(xiàn)實(shí)例故障,則需介質(zhì)恢復(fù)。如恢復(fù)數(shù)據(jù)文件時(shí)沒執(zhí)行檢驗(yàn)點(diǎn)就脫機(jī),這時(shí)所丟失的改動(dòng)就需要進(jìn)行介質(zhì)恢復(fù)。介質(zhì)恢復(fù)可以使用歸檔日志文件,也可以使用聯(lián)機(jī)日志文件。介質(zhì)恢復(fù)主要用于由于介質(zhì)故障引起數(shù)據(jù)庫文件的破壞時(shí)使用。介質(zhì)故障是當(dāng)一個(gè)文件、一個(gè)文件的一部分或磁盤不能讀寫時(shí)出現(xiàn)的故障。Oracle啟動(dòng)時(shí)會(huì)檢測(cè)數(shù)據(jù)文件頭中的檢驗(yàn)點(diǎn)計(jì)數(shù)器和控制文件中對(duì)應(yīng)的檢驗(yàn)點(diǎn)計(jì)數(shù)器,當(dāng)兩者的值不相等時(shí)就說明需要做介質(zhì)恢復(fù)。如果數(shù)據(jù)庫可以運(yùn)行,在線日志僅可重用但不能歸檔,此時(shí)介質(zhì)恢復(fù)可以使用最新的完全備份的簡單恢復(fù)。如果數(shù)據(jù)庫可以運(yùn)行,其日志已經(jīng)被歸檔,則只能恢復(fù)數(shù)據(jù)庫到介質(zhì)故障前的一個(gè)指定事務(wù)一致性狀態(tài)。所以,介質(zhì)故障的恢復(fù)是將整個(gè)數(shù)據(jù)庫恢復(fù)到故障之前的一個(gè)事務(wù)一致狀態(tài)。如果數(shù)據(jù)庫是在歸檔方式下運(yùn)行,則可以實(shí)施完全介質(zhì)恢復(fù)和不完全介質(zhì)恢復(fù)。1Oracle數(shù)據(jù)庫恢復(fù)之完全介質(zhì)恢復(fù)完全介質(zhì)恢復(fù)可恢復(fù)全部丟失的數(shù)據(jù),使數(shù)據(jù)庫恢復(fù)到最新狀態(tài)。在所有需要的重做日志文件、備份數(shù)據(jù)文件(對(duì)于所有丟失或損壞的數(shù)據(jù)文件的備份)和一個(gè)當(dāng)前有效控制文件都可以正常使用的情況下應(yīng)當(dāng)使用完全介質(zhì)恢復(fù)以使數(shù)據(jù)的損失減到最小。在實(shí)施完全數(shù)據(jù)庫恢復(fù)時(shí),可以根據(jù)數(shù)據(jù)庫文件的破壞情況,使用不同的恢復(fù)方法。例如,當(dāng)數(shù)據(jù)文件被物理破壞,這時(shí)數(shù)據(jù)庫不能正常啟動(dòng),但是可以安裝,此時(shí)可進(jìn)行全部的或單個(gè)被破壞的數(shù)據(jù)文件的完全介質(zhì)恢復(fù)。如果數(shù)據(jù)文件被物理破壞但這時(shí)數(shù)據(jù)庫還處于打開狀態(tài),可以進(jìn)行離線的表空間的恢復(fù)。因?yàn)閿?shù)據(jù)庫是打開的,這時(shí)未破壞的數(shù)據(jù)文件的表空間是在線的,可以正常使用,而被破壞的數(shù)據(jù)文件的表空間是離線的,不可正常使用,可以只對(duì)被破壞的數(shù)據(jù)文件實(shí)施完全介質(zhì)恢復(fù)。但是注意,系統(tǒng)表空間是不能讓其離線的,所以當(dāng)系統(tǒng)表空間損壞的時(shí)候,只能使用不完全介質(zhì)恢復(fù)。2Oracle數(shù)據(jù)庫恢復(fù)之不完全介質(zhì)恢復(fù)不完全介質(zhì)恢復(fù)是在完全介質(zhì)恢復(fù)不可能進(jìn)行或有特殊要求時(shí)進(jìn)行的介質(zhì)恢復(fù)。例如,系統(tǒng)表空間數(shù)據(jù)文件損壞、在線日志損壞或認(rèn)為誤刪除不應(yīng)該刪除的基表和表空間等,這時(shí)可以實(shí)施不完全介質(zhì)恢復(fù),使數(shù)據(jù)庫恢復(fù)到故障前或用戶出錯(cuò)之前的一個(gè)事務(wù)一致性狀態(tài)。不完全介質(zhì)恢復(fù)包括基于撤消的不完全恢復(fù)、基于時(shí)間點(diǎn)的不完全恢復(fù)以及基于數(shù)據(jù)庫改變號(hào)的不完全恢復(fù)。基于撤消的不完全恢復(fù)(recoverdatabaseuntilcancel)是在進(jìn)行不完全恢復(fù)時(shí)由數(shù)據(jù)庫管理員進(jìn)行控制,在某一個(gè)恢復(fù)點(diǎn)可撤消指定的操作。例如,在一個(gè)或多個(gè)在線日志文件由于介質(zhì)故障被破壞,不能實(shí)施完全數(shù)據(jù)庫恢復(fù),這時(shí)可以進(jìn)行基于撤消的恢復(fù),在恢復(fù)到最近的、未被破壞的日志文件后終止恢復(fù)過程,數(shù)據(jù)庫從這一點(diǎn)重新開始運(yùn)行。在這種方式下,Oracle允許每次前滾一個(gè)日志文件。基于時(shí)間點(diǎn)以及基于數(shù)據(jù)庫改變號(hào)的不完全恢復(fù)主要用于將數(shù)據(jù)庫恢復(fù)到過去的某個(gè)指定點(diǎn)。基于時(shí)間點(diǎn)的恢復(fù)(recoverdatabaseuntiltime)可以把恢復(fù)進(jìn)行到重做日志文件內(nèi)的某個(gè)特定時(shí)間點(diǎn),例如,當(dāng)用戶上午9點(diǎn)鐘意外的刪除一個(gè)表,現(xiàn)在想恢復(fù)它,那么可以從備份中恢復(fù)相應(yīng)的數(shù)據(jù)文件,并進(jìn)行基于時(shí)間點(diǎn)的不完全恢復(fù),恢復(fù)到上午9點(diǎn)以前的某個(gè)時(shí)刻。再如,由于系統(tǒng)故障,在線日志文件部分被破壞,所有活動(dòng)的日志文件突然不可使用,實(shí)例被終止,此時(shí)需要進(jìn)行介質(zhì)恢復(fù)。在恢復(fù)中可使用當(dāng)前在線日志文件的未損壞部分,利用基于時(shí)間點(diǎn)的恢復(fù),一旦將有效的在線日志應(yīng)用于數(shù)據(jù)文件后就可以立即停止恢復(fù)過程。

基于數(shù)據(jù)庫改變號(hào)(recoverdatabaseuntilchange)的不完全恢復(fù)可以使數(shù)據(jù)庫恢復(fù)到事務(wù)一致的狀態(tài)。用這個(gè)選項(xiàng)指定的SCN被Oracle標(biāo)注為參考值,凡是SCN號(hào)小于這個(gè)參考值的重做記錄都將被運(yùn)用,而SCN大于參考值的重做記錄將被禁止使用。這樣,正好在此SCN處提交的事務(wù)將被回滾。當(dāng)不完全介質(zhì)恢復(fù)完成時(shí),數(shù)據(jù)庫必須用alterdatabaseopenresetlogs打開,這個(gè)命令將會(huì)使數(shù)據(jù)庫做一個(gè)標(biāo)記,使得已經(jīng)被跳過的那些重做記錄不會(huì)被意外的又重新運(yùn)用。3Oracle數(shù)據(jù)庫恢復(fù)之設(shè)計(jì)Oracle數(shù)據(jù)庫備份恢復(fù)策略時(shí)應(yīng)遵循的原則數(shù)據(jù)庫備份恢復(fù)是為了保證數(shù)據(jù)庫中數(shù)據(jù)的正確性和完整性,不同的應(yīng)用環(huán)境要應(yīng)用不同的解決方案,有不同的側(cè)重點(diǎn),要考慮的問題也相當(dāng)?shù)亩啵瑢?duì)于一個(gè)有經(jīng)驗(yàn)的DBA來說,可能解決方法有很多種。但一般來說,一個(gè)完整的備份恢復(fù)系統(tǒng)需要遵循以下原則:(1).正確性備份就是為了恢復(fù)。如果備份的東西是錯(cuò)誤的那還有什么意義?正確性永遠(yuǎn)是第一位的。(2).穩(wěn)定性備份恢復(fù)策略的實(shí)施必須要有充分的前期測(cè)試工作,測(cè)試結(jié)果取得比較穩(wěn)定的成功之后才能實(shí)施到生產(chǎn)數(shù)據(jù)庫上。(3).全面性在復(fù)雜的計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中,必須考慮到備份與恢復(fù)操作的簡捷性,同時(shí)又要保證在需要恢復(fù)時(shí)能及時(shí)獲取備份數(shù)據(jù),保證備份內(nèi)容、存儲(chǔ)地點(diǎn)不會(huì)因?yàn)榫W(wǎng)絡(luò)故障和環(huán)境故障而失效。因此,對(duì)網(wǎng)絡(luò)環(huán)境的復(fù)雜性、硬件環(huán)境的差異性要有充分的考慮。(4).自動(dòng)化備份方案應(yīng)能提供定時(shí)的自動(dòng)備份,在自動(dòng)備份過程中,還要具有日志記錄和錯(cuò)誤處理功能。(5).高性能在設(shè)計(jì)時(shí),應(yīng)盡量考慮到提高數(shù)據(jù)備份恢復(fù)的速度,同時(shí)考慮如何壓縮備份文件以節(jié)省存儲(chǔ)空間。(6).操作簡單因?yàn)閭浞莼謴?fù)是一個(gè)相當(dāng)繁瑣的工作,幾乎每天都要做,只有事先做好充分的準(zhǔn)備工作,才能減少日常實(shí)施過程中的工作量。(7).實(shí)時(shí)性一些關(guān)鍵數(shù)據(jù)庫業(yè)務(wù)需要24小時(shí)不停機(jī),因此,備份時(shí)很多文件仍將處于運(yùn)行狀態(tài)中,所以很多情況下要采用聯(lián)機(jī)備份,聯(lián)機(jī)備份時(shí)服務(wù)器應(yīng)盡量少進(jìn)行批量事務(wù)處理,以免產(chǎn)生許多重做操作。以上就是對(duì)Oracle數(shù)據(jù)庫恢復(fù)幾種方法的詳細(xì)介紹,希望能給大家?guī)韼椭?、為什么要建立數(shù)據(jù)倉庫數(shù)據(jù)倉庫有那些不同于事務(wù)數(shù)據(jù)庫的特征1.

數(shù)據(jù)倉庫的概念數(shù)據(jù)倉庫領(lǐng)域的權(quán)威W.H.Inmon給出了數(shù)據(jù)倉庫的一個(gè)簡短而全面的定義:數(shù)據(jù)倉庫是一個(gè)面向主題、集成、時(shí)變、非易失的數(shù)據(jù)集合,是支持管理部門的決策過程。根據(jù)該定義,數(shù)據(jù)倉庫具備以下四個(gè)關(guān)鍵特征:1.1

面向主題(SubjectOriented)的數(shù)據(jù)集合數(shù)據(jù)倉庫通常圍繞一些主題,如“產(chǎn)品”、“銷售商”、“消費(fèi)者”等來進(jìn)行組織。數(shù)據(jù)倉庫關(guān)注的是決策者的數(shù)據(jù)建模與分析,而不針對(duì)日常操作和事務(wù)的處理。因此,數(shù)據(jù)倉庫提供了特定主題的簡明視圖,排除了對(duì)于決策無用的數(shù)據(jù)。1.2

集成(Integrated)的數(shù)據(jù)集合數(shù)據(jù)倉庫通常是結(jié)合多個(gè)異種數(shù)據(jù)源構(gòu)成的,異種數(shù)據(jù)源可能包括關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、文本數(shù)據(jù)庫、Web數(shù)據(jù)庫、一般文件等。1.3

時(shí)變(TimeVariant)的數(shù)據(jù)集合數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,數(shù)據(jù)倉庫中包含時(shí)間元素,它所提供的信息總是與時(shí)間相關(guān)聯(lián)的。數(shù)掘倉庫中存儲(chǔ)的是一個(gè)時(shí)間段的數(shù)據(jù),而不僅僅是某一個(gè)時(shí)刻的數(shù)據(jù)。1.4

非易失(Nonvolatile)的數(shù)據(jù)集合數(shù)據(jù)倉庫總是與操作環(huán)境下的實(shí)時(shí)應(yīng)用數(shù)據(jù)物理地分離存放,因此不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。數(shù)據(jù)倉庫里的數(shù)據(jù)通常只需要兩種操作:初始化載入和數(shù)據(jù)訪問,因此其數(shù)據(jù)相對(duì)穩(wěn)定,極少或根本不更新。綜上所述,數(shù)據(jù)倉庫是一種語義上一致的數(shù)據(jù)存儲(chǔ),它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息。數(shù)據(jù)倉庫也常常被視為一種體系結(jié)構(gòu),通過將異種數(shù)據(jù)源中的數(shù)據(jù)集成在一起而構(gòu)成,支持結(jié)構(gòu)化和專門的查詢、分析報(bào)告和決策制定。2

數(shù)據(jù)倉庫的類型數(shù)據(jù)倉庫的類型根據(jù)數(shù)據(jù)倉庫所管理的數(shù)據(jù)類型和它們所解決的企業(yè)問題范圍,一般可將數(shù)據(jù)倉庫分為下列3種類型:企業(yè)數(shù)據(jù)倉庫(EDW)、操作型數(shù)據(jù)庫(ODS)和數(shù)據(jù)市集(DataMart)。①企業(yè)數(shù)據(jù)倉庫為通用數(shù)據(jù)倉庫,它既含有大量詳細(xì)的數(shù)據(jù),也含有大量累贅的或聚集的數(shù)據(jù),這些數(shù)據(jù)具有不易改變性和面向歷史性。此種數(shù)據(jù)倉庫被用來進(jìn)行涵蓋多種企業(yè)領(lǐng)域上的戰(zhàn)略或戰(zhàn)術(shù)上的決策。②操作型數(shù)據(jù)庫既可以被用來針對(duì)工作數(shù)據(jù)做決策支持,又可用做將數(shù)據(jù)加載到數(shù)據(jù)倉庫時(shí)的過渡區(qū)域。與EDW相比較,ODS有下列特點(diǎn):ODS是面向主題和面向綜合的;ODS是易變的;ODS僅僅含有目前的、詳細(xì)的數(shù)據(jù),不含有累計(jì)的、歷史性的數(shù)據(jù)。③數(shù)據(jù)市集是數(shù)據(jù)倉庫的一種具體化,它可以包含輕度累計(jì)、歷史的部門數(shù)據(jù),適合特定企業(yè)中某個(gè)部門的需要。幾組數(shù)據(jù)市集可以組成一個(gè)EDW(在以后部分將會(huì)重點(diǎn)提到)。隨著數(shù)據(jù)倉庫發(fā)展的需求,軟件工具升級(jí)相當(dāng)快,新產(chǎn)品也層出不窮。為了便于追蹤其技術(shù)發(fā)展和更好地選擇相關(guān)的工具,數(shù)據(jù)倉庫的構(gòu)造者應(yīng)該廣泛地收集這方面的文件和數(shù)據(jù),以便做出最佳的選擇。3

數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的比較傳統(tǒng)的關(guān)系型數(shù)據(jù)庫RDB遵循一致的關(guān)系型模型,其中的數(shù)據(jù)(記錄)以表格的方式存儲(chǔ),并且能用統(tǒng)一的結(jié)構(gòu)化查詢語言(StructualQueryLanguage,SQL)進(jìn)行數(shù)據(jù)查詢,因此它的應(yīng)用常被稱為聯(lián)機(jī)交易處理(OLTP),其重點(diǎn)在于完成業(yè)務(wù)處理,及時(shí)給予客戶響應(yīng)。關(guān)系型數(shù)據(jù)庫能夠處理大型數(shù)據(jù)庫,但不能將其簡單地堆砌就直接作為數(shù)據(jù)倉庫來使用。數(shù)據(jù)倉庫主要工作的對(duì)象為多維數(shù)據(jù),因此又稱為多維數(shù)據(jù)庫。多維數(shù)據(jù)庫的數(shù)據(jù)以數(shù)組方式存儲(chǔ),既沒有統(tǒng)一的規(guī)律可循,也沒有統(tǒng)一的多維模型可循,它只能按其所屬類別進(jìn)行歸類。以應(yīng)用而言,多維數(shù)據(jù)庫應(yīng)該具備極強(qiáng)的查詢能力,多維數(shù)據(jù)庫中存儲(chǔ)的信息既多又廣,但由于其完成的是一種聯(lián)機(jī)事物分析(OLAP),因此并不追求瞬時(shí)的響應(yīng)時(shí)間,在有限的時(shí)間中給予響應(yīng)即被認(rèn)可。實(shí)際上,OLAP包含交互式的數(shù)據(jù)查詢,伴隨著多種分析方法,例如下鉆或成功地鉆入到最底層的細(xì)節(jié)信息上。因此數(shù)據(jù)倉庫中的信息,盡管是多維的,仍然可以用具體的表格表示。盡管數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫之間存在著如此大的差異,但設(shè)計(jì)數(shù)據(jù)倉庫并不是完全另起爐灶,而可利用現(xiàn)有的傳統(tǒng)處理數(shù)據(jù),從中進(jìn)行信息的綜合,從而構(gòu)造出滿足不同需求的數(shù)據(jù)倉庫。即數(shù)據(jù)從動(dòng)態(tài)的、目前事件驅(qū)動(dòng)的傳統(tǒng)工作數(shù)據(jù)流向靜態(tài)的、歷史性質(zhì)的數(shù)據(jù)倉庫。從理論上說,從工作數(shù)據(jù)中戰(zhàn)略性地引入到期的數(shù)據(jù)可以完成這種轉(zhuǎn)變,但是由于受到實(shí)際存儲(chǔ)容量和技術(shù)的限制,這實(shí)際上是不可能的。因此必須從工作數(shù)據(jù)中分離和篩選數(shù)據(jù)進(jìn)入到數(shù)據(jù)倉庫中。鑒于以上各種因素,為保證OLAP的性能,必須將數(shù)據(jù)倉庫和傳統(tǒng)工作的數(shù)據(jù)相分離。6、數(shù)據(jù)挖掘的分類方法主要有那些?

利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。①分類。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。②回歸分析?;貧w分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個(gè)方面,如客戶尋求、保持和預(yù)防客戶流失活動(dòng)、產(chǎn)品生命周期分析、銷售趨勢(shì)預(yù)測(cè)及有針對(duì)性的促銷活動(dòng)等。③聚類。聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢(shì)預(yù)測(cè)、市場的細(xì)分等。④關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對(duì)企業(yè)的客戶數(shù)據(jù)庫里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場營銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場營銷與推銷,營銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。⑤特征。特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征。如營銷人員通過對(duì)客戶流失因素的特征提取,可以得到導(dǎo)致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。⑥變化和偏差分析。偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機(jī)管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識(shí)別、評(píng)價(jià)和預(yù)警等方面。⑦Web頁挖掘。隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無比豐富,通過對(duì)Web的挖掘,可以利用Web的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場、競爭對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營信息,并根據(jù)分析結(jié)果找出企業(yè)管理過程中出現(xiàn)的各種問題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。7、Web挖掘的主要研究內(nèi)容有哪些?

Web挖掘指使用數(shù)據(jù)挖掘技術(shù)在WWW數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。Web挖掘研究覆蓋了多個(gè)研究領(lǐng)域,包括數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、人工智能中的機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。Web挖掘流程與傳統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫相比,Web上的信息是非結(jié)構(gòu)化或半結(jié)構(gòu)化的、動(dòng)態(tài)的、并且是容易造成混淆的,所以很難直接以Web網(wǎng)頁上的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,而必須經(jīng)過必要的數(shù)據(jù)處理。典型Web挖掘的處理流程如下[3]:1.查找資源:任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù),值得注意的是有時(shí)信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組,或者網(wǎng)站的日志數(shù)據(jù)甚至是通過Web形成的交易數(shù)據(jù)庫中的數(shù)據(jù)。2.信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無用信息和將信息進(jìn)行必要的整理。例如從Web文檔中自動(dòng)去除廣告連接、去除多余格式標(biāo)記、自動(dòng)識(shí)別段落或者字段并將數(shù)據(jù)組織成規(guī)整的邏輯形式甚至是關(guān)系表。3.模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。4.模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式??梢允菣C(jī)器自動(dòng)完成,也可以是與分析人員進(jìn)行交互來完成。搜索引擎技術(shù)Web挖掘作為一個(gè)完整的技術(shù)體系,在進(jìn)行挖掘之前的信息獲得IR(InformationRetrieval)和信息抽取IE(InformationExtraction)相當(dāng)重要。信息獲得(IR)的目的在于找到相關(guān)Web文檔,它只是把文檔中的數(shù)據(jù)看成未經(jīng)排序的詞組的集合,而信息抽取(IE)的目的在于從文檔中找到需要的數(shù)據(jù)項(xiàng)目,它對(duì)文檔的結(jié)構(gòu)合表達(dá)的含義感興趣,它得一個(gè)重要任務(wù)就是對(duì)數(shù)據(jù)進(jìn)行組織整理并適當(dāng)建立索引。信息獲得(IR)和信息抽取(IE)技術(shù)的研究已近有很長時(shí)間,隨著Web技術(shù)的發(fā)展,基于Web技術(shù)的IR、IE得到了更多的重視。由于Web數(shù)據(jù)量非常大,而且可能動(dòng)態(tài)變化,用原來手工方式進(jìn)行信息收集早已經(jīng)力不從心,目前的研究方向是用自動(dòng)化、半自動(dòng)化的方法在Web上進(jìn)行IR和IE。在Web環(huán)境下既要處理非結(jié)構(gòu)化文檔,又要處理半結(jié)構(gòu)化的數(shù)據(jù),最近幾年在這兩方面都有相應(yīng)的研究成果和具體應(yīng)用,特別是在大型搜索引擎中得到了很好的應(yīng)用。Web挖掘分類及各自的研究現(xiàn)狀及發(fā)展根據(jù)對(duì)Web數(shù)據(jù)的感興趣程度不同,Web挖掘一般可以分為三類:Web內(nèi)容挖掘(WebContentmining)、Web結(jié)構(gòu)挖掘(Webstructuremining)、Web用法挖掘(WebusageMining)1、Web內(nèi)容挖掘:指從Web內(nèi)容/數(shù)據(jù)/文檔中發(fā)現(xiàn)有用信息,Web上的信息五花八門,傳統(tǒng)的Internet由各種類型的服務(wù)和數(shù)據(jù)源組成,包括WWW、FTP、Telnet等,現(xiàn)在有更多的數(shù)據(jù)和端口可以使用,比如政府信息服務(wù)、數(shù)字圖書館、電子商務(wù)數(shù)據(jù),以及其他各種通過Web可以訪問的數(shù)據(jù)庫。Web內(nèi)容挖掘的對(duì)象包括文本、圖象、音頻、視頻、多媒體和其他各種類型的數(shù)據(jù)。其中針對(duì)無結(jié)構(gòu)化文本進(jìn)行的Web挖掘被歸類到基于文本的知識(shí)發(fā)現(xiàn)(KDT)領(lǐng)域,也稱文本數(shù)據(jù)挖掘或文本挖掘,是Web挖掘中比較重要的技術(shù)領(lǐng)域,也引起了許多研究者的關(guān)注。最近在Web多媒體數(shù)據(jù)挖掘方面的研究成為另一個(gè)熱點(diǎn)。Web內(nèi)容挖掘一般從兩個(gè)不同的觀點(diǎn)來進(jìn)行研究。從資源查找(IR)的觀點(diǎn)來看,Web內(nèi)容挖掘的任務(wù)是從用戶的角度出發(fā),怎樣提高信息質(zhì)量和幫助用戶過濾信息。而從DB的角度講Web內(nèi)容挖掘的任務(wù)主要是試圖對(duì)Web上的數(shù)據(jù)進(jìn)行集成、建模,以支持對(duì)Web數(shù)據(jù)的復(fù)雜查詢。1.1從資源查找(InformationRetrival)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔:非結(jié)構(gòu)化文檔主要指Web上的自由文本,包括小說、新聞等。在這方面的研究相對(duì)比較多一些,大部分研究都是建立在詞匯袋(bagofwords)或稱向量表示法(vectorrepresentation)的基礎(chǔ)上,這種方法將單個(gè)的詞匯看成文檔集合中的屬性,只從統(tǒng)計(jì)的角度將詞匯孤立地看待而忽略該詞匯出現(xiàn)的位置和上下文環(huán)境。屬性可以是布爾型,根據(jù)詞匯是否在文檔中出現(xiàn)而定,也可以有頻度,即該詞匯在文檔中的出現(xiàn)頻率。這種方法可以擴(kuò)展為選擇終結(jié)符、標(biāo)點(diǎn)符號(hào)、不常用詞匯的屬性作為考察集合。詞匯袋方法的一個(gè)弊端是自由文本中的數(shù)據(jù)豐富,詞匯量非常大,處理起來很困難,為解決這個(gè)問題人們做了相應(yīng)的研究,采取了不同技術(shù),如信息增益,交叉熵、差異比等,其目的都是為了減少屬性。另外,一個(gè)比較有意義的方法是潛在語義索引(LatentSemanticIndexing),它通過分析不同文檔中相同主題的共享詞匯,找到他們共同的根,用這個(gè)公共的根代替所有詞匯,以此來減少維空間。例如:“informing”、“information”、“informer”、“informed”可以用他們的根“inform”來表示,這樣可以減少屬性集合的規(guī)模。其他的屬性表示法還有詞匯在文檔中的出現(xiàn)位置、層次關(guān)系、使用短語、使用術(shù)語、命名實(shí)體等,目前還沒有研究表明一種表示法明顯優(yōu)于另一種。用資源查找(InformationRetrival)的觀點(diǎn)挖掘半結(jié)構(gòu)化文檔:與非結(jié)構(gòu)化數(shù)據(jù)相比,Web上的半結(jié)構(gòu)化文檔挖掘指在加入了HTML、超連接等附加結(jié)構(gòu)的信息上進(jìn)行挖掘,其應(yīng)用包括超連接文本的分類、聚類、發(fā)現(xiàn)文檔之間的關(guān)系、提出半結(jié)構(gòu)化文檔中的模式和規(guī)則等。1.2從數(shù)據(jù)庫(Database)的觀點(diǎn)挖掘非結(jié)構(gòu)化文檔:數(shù)據(jù)庫技術(shù)應(yīng)用于Web挖掘主要是為了解決Web信息的管理和查詢問題。這些問題可以分為三類:Web信息的建模和查詢;信息抽取與集成;Web站點(diǎn)建構(gòu)和重構(gòu)。從數(shù)據(jù)庫的觀點(diǎn)進(jìn)行Web內(nèi)容挖掘主要是試圖建立Web站點(diǎn)的數(shù)據(jù)模型并加以集成,以支持復(fù)雜查詢,而不止是簡單的基于關(guān)鍵詞的搜索。這要通過找到Web文檔的模式、建立Web數(shù)據(jù)倉庫或Web知識(shí)庫或虛擬數(shù)據(jù)庫來實(shí)現(xiàn)。相關(guān)研究主要是基于半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行的。數(shù)據(jù)庫觀點(diǎn)主要利用OEM(ObjectExchangeModel)模型將半結(jié)構(gòu)化數(shù)據(jù)表示成標(biāo)識(shí)圖。OEM中的每個(gè)對(duì)象都有對(duì)象標(biāo)識(shí)(OID)和值,值可以是原子類型,如整型、字符串型、gif、html等,也可以是一個(gè)復(fù)合類型,以對(duì)象引用集合的形式表示。由于Web數(shù)據(jù)量非常龐大,從應(yīng)用的角度考慮,很多研究只處理辦結(jié)構(gòu)化數(shù)據(jù)的一個(gè)常用自集。一些有意義的應(yīng)用是建立多層數(shù)據(jù)庫(MLDB),每一層是它下面層次的概化,這樣就可以進(jìn)行一些特殊的查詢和信息處理。對(duì)于在半結(jié)構(gòu)化數(shù)據(jù)上的查詢語言研究也得到了人們的重視并做了專題研究。由于在數(shù)據(jù)庫觀點(diǎn)下數(shù)據(jù)的表示方法比較特殊,其中包含了關(guān)系層次和圖形化的數(shù)據(jù),所以大部分建立在扁平數(shù)據(jù)集合之上的數(shù)據(jù)挖掘方法不能直接使用,目前已經(jīng)有人針對(duì)多層數(shù)據(jù)庫挖掘算法進(jìn)行研究。2、Web結(jié)構(gòu)挖掘:Web結(jié)構(gòu)挖掘的對(duì)象是Web本身的超連接,即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘。對(duì)于給定的Web文檔集合,應(yīng)該能夠通過算法發(fā)現(xiàn)他們之間連接情況的有用信息,文檔之間的超連接反映了文檔之間的包含、引用或者從屬關(guān)系,引用文檔對(duì)被引用文檔的說明往往更客觀、更概括、更準(zhǔn)確。Web結(jié)構(gòu)挖掘在一定程度上得益于社會(huì)網(wǎng)絡(luò)和引用分析的研究。把網(wǎng)頁之間的關(guān)系分為incoming連接和outgoing連接,運(yùn)用引用分析方法找到同一網(wǎng)站內(nèi)部以及不同網(wǎng)站之間的連接關(guān)系。在Web結(jié)構(gòu)挖掘領(lǐng)域最著名的算法是HITS算法和PageRank算法。他們的共同點(diǎn)是使用一定方法計(jì)算Web頁面之間超連接的質(zhì)量,從而得到頁面的權(quán)重。著名的Clever和Google搜索引擎就采用了該類算法。此外,Web結(jié)構(gòu)挖掘另一個(gè)嘗試是在Web數(shù)據(jù)倉庫環(huán)境下的挖掘,包括通過檢查同一臺(tái)服務(wù)器上的本地連接衡量Web結(jié)構(gòu)挖掘Web站點(diǎn)的完全性,在不同的Web數(shù)據(jù)倉庫中檢查副本以幫助定位鏡像站點(diǎn),通過發(fā)現(xiàn)針對(duì)某一特定領(lǐng)域超連接的層次屬性去探索信息流動(dòng)如何影響Web站點(diǎn)的設(shè)計(jì)。3、Web用法挖掘(WebusageMining):即Web使用記錄挖掘,在新興的電子商務(wù)領(lǐng)域有重要意義,它通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識(shí)別用戶的忠實(shí)度、喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強(qiáng)站點(diǎn)的服務(wù)競爭力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外還包括代理服務(wù)器日志、瀏覽器端日志、注冊(cè)信息、用戶會(huì)話信息、交易信息、Cookie中的信息、用戶查詢、鼠標(biāo)點(diǎn)擊流等一切用戶與站點(diǎn)之間可能的交互記錄??梢奧eb使用記錄的數(shù)據(jù)量是非常巨大的,而且數(shù)據(jù)類型也相當(dāng)豐富。根據(jù)對(duì)數(shù)據(jù)源的不同處理方法,Web用法挖掘可以分為兩類,一類是將Web使用記錄的數(shù)據(jù)轉(zhuǎn)換并傳遞進(jìn)傳統(tǒng)的關(guān)系表里,再使用數(shù)據(jù)挖掘算法對(duì)關(guān)系表中的數(shù)據(jù)進(jìn)行常規(guī)挖掘;另一類是將Web使用記錄的數(shù)據(jù)直接預(yù)處理再進(jìn)行挖掘。Web用法挖掘中的一個(gè)有趣的問題是在多個(gè)用戶使用同一個(gè)代理服務(wù)器的環(huán)境下如何標(biāo)識(shí)某個(gè)用戶,如何識(shí)別屬于該用戶的會(huì)話和使用記錄,這個(gè)問題看起來不大,但卻在很大程度上影響著挖掘質(zhì)量,所以有人專門在這方面進(jìn)行了研究。通常來講,經(jīng)典的數(shù)據(jù)挖掘算法都可以直接用到Web用法挖掘上來,但為了提高挖掘質(zhì)量,研究人員在擴(kuò)展算法上進(jìn)行了努力,包括復(fù)合關(guān)聯(lián)規(guī)則算法、改進(jìn)的序列發(fā)現(xiàn)算法等。在線手冊(cè)

根據(jù)數(shù)據(jù)來源、數(shù)據(jù)類型、數(shù)據(jù)集合中的用戶數(shù)量、數(shù)據(jù)集合中的服務(wù)器數(shù)量等將Web用法挖掘分為五類:●個(gè)性挖掘:針對(duì)單個(gè)用戶的使用記錄對(duì)該用戶進(jìn)行建模,結(jié)合該用戶基本信息分析他的使用習(xí)慣、個(gè)人喜好,目的是在電子商務(wù)環(huán)境下為該用戶提供與眾不同的個(gè)性化服務(wù)?!裣到y(tǒng)改進(jìn):Web服務(wù)(數(shù)據(jù)庫、網(wǎng)絡(luò)等)的性能和其他服務(wù)質(zhì)量是衡量用戶滿意度的關(guān)鍵指標(biāo),Web用法挖掘可以通過用戶的擁塞記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸,以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。此外,可以通過分析網(wǎng)絡(luò)的非法入侵?jǐn)?shù)據(jù)找到系統(tǒng)弱點(diǎn),提高站點(diǎn)安全性,這在電子商務(wù)環(huán)境下尤為重要。●站點(diǎn)修改:站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引用戶的關(guān)鍵。Web用法挖掘通過挖掘用戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依,比如頁面連接情況應(yīng)如何組織、那些頁面應(yīng)能夠直接訪問等?!裰悄苌虅?wù):用戶怎樣使用Web站點(diǎn)的信息無疑是電子商務(wù)銷售商關(guān)心的重點(diǎn),用戶一次訪問的周期可分為被吸引、駐留、購買和離開四個(gè)步驟,Web用法挖掘可以通過分析用戶點(diǎn)擊流等Web日志信息挖掘用戶行為的動(dòng)機(jī),以幫助銷售商合理安排銷售策略?!馱eb特征描述:這類研究跟關(guān)注這樣通過用戶對(duì)站點(diǎn)的訪問情況統(tǒng)計(jì)各個(gè)用戶在頁面上的交互情況,對(duì)用戶訪問情況進(jìn)行特征描述。8、舉例說明何謂關(guān)聯(lián)規(guī)則挖掘中的支持度和置信度。支持度和置信度:關(guān)聯(lián)規(guī)則從一個(gè)側(cè)面揭示了事務(wù)之間的某種聯(lián)系。

支持度和置信度總是伴隨著關(guān)聯(lián)規(guī)則存在的,它們是對(duì)關(guān)聯(lián)規(guī)則的必要的補(bǔ)充。

對(duì)某條關(guān)聯(lián)規(guī)則而言,如A->B(support=30%,confidence=60%)

其中的support=30%是說,在所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論