版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、銀行業(yè)CRRM軟件技技術(shù)本章對(duì)涉及及建設(shè)銀行行CRM系統(tǒng)統(tǒng)的核心軟軟件技術(shù)進(jìn)進(jìn)行慨要講講解,并對(duì)對(duì)一些功能能進(jìn)行了比比較分析,有有助于銀行行進(jìn)行軟件件選型。XML技術(shù)術(shù) XML技術(shù)術(shù)作為互聯(lián)聯(lián)網(wǎng)的種子子技術(shù)是建建設(shè)CRMM的一個(gè)重重要支撐技技術(shù)。XML介紹紹 XML是EExtennsiblle Maarkupp Lannguagge的簡稱稱,即“可可擴(kuò)展標(biāo)記記語言”,是是由 W3C組織于于19988年 2月制定定的一種通通用語言規(guī)規(guī)范,是專專為Webb應(yīng)用而設(shè)設(shè)計(jì)的 SSGML 2 (Stanndardd Gennerallizedd Marrkup Langguagee)的一個(gè)個(gè)優(yōu)化子集集。
2、同SGMLL類似, XXML是一一種元標(biāo)記記語言,使使用者可按按需創(chuàng)建新新的標(biāo)記, XML的可擴(kuò)展性就在于此。這些標(biāo)記通過 XML DTD(Document Type Defi n ition,文擋類型定義)來加以定義。DTD是一系列關(guān)于元素類型(Element Type),屬性(Attributes), 實(shí)體(Entities)和符號(hào)(Notations)的定義。它定義了文檔所需的標(biāo)記,比如可在文檔里使用的元素類型,這些元素之間的可能的聯(lián)系,還可能聲明元素的屬性,屬性是元素的“元數(shù)據(jù)”,而不是元素包含的內(nèi)容。另外,一個(gè)實(shí)體就像是一個(gè)縮寫,被當(dāng)做一些文本或一些數(shù)據(jù)的縮寫來使用。而符號(hào)描述某一類
3、事物(例如圖像)的數(shù)據(jù)內(nèi)容,它定義怎樣翻譯某類對(duì)像的比特流。XML文檔可以在它的文檔類型聲明(Document Type Oeclaration)里聲明該文檔遵循某個(gè)XMLDTD。XML語法法 XML文檔檔的組成 XML文檔檔包含由XXML標(biāo)記記和字符數(shù)數(shù)據(jù)組成的的文本。它它是一個(gè)有有固定長度度的有序字字節(jié)的集合合,并遵守守特定的約約束。它可可能是或者者不是一個(gè)個(gè)文件。例例如,XMML文檔可可能。存儲(chǔ)在數(shù)據(jù)據(jù)庫中由CGI程程序在內(nèi)存存中瞬間創(chuàng)創(chuàng)建由幾個(gè)相互互嵌套的不不同文件組組合而成不存在于自自身的文件件中但是如果把把一個(gè)XMML文檔看看做一個(gè)文文件也是可可以的,只只要記住它它可能并不不是存在
4、于于硬盤上的的真實(shí)文件件。XMLL由稱為“實(shí)體”的的存儲(chǔ)單元元組成,每每個(gè)實(shí)體包包含文本或或者二進(jìn)制制數(shù)據(jù),但但不能同時(shí)時(shí)存在。文文本數(shù)據(jù)由由字符組成成,二進(jìn)制制數(shù)據(jù)用于于圖片和小小程序等類類內(nèi)容。用用一個(gè)具體體的示例說說明就是,一一個(gè)含有標(biāo)記的原原始HTMML文件是是一個(gè)實(shí)體體而不是文文擋。一個(gè)個(gè)HTM文件件加上所有有使用標(biāo)標(biāo)記嵌入的的圖片就組組成一個(gè)文文檔。在本本章和后續(xù)續(xù)幾章中我我們只針對(duì)對(duì)由一個(gè)實(shí)實(shí)體構(gòu)成的的簡單的XXML文檔檔,即文檔檔本身。而而且這些文文檔只包含含文本數(shù)據(jù)據(jù),不包含含諸如圖片片小程序一一類的二進(jìn)進(jìn)制數(shù)據(jù)。這些文檔檔能夠完全全獨(dú)立被, 理解而而無須讀取取其他文件件。換
5、句話話說,它們們是獨(dú)立存存在的。這這種文檔通通常在它的的XML標(biāo)頭頭中含有一一個(gè)值為yyes的stanndaloone屬性性,如下所所示。? xmll verrsionn =“1.0” staandallone=“yes”? 外部實(shí)體和和實(shí)體引用用用于組合合多個(gè)文件件和其他數(shù)數(shù)據(jù)源以創(chuàng)創(chuàng)建一個(gè)獨(dú)獨(dú)立的XMML文擋。這樣的文文擋如果不不引用其他他文件就不不能進(jìn)行句句法分析。這些文檔檔通常在XXML聲明明中含有一一個(gè)屬性值值為no的stanndaloone屬性性。? xmll verrsionn =“1.0” staandallone=“no”? 實(shí)體引用實(shí)體引用是是指分析文文檔時(shí)會(huì)被被字符數(shù)據(jù)據(jù)
6、取代的置置標(biāo)。XMML預(yù)先定定義了5個(gè)實(shí)體引引用,列在在表 6-1中。實(shí)實(shí)體引用用用于XMLL文檔中的的特殊字符符,否則這這些字符將將被解釋為為置標(biāo)的組組成部分。例如,實(shí)實(shí)體引用<;代代表小于號(hào)號(hào)(),否則則會(huì)被解釋釋為一個(gè)標(biāo)標(biāo)記的起始始部分。表 6-11 XMLL預(yù)定義的的實(shí)體引用用實(shí)體引用所代表字符符&;<;"t;“&qposs;XML中的的實(shí)體引用用與 HTTML中不不同,必須須以一個(gè)分分號(hào)結(jié)束。因此 >;是是正確的實(shí)實(shí)體引用寫寫法, >是不不正確的。未經(jīng)處理的的小予號(hào)()同表示“和”的符號(hào)(&)在一般的 XML文本中往往被分別解釋為起始標(biāo)記和實(shí)體引用(特殊
7、文本是指 CDATA段,將在后面討論)。因此,小于號(hào)同“和”號(hào)必須分別編碼為 <;和 &;。例如,短語語“Benn & erryy s NNew YYork Supeer Fuudge Chunnk Icce Crream”應(yīng)當(dāng)寫成成 Benn &ammp;errry s New Yorkk Supper FFudgee Chuunk IIce CCreamm。大于號(hào)號(hào)、雙引號(hào)號(hào)和撇號(hào)在在它們可能能會(huì)被解釋釋成為置標(biāo)標(biāo)的一部分分時(shí)也必須須編碼。但但是,養(yǎng)成成全部編碼碼的習(xí)慣要要比努力推推測(cè)一個(gè)特特定的應(yīng)用用是否會(huì)被被解釋為置置標(biāo)容易得得多。實(shí)體引用也也能用于屬屬性值中。例如。 CDA
8、TAA 在大多數(shù)情情況下,出出現(xiàn)在一對(duì)對(duì)尖括號(hào)()中的是置標(biāo),不在尖括號(hào)中的是字符數(shù)據(jù)。但是有一種情況例外,在 CDATA段中所有文本都是純字符數(shù)據(jù)??雌饋砼c標(biāo)記或者實(shí)體相似的僅僅是它們各自相應(yīng)的文本。XML處理器無論如何是不會(huì)解釋它們的。CDATAA段用于需需要把整個(gè)個(gè)文本解釋釋為純字符符數(shù)據(jù)而并并不是置標(biāo)標(biāo)的情況。當(dāng)有一個(gè)個(gè)包含許多多、&或”字符而非非置標(biāo)的龐龐大文本時(shí)時(shí),這是非非常有用的的。對(duì)于大大部分C和Javaa源代碼,正正是這種情情況。如果想使用用 XMLL寫有關(guān) XXML的簡簡介, CCDATAA段同樣非非常有效。例如,在在一個(gè)文本本中包含許許多小的 XML代代碼塊,而而正在使用
9、用的字處理理器又不能能顧及這些些情況。但但是如果把把本書轉(zhuǎn)換換為 XMML,用戶戶將不得不不很辛苦地地用 &llt;代替替全部小于于號(hào), &;代替所有有“和”字字符。如下下所示。<;?xml verssion = “1.0” staandallone = “yes”? >t;<;GGREETTING>;Helloo XMLL! <;/ GREEETINNG>t;為了避免這這種麻煩,可可以使用一一個(gè)CDAATA段表表示一個(gè)不不需要翻譯譯的文本塊塊。CDAATA段以以結(jié)束,例例如。! CCDATAA “ Helloo XMLL! 惟一不許出出現(xiàn)在CDDATA段段中的文
10、本本是CDAATA的結(jié)結(jié)束界定符符 。注釋可可能會(huì)出現(xiàn)現(xiàn)在CDAATA段中中,但不再再扮演注釋釋的角色。也就是說說兩個(gè)注釋釋標(biāo)記和包包含在它們們之間的全全部文本都都將顯示出出來。因?yàn)椴荒艹霈F(xiàn)現(xiàn)在CDAATA段中中,所以CCDATAA段不能嵌嵌套。這使使得使用XXML寫有有關(guān)的CDDATA段段相對(duì)困難難些。如果果需要的話話,必須去去掉項(xiàng)目符符號(hào),并使使用 &llt;、&ammp;和實(shí)實(shí)體引用。CDATAA段不常需需要,一旦旦需要時(shí),它它是非常有有用的。標(biāo)己標(biāo)記能夠區(qū)區(qū)分XMLL文件與無無格式文本本文件。標(biāo)標(biāo)記在XMML文檔中中以結(jié)束,而而且不包含含在注釋或或者CDAATA段中中。因此, XML標(biāo)
11、記有與HTML標(biāo)記相同的形式。開始或打開標(biāo)記?1t;開始,后面跟有標(biāo)記名。終止或結(jié)束標(biāo)記以該標(biāo)記結(jié)束。1.標(biāo)記名名每個(gè)標(biāo)記都都有一個(gè)名名稱。標(biāo)記記名必須以以字母或下下劃線 CC)開始,名名稱中后續(xù)續(xù)字符可以以包含字母母、數(shù)字、下劃線、連字符和和句號(hào)。其其中不能含含有空格(經(jīng)經(jīng)常用下劃劃線替代空空格)。下下面是一些些合法的XXML標(biāo)記記。 以下是句法法不正確的的XML標(biāo)記記。 結(jié)束標(biāo)記與與起始標(biāo)記記同名,只只是在起始始尖括號(hào)后后加了一個(gè)個(gè)/。例如,如如果起始標(biāo)標(biāo)記是,那那么結(jié)束標(biāo)標(biāo)記是。下面是是前面所提提到的合法法起始標(biāo)記記所對(duì)應(yīng)的的結(jié)束標(biāo)記記。 XML名稱稱是大小寫寫敏感的。在HTMML中的和
12、是同同一個(gè)標(biāo)記記,可以結(jié)結(jié)束一個(gè)標(biāo)記記,但在XXML中卻卻不行。下下面所示的的并不是我我們討論過過的合法起起始標(biāo)記所所對(duì)應(yīng)的結(jié)結(jié)束標(biāo)記。 2.空標(biāo)記記許多不含數(shù)數(shù)據(jù)的HTTML標(biāo)記記沒有結(jié)束束標(biāo)記。例例如,有、或標(biāo)記。一些頁面面作者在所所列的項(xiàng)目目后面確實(shí)實(shí)會(huì)包含標(biāo)記,一一些HTMML工具也也使用標(biāo)標(biāo)記。但是是HTMLL4.0標(biāo)標(biāo)準(zhǔn)特別否否認(rèn)了這一一點(diǎn)的必要要性。同HHTML中中所有沒有有被公認(rèn)的的標(biāo)記一樣樣,一個(gè)不不必要的的出現(xiàn)對(duì)對(duì)交付的輸輸出沒有任任何影響。這在XMLL中不是問問題。XMML的總體體觀點(diǎn)就是是在分析文文檔時(shí)允許許發(fā)現(xiàn)新的的標(biāo)記。因因此沒有識(shí)識(shí)別的標(biāo)記記就不會(huì)被被簡單地忽忽略
13、。而且且XML處理理器一定能能夠判明以以前從沒出出現(xiàn)過的一一個(gè)標(biāo)記有有沒有結(jié)束束標(biāo)記。XML區(qū)分分帶有結(jié)束束標(biāo)記的標(biāo)標(biāo)記,而不不帶結(jié)束標(biāo)標(biāo)記的標(biāo)記記稱為空標(biāo)標(biāo)記。空標(biāo)標(biāo)記以斜杠杠和一個(gè)結(jié)結(jié)束尖括號(hào)號(hào)(/)結(jié)束束。例如,或。目前的Web瀏覽器處理這種標(biāo)記的方法不一致,如果希望保持向后的兼容性,可以用結(jié)束標(biāo)記來代替,只要在兩個(gè)標(biāo)記之間不包含任何文本。例如。 屬性在前面內(nèi)容容中討論過過,起始標(biāo)標(biāo)記和空標(biāo)標(biāo)記可以隨隨意地包含含屬性。屬屬性是用等等號(hào)(=)分隔開開的名稱一一數(shù)值對(duì)。例如。Helloo XMLL!在此標(biāo)標(biāo)記有一個(gè)個(gè)LANGGUAGEE屬性,其其屬性值是是Engllish。標(biāo)標(biāo)記有一個(gè)個(gè)SR
14、C屬性性,其屬性性值為WaavinggHandd.movv。1.屬性名名屬性名是宇宇符串,遵遵循與標(biāo)記記名同樣的的規(guī)則。這這就是,屬屬性名必須須以字母或或下劃線(_)開始,名稱中后續(xù)字符可以包含字母、數(shù)字、下劃線、連字符和句號(hào)。其中不能含有空格(經(jīng)常用下劃線替代空格)。同一個(gè)標(biāo)記記不能有兩兩個(gè)同名的的屬性。例例如,下面面的例子是是不合法的的。 屬性名是區(qū)區(qū)分大小寫寫的。SIIDE屬性性與sidde或Sidee屬性不是是同一個(gè)屬屬性,因此此以下例子子是合法的的。 2.屬性值值屬性值也是是字符串。如下面所所示的 LLENGTTH屬性,即即使字符串串表示的是是一個(gè)數(shù),但但還是兩個(gè)個(gè)宇符7和2,不是十
15、十進(jìn)制數(shù)的的72。 如果編寫處處理XMLL的代碼,在在對(duì)字符串串執(zhí)行算術(shù)術(shù)運(yùn)算之前前必須把它它們轉(zhuǎn)換為為一個(gè)數(shù)。與屬性名不不同,對(duì)屬屬性值包含含的內(nèi)容沒沒有任何限限制。屬性性值可以包包含空格,可可以以一個(gè)個(gè)數(shù)字或任任何標(biāo)點(diǎn)符符號(hào)(有時(shí)時(shí)單括號(hào)和和雙括號(hào)除除外)開頭頭。XML 屬屬性值由引引號(hào)界定。與HTMML 屬性性不同, XML 屬性值必必須加引號(hào)號(hào)。大多數(shù)數(shù)情況下使使用雙引號(hào)號(hào),但是如如果屬性值值本身含有有個(gè)引號(hào)號(hào),就需要要使用單引引號(hào)。例如如:如果屬性值值中含有兩兩種引號(hào),那那么其中不不用于界定定字符串的的一個(gè)必須須用合適的的實(shí)體引用用代替。通通常替換兩兩個(gè),這種種方法很管管用。例如如:
16、XML 文文檔規(guī)則盡管可以根根據(jù)需要編編寫標(biāo)記,但但XML 文檔為了了保持結(jié)構(gòu)構(gòu)完整必須須遵循定定的規(guī)則。如果一個(gè)個(gè)文擋不是是結(jié)構(gòu)完整整的,大部部分讀取和和顯示操作作都會(huì)失敗敗。事實(shí)上,XXML規(guī)范范嚴(yán)格禁止止XML句法法分析器分分析和解釋釋結(jié)構(gòu)欠妥妥的文檔。正在執(zhí)行行操作的分分析器惟能做的是是報(bào)告出錯(cuò)錯(cuò)。它不會(huì)會(huì)修改錯(cuò)誤誤,不會(huì)做做最大的努努力顯示作作者想要的的東西,也也不會(huì)忽略略不當(dāng)?shù)慕Y(jié)結(jié)構(gòu)欠妥的的標(biāo)記。它它所能做的的是報(bào)告錯(cuò)錯(cuò)誤和退出出。這樣做的目目的是為了了避免對(duì)錯(cuò)錯(cuò)誤的兼容容性的競(jìng)爭爭。這種競(jìng)爭爭已使得編編寫HTMML 語法分析程程序和顯示示程序變得得非常困難難。因?yàn)閃We瀏覽器器承
17、認(rèn)畸形形的HTMML,而Webb頁面設(shè)計(jì)計(jì)者不會(huì)特特別盡力確確保他們的的HTMLL正確無誤誤。事實(shí)上上,他們甚甚至利用個(gè)個(gè)別瀏覽器器中的錯(cuò)誤誤達(dá)到特殊殊的效果。為了正確確顯示被大大量安裝的的HTMLL頁面,每每個(gè)新的 Web瀏瀏覽器必須須支持已有有的 Weeb瀏覽器器的每一個(gè)個(gè)細(xì)微差別別和各自的的屬性。用用戶將放棄棄任何一種種嚴(yán)格執(zhí)行行 HTMML標(biāo)準(zhǔn)的的瀏覽器。正是為了了避免這種種遺憾,XXML處理理器才只接接受結(jié)構(gòu)完完整的XMML。為了使一個(gè)個(gè)文檔結(jié)構(gòu)構(gòu)完整,XXML文檔檔中的所有有置標(biāo)和字字符數(shù)據(jù)必必須遵守前前幾節(jié)中給給出的規(guī)則則。而且有有幾條關(guān)于于如何把置置標(biāo)和字符符數(shù)據(jù)相互互聯(lián)系起來
18、來的規(guī)則。這些規(guī)則則總結(jié)如下下:(1)文擋擋的開始必必須是XMML聲明。(2)含有有數(shù)據(jù)的元元素必須有有起始標(biāo)記記和結(jié)束標(biāo)標(biāo)記。(3)不含含數(shù)據(jù)并且且僅使用一一個(gè)標(biāo)記的的元素必須須以/結(jié)束。(4)文檔檔只能包含含一個(gè)能夠夠包含全部部其他元素素的元素。(5)元素素只能嵌套套不能重疊疊。(6)屬性性值必須加加引號(hào)。(7)字符符和&只能用于于起始標(biāo)記記和實(shí)體引引用。(8)出現(xiàn)現(xiàn)的實(shí)體引引用只有&;、<t;、>t;、&appos;和和&quoot;。這 8條規(guī)規(guī)則稍加調(diào)調(diào)整就能適適用于含有有一個(gè)DTTD的文檔檔,現(xiàn)在請(qǐng)請(qǐng)仔細(xì)看這這些用于沒沒有 DTTD文擋的的規(guī)則。1文檔必必須以 XXM
19、L聲明明開始下面是 XXML1.0中獨(dú)立立文檔的 XML聲聲明。如果聲明出出現(xiàn),它絕絕對(duì)是該文文件最開頭頭部分,因因?yàn)?XMML處理器器會(huì)讀取文文件最先的的幾個(gè)字節(jié)節(jié)并將它與與字符串? XMLL的不同編編碼做比較較來確定正正在使用的的字符串集集( UTTF-8、大頭(高高字節(jié)先傳傳格式)或或者小頭(低低字節(jié)先傳傳格式 )。除除去看不見見的字節(jié)順順序記號(hào),在在它之前不不能有任何何東西,包包括空格。例如,下下面一行用用于 XMML的開始始是不能接接受的,因因?yàn)樵谠撔行械那懊嬗杏卸嘤嗟目湛瞻住?XML確實(shí)實(shí)允許完全全省略 XXML聲明明。通常不不推薦這樣樣做,但這這樣做有特特殊的用途途。例如,省省略
20、 XMML聲明,通通過連接其其他結(jié)構(gòu)完完整的XMML文檔有有助于重新新建立一個(gè)個(gè)結(jié)構(gòu)完整整的 XMML文檔。2.在非空空標(biāo)記中使使用起始和和結(jié)束標(biāo)記記如果忘了結(jié)結(jié)束 HTTML的標(biāo)標(biāo)記,Weeb瀏覽器器并不嚴(yán)格格追究。例例如,如果果文檔包含含一個(gè)標(biāo)記卻卻沒有相應(yīng)應(yīng)的 標(biāo)記記,在標(biāo)記之之后的全部部文檔將變變?yōu)榇煮w。但文檔仍仍然能顯示示。XML不會(huì)會(huì)如此寬松松,每個(gè)起起始標(biāo)記必必須以相應(yīng)應(yīng)的結(jié)束標(biāo)標(biāo)記結(jié)束。如果一個(gè)個(gè)文檔未能能結(jié)束一個(gè)個(gè)標(biāo)記,瀏瀏覽器或移移交器將報(bào)報(bào)告一個(gè)錯(cuò)錯(cuò)誤信息,并并且不會(huì)以以任何形式式顯示任何何文檔的內(nèi)內(nèi)容。3.用”/“結(jié)束束空標(biāo)記不包含數(shù)據(jù)據(jù)的標(biāo)記,例例如 HTTML的、和
21、,不不需要結(jié)束束標(biāo)記。但但是 XMML空標(biāo)記記必須由 /結(jié)束束,而不是是。例如、和的XML等價(jià)價(jià)物是、和。當(dāng)前的 WWeb瀏覽覽器處理這這種標(biāo)記的的方法不一一致。但是是如果想保保持向后的的兼容性,可可以使用結(jié)結(jié)束標(biāo)記來來代替,而而且不能在在其間包含含任何文本本。例如。 即使這樣,Netscape處理 也有困難(它把這兩個(gè)標(biāo)記解釋為行間距,而不是前面所講的)。因此,在HTML中包含結(jié)構(gòu)完整的空標(biāo)記也并非總是可行的。4.讓一個(gè)個(gè)元素完全全包含其他他所有元素素一個(gè) XMML文檔包包含一個(gè)根根元素,它它完全包含含了文檔中中其他所有有元素。有有時(shí)候這種種元素被稱稱做文檔元元素。假設(shè)設(shè)根元素是是非空的(通
22、通常都是如如此),它它肯定有起起始標(biāo)記和和結(jié)束標(biāo)記記。這些標(biāo)標(biāo)記可能使使用但不是是必須使用用roott或DOCUUMENTT命名。例例如,在下下面的文檔檔中根元素素是 GRREETIING: Helloo XMLL! XML聲明明不是一個(gè)個(gè)元素,它它更像是一一個(gè)處理指指令,因此此不必包含含在根元素素中。類似似地,在一一個(gè) XMML文檔中中的其他非非元素?cái)?shù)據(jù)據(jù),諸如其其他處理指指令、DTTD和注釋釋也不必包包含在根元元素中。但但是所有實(shí)實(shí)際的元素素(除根元元素本身)必必須包含在在根元素中中。5.不能重重疊元素元素可以包包含別的元元素(大多多數(shù)情況下下),但是是元素不能能重疊。事事實(shí)上是指指,如果
23、一一個(gè)元素含含有一個(gè)起起始標(biāo)記,則則必須同時(shí)時(shí)含有相應(yīng)應(yīng)的結(jié)束標(biāo)標(biāo)記。同樣樣,一個(gè)元元素不能只只含有一個(gè)個(gè)結(jié)束標(biāo)記記而沒有相相應(yīng)的起始始標(biāo)記。例例如,下面面的 XMML是允許許的: nn =n +1; 下面所示的的 XMLL是非法的的,因?yàn)榻Y(jié)結(jié)束標(biāo)記 放在在了結(jié)束標(biāo)標(biāo)記之前。 n = n +11; 大部分HTTML瀏覽覽器容易處處理這種情情況,但是是XML瀏覽覽器會(huì)因?yàn)闉檫@種結(jié)構(gòu)構(gòu)而報(bào)告出出錯(cuò)??諛?biāo)標(biāo)記可隨處處出現(xiàn)。例例如。 Osccar WWildeeJJoe OOrtonn 本規(guī)則與規(guī)規(guī)則 4聯(lián)系在在一起有如如下含義 :對(duì)于所所有非根元元素,只能能有一個(gè)元元素包含某某一非根元元素,但是是元
24、素不能能包含其中中含有非根根元素的元元素。這個(gè)個(gè)直接含有有者稱為非非根元素的的父元素,非非根元素被被認(rèn)為是父父元素的子子元素。因因此,每個(gè)個(gè)非根元素素只有一個(gè)個(gè)父元素。但是一個(gè)個(gè)單獨(dú)的元元素可以有有任意數(shù)目目的子元素素或不含有有子元素。請(qǐng)分析如下下所示的清清單。根元元素是 DDOCUMMENT元元素,它含含有兩個(gè)元元素。第一一個(gè) STTATE元元素含有 4個(gè)子元元素。NAAME、TREEE、FLOWWER和 CAPPITOLL。第二個(gè)個(gè) STAATE元素素含有 33個(gè)子元素素。NAMME、TREEE和 CAPPITOLL。這些里里層的子元元素只包含含字符數(shù)據(jù)據(jù),沒有子子元素。父元素和子子元素
25、Loouisiiana Balld Cyypresss Maggnoliia Batton RRougee Miississsipppi Maagnollia Jaccksonn 6.屬性值值必須加引引號(hào) XML要求求所有的屬屬性值必須須加引號(hào),不不管屬性值值是否包括括空白。例例如。HTML的的要求則不不是這樣。比如,HHTML允允許標(biāo)記含含有不帶引引號(hào)的屬性性。例如,下下面是一個(gè)個(gè)合法的HHTML標(biāo)記記。 惟一的要求求是屬性值值不能嵌有有空格。如果一個(gè)屬屬性值本身身含有雙引引號(hào),可以以使用屬性性值加單引引號(hào)來代替替。例如。如果一個(gè)屬屬性值包含含有單引號(hào)號(hào)和雙引號(hào)號(hào),可以使使用實(shí)體引引用 &a
26、apos;代替單引引號(hào),&qquot;代替雙引引號(hào)。例如如。7只在開開始標(biāo)記和和實(shí)體引用用中使用和&XML假定定最先的是一個(gè)標(biāo)標(biāo)記的開始始,&是一個(gè)實(shí)實(shí)體引用的的開始(HHTML也也是如此,如如果省略它它們,大部部分瀏覽器器會(huì)假定有有一個(gè)分號(hào)號(hào))。例如如。 A Hoomagee to Ben &Jerrry ssNew YYork Supeer Fuudge Chunnk Icce Crream Web瀏覽覽器會(huì)正確確地顯示該該標(biāo)記,但但是為了最最大限度的的安全,應(yīng)應(yīng)當(dāng)避免使使用&,用 &aamp;來來代替,像像下面這樣樣。 A Hoomagee to Ben &p;Jerrry s N
27、ew Yorkk Supper FFudgee Chuunk Ice CCreamm 開尖括號(hào)()的情況也類似。請(qǐng)看下面很普通的一行 Java代碼。 foor(int i = 0;i = arrgs.llengtth;i + +)1XMML與 HTMML都會(huì)把把。因此該該行會(huì)表示示成。for(iint ii = 00;而不是。for(iint ii =0;i =arggs.eengthh;i+ +)“= arrgs.lenggth;i + +)|”被解釋成成一個(gè)不能能識(shí)別的標(biāo)標(biāo)記的一部部分。把小于號(hào)寫寫成 &llt;可以出現(xiàn)現(xiàn)在 XMML和 HTMML文本中中。例如。 foor(int i =
28、 0;i &llt;= arrgs.llengtth;i + +)| 結(jié)構(gòu)完整的的XML要求求把&寫成&ammp;,把把B,A稱為前提提和左部(LHS),B稱為后續(xù)或右部(RHS)。如關(guān)聯(lián)規(guī)則“買錘子的人也會(huì)買釘子”,左部是“買錘子”,右部是“買釘子”。要計(jì)算包含含某個(gè)特定定項(xiàng)或幾個(gè)個(gè)項(xiàng)的事務(wù)務(wù)在數(shù)據(jù)庫庫中出現(xiàn)的的概率只要要在數(shù)據(jù)庫庫中直接統(tǒng)統(tǒng)計(jì)即可。某一特定定關(guān)聯(lián)(“錘子和釘釘子”)在在數(shù)據(jù)庫中中出現(xiàn)的頻頻率稱為支支持度。比比如在總共共10000個(gè)事務(wù)中中有15個(gè)事務(wù)務(wù)同時(shí)包含含了“錘子子和釘子”,則此關(guān)關(guān)聯(lián)的支持持度為1.5 %。非常低的的支持度(比比如1百萬個(gè)事事務(wù)中只有有一個(gè))可可能意
29、味著著此關(guān)聯(lián)不不是很重要要,或出現(xiàn)現(xiàn)了錯(cuò)誤數(shù)數(shù)據(jù)(如,“男性和懷懷孕”)。要找到有意意義的規(guī)則則,還要考考察規(guī)則中中項(xiàng)及其組組合出現(xiàn)的的相對(duì)頻率率。當(dāng)己有有A時(shí), B發(fā)生的的概率是多多少?也即即概率論中中的條件概概率。回到到我們的例例子,也就就是問“當(dāng)當(dāng)一個(gè)人已已經(jīng)買了錘錘子,那他他有多大的的可能也會(huì)會(huì)買釘子?”這個(gè)條條件概率在在數(shù)據(jù)挖掘掘中也稱為為可信度,計(jì)計(jì)算方法是是求百分比比:(A與B同時(shí)出現(xiàn)現(xiàn)的頻率)/(A出現(xiàn)的頻率)。預(yù)測(cè)型數(shù)據(jù)據(jù)挖據(jù)數(shù)據(jù)挖掘的的目的是生生成可以據(jù)據(jù)其所示的的含義采取取行動(dòng)的知知識(shí),也就就是建立一一個(gè)現(xiàn)實(shí)世世界的模型型。建立這這個(gè)模型可可能需要各各種各樣的的源數(shù)據(jù),包
30、包括交易記記錄、顧客客歷史數(shù)據(jù)據(jù)、人口統(tǒng)統(tǒng)計(jì)信息、進(jìn)程控制制數(shù)據(jù)和市市場(chǎng)相關(guān)的的外部數(shù)據(jù)據(jù)等,比如如:信用卡卡公司提供供的數(shù)據(jù)、天氣數(shù)據(jù)據(jù)等。模型型是模式和和數(shù)據(jù)間相相關(guān)性的形形式化描述述。為了防止混混淆,把數(shù)數(shù)據(jù)挖掘概概念劃分為為幾個(gè)層次次。(1)商業(yè)業(yè)目標(biāo);(2)預(yù)言言的種類;(3)模型型的類型;(4)算法法;(5)產(chǎn)品品。最高層是商商業(yè)目標(biāo):數(shù)據(jù)挖掘掘的最終目目的是什么么 ?比如:希望用數(shù)數(shù)據(jù)挖掘技技術(shù)留住用用戶的有價(jià)價(jià)值的客戶戶,用戶可可能先要建建立一個(gè)模模型來預(yù)測(cè)測(cè)每個(gè)客戶戶所能帶來來的利潤,然然后再建立立一個(gè)模型型來確定哪哪些客戶可可能會(huì)離開開。充分了了解用戶所所在企業(yè)的的需求和目
31、目標(biāo)有助于于用戶建立立這樣的目目標(biāo)。下一步是決決定最合適適的預(yù)言的的種類。分類:預(yù)預(yù)測(cè)一個(gè)特特定的客戶戶或事件屬屬于哪一類類;回歸歸( reegresssionn):預(yù)測(cè)測(cè)一個(gè)變量量的值(如如果此變量量隨事件變變化,可成成為時(shí)間序序列預(yù)測(cè))。在上面的的例子中用用戶可以用用回歸來預(yù)預(yù)測(cè)利潤的的大小,用用分類預(yù)測(cè)測(cè)哪些客戶戶會(huì)離開。后面我們們會(huì)詳細(xì)討討論。現(xiàn)在用戶可可以選擇模模型的類型型:用神經(jīng)經(jīng)網(wǎng)絡(luò)來做做回歸,決決策樹做分分類,還是是用統(tǒng)計(jì)模模型,如:邏輯回歸歸,偏差分分析,普通通線性模型型等。每種種模型都可可以用不同同的算法來來實(shí)現(xiàn),比比如,可以以用回饋函函數(shù)或 rradiaal baasis
32、函函數(shù)來建立立神經(jīng)網(wǎng)絡(luò)絡(luò);決策樹樹有巳ARRT,C5.00, QUUEST, CHAAID等。在選擇數(shù)據(jù)據(jù)挖掘軟件件產(chǎn)品時(shí),要要注意這些些軟件所采采用的算法法雖然名稱稱可能完全全一樣,但但他們的實(shí)實(shí)現(xiàn)方法通通常都是不不一樣的。這些對(duì)算算法的不同同實(shí)現(xiàn)影響響了軟件對(duì)對(duì)內(nèi)存、硬硬盤的需求求的不同及及性能上的的差異。大部分的商商業(yè)目標(biāo)都都可以用各各種不同的的模型及相相異的算法法來解決。通常在用用戶還沒有有試過任何何數(shù)據(jù)挖掘掘算法之前前,很難決決定哪種對(duì)對(duì)用戶來說說是最好的的。1.一些術(shù)術(shù)語在預(yù)測(cè)模型型中,把我我們要預(yù)測(cè)測(cè)的值或所所屬類別稱稱為響應(yīng)變變量、依賴賴變量或目目標(biāo)變量 ;用于預(yù)預(yù)測(cè)的輸入入變
33、量是預(yù)預(yù)測(cè)變量或或獨(dú)立變量量。一些預(yù)測(cè)模模型是通過過那些已知知目標(biāo)變量量值的歷史史數(shù)據(jù)訓(xùn)練練出來的。這種訓(xùn)練練有時(shí)也稱稱為帶指導(dǎo)導(dǎo)的學(xué)習(xí),因因?yàn)槭峭ㄟ^過給出一些些已知答案案的問題(已已知結(jié)果的的數(shù)據(jù))來來讓他“學(xué)學(xué)習(xí)”。相相對(duì)應(yīng)地,還還有不帶指指導(dǎo)的學(xué)習(xí)習(xí),如上面面提到的描描述型數(shù)據(jù)據(jù)挖掘(在在運(yùn)行之前前,算法對(duì)對(duì)數(shù)據(jù)一無無所知)。2.分類分類要解決決的問題是是為一個(gè)事事件或?qū)ο裣駳w類。在在使用上,既既可以用此此模型分析析己有的數(shù)數(shù)據(jù),也可可以用它來來預(yù)測(cè)未來來的數(shù)據(jù)。例如,用用分類來預(yù)預(yù)測(cè)哪些客客戶最傾向向于對(duì)直接接郵件推銷銷做出回應(yīng)應(yīng),又有哪哪些客戶可可能會(huì)換他他的手機(jī)服服務(wù)提供商商,或在
34、醫(yī)醫(yī)療領(lǐng)域當(dāng)當(dāng)遇到一個(gè)個(gè)病例時(shí)用用分類來判判斷一下從從哪些藥品品著手比較較好。數(shù)據(jù)挖掘算算法的工作作方法是通通過分析已已知分類信信息的歷史史數(shù)據(jù)總結(jié)結(jié)出一個(gè)預(yù)預(yù)測(cè)模型。這里用于于建立模型型的數(shù)據(jù)稱稱為訓(xùn)練集集,通常是是已經(jīng)掌握握的歷史數(shù)數(shù)據(jù)。如,已已經(jīng)不再接接受服務(wù)的的用戶,用用戶很可能能還保存了了他們?cè)诮咏邮芊?wù)時(shí)時(shí)的歷史記記錄。訓(xùn)練練集也可以以是通過實(shí)實(shí)際的實(shí)驗(yàn)驗(yàn)得到的數(shù)數(shù)據(jù)。比如如用戶從包包含公司所所有顧客的的數(shù)據(jù)庫中中取出一部部分?jǐn)?shù)據(jù)做做實(shí)驗(yàn),向向他們發(fā)送送介紹新產(chǎn)產(chǎn)品的推銷銷信,然后后搜集對(duì)此此做出回應(yīng)應(yīng)的客戶名名單,然后后用戶就可可以用這些些推銷回應(yīng)應(yīng)記錄建立立一個(gè)預(yù)測(cè)測(cè)哪些用戶戶
35、會(huì)對(duì)新產(chǎn)產(chǎn)品感興趣趣的模型,最最后把這個(gè)個(gè)模型應(yīng)用用到公司的的所有客戶戶上。3.回歸回歸是通過過具有已知知值的變量量來預(yù)測(cè)其其他變量的的值。在最最簡單的情情況下,回回歸采用的的是像線性性回歸這樣樣的標(biāo)準(zhǔn)統(tǒng)統(tǒng)計(jì)技術(shù)。但在大多多數(shù)現(xiàn)實(shí)世世界中的問問題是不能能用簡單的的線性回歸歸所能預(yù)測(cè)測(cè)的。如商商品的銷售售量、股票票價(jià)格、產(chǎn)產(chǎn)品合格率率等,很難難找到簡單單有效的方方法來預(yù)測(cè)測(cè),因?yàn)橐枋鲞@些些事件的變變化所需的的變量以上上百計(jì),且且這些變量量本身往往往都是非線線性的。為為此人們又又發(fā)明了許許多新的手手段來試圖圖解決這個(gè)個(gè)問題,如如邏輯回歸歸、決策樹樹、神經(jīng)網(wǎng)網(wǎng)絡(luò)等。一般同一個(gè)個(gè)模型既可可用于回歸
36、歸也可用于于分類。如如CARTT決策樹算算法既可以以用于建立立分類樹,也也可建立回回歸樹。神神經(jīng)網(wǎng)絡(luò)也也一樣。4.時(shí)間序序列時(shí)間序列是是用變量過過去的值來來預(yù)測(cè)未來來的值。與與回歸一樣樣,它也是是用已知的的值來預(yù)測(cè)測(cè)未來的值值,只不過過這些值的的區(qū)別是變變量所處時(shí)時(shí)間的不同同。時(shí)間序序列采用的的方法一般般是在連續(xù)續(xù)的時(shí)間流流中截取一一個(gè)時(shí)間窗窗口(一個(gè)個(gè)時(shí)間段),窗窗口內(nèi)的數(shù)數(shù)據(jù)作為一一個(gè)數(shù)據(jù)單單元,然后后讓這個(gè)時(shí)時(shí)間窗口在在時(shí)間流上上滑動(dòng),以以獲得建立立模型所需需要的訓(xùn)練練集。比如如用戶可以以銀行業(yè)CCRM理論論與實(shí)務(wù)用用前6天的數(shù)據(jù)據(jù)來預(yù)測(cè)第第7天的值,這這樣就建立立了一個(gè)區(qū)區(qū)間大小為為7
37、的窗口。數(shù)據(jù)挖掘算算法下面主要介介紹在數(shù)據(jù)據(jù)挖掘中最最常見的和和應(yīng)用最廣廣泛的算法法:神經(jīng)網(wǎng)網(wǎng)絡(luò)方法和和決策樹方方法。其他他的一些算算法,例如如 Bayyesiaan方法,遺遺傳算法,粗粗糙集算法法等可以參參照相應(yīng)的的文獻(xiàn)。應(yīng)注意的是是大部分算算法都不是是專為解決決某個(gè)問題題而特制的的,算法之之間也并不不互相排斥斥。不能說說一個(gè)問題題一定要采采用某種算算法,別的的就不行。一般來說說并不存在在所謂的最最好的算法法,在最終終決定選取取哪種模型型或算法之之前,用戶戶可能各種種模型都試試一下,然然后再選取取一個(gè)較好好的。神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近近來越來越越受到人們們的關(guān)注,因因?yàn)樗鼮榻饨鉀Q大復(fù)雜雜度問題提提
38、供了一種種相對(duì)來說說比較有效效的簡單方方法。神經(jīng)經(jīng)網(wǎng)絡(luò)可以以很容易地地解決具有有上百個(gè)參參數(shù)的問題題(當(dāng)然實(shí)實(shí)際生物體體中存在的的神經(jīng)網(wǎng)絡(luò)絡(luò)要比我們們這里所說說的程序模模擬的神經(jīng)經(jīng)網(wǎng)絡(luò)要復(fù)復(fù)雜得多)。神經(jīng)網(wǎng)絡(luò)絡(luò)常用于兩兩類問題:分類和回回歸。圖4-9 一個(gè)神經(jīng)經(jīng)元網(wǎng)絡(luò)在結(jié)構(gòu)上,可可以把一個(gè)個(gè)神經(jīng)網(wǎng)絡(luò)絡(luò)劃分為輸輸入層、輸輸出隱含層層層和隱含含層(見圖圖 4-99)。輸入入層的每個(gè)個(gè)節(jié)點(diǎn)對(duì)應(yīng)應(yīng)一個(gè)個(gè)的的圖 4-9一個(gè)神神經(jīng)元網(wǎng)絡(luò)絡(luò)預(yù)測(cè)變量量。輸出層層的節(jié)點(diǎn)對(duì)對(duì)應(yīng)目標(biāo)變變量,可有有多個(gè)。在在輸入層和和輸出層之之間是隱含含層(對(duì)神神經(jīng)網(wǎng)絡(luò)使使用者來說說不可見),隱隱含層的層層數(shù)和每層層節(jié)點(diǎn)的個(gè)個(gè)數(shù)決定
39、了了神經(jīng)網(wǎng)絡(luò)絡(luò)的復(fù)雜度度。除了輸入層層的節(jié)點(diǎn),神神經(jīng)網(wǎng)絡(luò)的的每個(gè)節(jié)點(diǎn)點(diǎn)都與很多多它前面的的節(jié)點(diǎn)(稱稱為此節(jié)點(diǎn)點(diǎn)的輸入節(jié)節(jié)點(diǎn))連接接在一起,每每個(gè)連接對(duì)對(duì)應(yīng)一個(gè)權(quán)權(quán)重Wxyy,此節(jié)點(diǎn)點(diǎn)的值就是是通過它所所有輸入節(jié)節(jié)點(diǎn)的值與與對(duì)應(yīng)連接接權(quán)重乘積積的和作為為一個(gè)函數(shù)數(shù)的輸入而而得到的,我我們把這個(gè)個(gè)函數(shù)稱為為活動(dòng)函數(shù)數(shù)或擠壓函函數(shù)。如圖圖 4-110中節(jié)點(diǎn)點(diǎn) 4輸出到到節(jié)點(diǎn) 66的值可通通過如下計(jì)計(jì)算得到。W14 XX節(jié) J點(diǎn)1的值+W224 X節(jié)節(jié)點(diǎn) 2的值圖4-100 權(quán)重計(jì)計(jì)算神經(jīng)網(wǎng)絡(luò)的的每個(gè)節(jié)點(diǎn)點(diǎn)都可表示示成預(yù)測(cè)變變量圖4-10權(quán)重重計(jì)算(節(jié)節(jié)點(diǎn)1,2)的值或或值的組合合(節(jié)點(diǎn)33-6)。注
40、意節(jié)點(diǎn)點(diǎn)6的值已經(jīng)經(jīng)不再是節(jié)節(jié)點(diǎn)1,2的線性組組合,因?yàn)闉閿?shù)據(jù)在隱隱含層中傳傳遞時(shí)使用用了活動(dòng)函函數(shù)。實(shí)際際上如果沒沒有活動(dòng)函函數(shù)的話,神神經(jīng)元網(wǎng)絡(luò)絡(luò)就等價(jià)于于一個(gè)線性性回歸函數(shù)數(shù),如果此此活動(dòng)函數(shù)數(shù)是某種特特定的非線線性函數(shù),那那么神經(jīng)網(wǎng)網(wǎng)絡(luò)又等價(jià)價(jià)于邏輯回回歸。調(diào)整節(jié)點(diǎn)間間連接的權(quán)權(quán)重就是在在建立(也也稱訓(xùn)練)神神經(jīng)網(wǎng)絡(luò)時(shí)時(shí)要做的工工作。最早早的也是最最基本的權(quán)權(quán)重調(diào)整方方法是錯(cuò)誤誤回饋法,現(xiàn)現(xiàn)在較新的的有變化坡坡度法、類類牛頓法、Leveen-beerg-MMarquuardtt法和遺傳傳算法等。無論采用用哪種訓(xùn)練練方法,都都需要有一一些參數(shù)來來控制訓(xùn)練練的過程,如如防止訓(xùn)練練過度和控控
41、制訓(xùn)練的的速度。決定神經(jīng)網(wǎng)網(wǎng)絡(luò)拓?fù)浣Y(jié)結(jié)構(gòu)(或體體系結(jié)構(gòu))的的是隱含層層及其所含含節(jié)點(diǎn)的個(gè)個(gè)數(shù),以及及節(jié)點(diǎn)之間間的連接方方式。要從從頭開始設(shè)設(shè)計(jì)一個(gè)神神經(jīng)網(wǎng)絡(luò),必必須要決定定隱含層和和節(jié)點(diǎn)的數(shù)數(shù)目,活動(dòng)動(dòng)函數(shù)的形形式,以及及對(duì)權(quán)重做做那些限制制等,當(dāng)然然如果采用用成熟軟件件工具的話話,它會(huì)幫幫你決定這這些事情。在諸多類型型的神經(jīng)網(wǎng)網(wǎng)絡(luò)中,最最常用的是是前向傳播播式神經(jīng)網(wǎng)網(wǎng)絡(luò),也就就是如圖 4-100中所描繪繪的那種。為討論方方便假定只只含有一層層隱含節(jié)點(diǎn)點(diǎn)??梢哉J(rèn)為錯(cuò)錯(cuò)誤回饋式式訓(xùn)練法是是變化坡度度法的簡化化,其過程程如下。前向傳播:數(shù)據(jù)從輸輸入到輸出出的過程是是一個(gè)從前前向后的傳傳播過程,后后
42、一節(jié)點(diǎn)的的值通過它它前面相連連的節(jié)點(diǎn)傳傳過來,然然后把值按按照各個(gè)連連接權(quán)重的的大小加權(quán)權(quán)輸入活動(dòng)動(dòng)函數(shù)再得得到新的值值,進(jìn)一步步傳播到下下一個(gè)節(jié)點(diǎn)點(diǎn)?;仞仯寒?dāng)節(jié)節(jié)點(diǎn)的輸出出值與預(yù)期期的值不同同時(shí),也就就是發(fā)生錯(cuò)錯(cuò)誤時(shí),神神經(jīng)網(wǎng)絡(luò)就就要“學(xué)習(xí)習(xí)”(從錯(cuò)錯(cuò)誤中學(xué)習(xí)習(xí))。可以以把節(jié)點(diǎn)間間連接的權(quán)權(quán)重看成后后一節(jié)點(diǎn)對(duì)對(duì)前一節(jié)點(diǎn)點(diǎn)的“信任任”程度(它它自己向下下一節(jié)點(diǎn)的的輸出更容容易它前面面哪個(gè)節(jié)點(diǎn)點(diǎn)輸入的影影響)。學(xué)學(xué)習(xí)的方法法是采用懲懲罰的方法法,過程如如下:如果果一節(jié)點(diǎn)輸輸出發(fā)生錯(cuò)錯(cuò)誤,那么么它看它的的錯(cuò)誤是受受哪個(gè)(些些)輸入節(jié)節(jié)點(diǎn)的影響響而造成的的,是不是是它最信任任的節(jié)點(diǎn)(權(quán)權(quán)重最高的的節(jié)
43、點(diǎn))陸陸害了它(使使它出錯(cuò)),如如果是則要要降低它的的信任值(降降低權(quán)重),懲懲罰它們,同同時(shí)升高那那些做出正正確建議節(jié)節(jié)點(diǎn)的信任任值。對(duì)那那些收到懲懲罰的節(jié)點(diǎn)點(diǎn)來說,它它也需要用用同樣的方方法來進(jìn)一一步懲罰它它前面的節(jié)節(jié)點(diǎn)。就這這樣把懲罰罰一步步向向前傳播直直到輸入節(jié)節(jié)點(diǎn)為止。對(duì)訓(xùn)練集中中的每一條條記錄都要要重復(fù)這個(gè)個(gè)步驟,用用前向傳播播得到輸出出值,如果果發(fā)生錯(cuò)誤誤,則用回回饋法進(jìn)行行學(xué)習(xí)。當(dāng)當(dāng)把訓(xùn)練集集中的每一一條記錄都都運(yùn)行過一一遍之后,稱稱完成一個(gè)個(gè)訓(xùn)練周期期。要完成成神經(jīng)網(wǎng)絡(luò)絡(luò)的訓(xùn)練可可能需要很很多個(gè)訓(xùn)練練周期,經(jīng)經(jīng)常是幾百百個(gè)。訓(xùn)練練完成之后后得到的神神經(jīng)網(wǎng)絡(luò)就就是在通過過訓(xùn)練集
44、發(fā)發(fā)現(xiàn)的模型型,描述了了訓(xùn)練集中中響應(yīng)變量量受預(yù)測(cè)變變量影響的的變化規(guī)律律。決策樹決策樹提供供了一種展展示類似在在什么條件件下會(huì)得到到什么值這這類規(guī)則的的方法。比比如,在貸貸款申請(qǐng)中中,要對(duì)申申請(qǐng)的風(fēng)險(xiǎn)險(xiǎn)大小做出出判斷,圖圖 4-111是為了了解決這個(gè)個(gè)問題而建建立的一棵棵決策樹,從從中我們可可以看到?jīng)Q決策樹的基基本組成部部分:決策策節(jié)點(diǎn)、分分支和葉子子。圖 4-111一棵簡簡單的決策策樹決策樹中最最上面的節(jié)節(jié)點(diǎn)稱為根根節(jié)點(diǎn),是是整個(gè)決策策樹的開始始。本例中中根節(jié)點(diǎn)是是“收入¥400000”,對(duì)此問問題的不同同回答產(chǎn)生生了“是”和“否”兩個(gè)分支支。決策樹的每每個(gè)節(jié)點(diǎn)子子節(jié)點(diǎn)的個(gè)個(gè)數(shù)與決策策樹所
45、用的的算法有關(guān)關(guān)。如 CCART算算法得到的的決策樹每每個(gè)節(jié)點(diǎn)有有兩個(gè)分支支,這種樹樹稱為二叉叉樹。允許許節(jié)點(diǎn)含有有多于兩個(gè)個(gè)子節(jié)點(diǎn)的的樹稱為多多叉樹。每個(gè)分支要要么是一個(gè)個(gè)新的決策策節(jié)點(diǎn),要要么是樹的的結(jié)尾,稱稱為葉子。在沿著決決策樹從上上到下遍歷歷的過程中中,在每個(gè)個(gè)節(jié)點(diǎn)都會(huì)會(huì)遇到一個(gè)個(gè)問題,對(duì)對(duì)每個(gè)節(jié)點(diǎn)點(diǎn)上問題的的不同回答答導(dǎo)致不同同的分支,最最后會(huì)到達(dá)達(dá)一個(gè)葉子子節(jié)點(diǎn)。這這個(gè)過程就就是利用決決策樹進(jìn)行行分類的過過程,利用用幾個(gè)變量量(每個(gè)變變量對(duì)應(yīng)一一個(gè)問題)來來判斷所屬屬的類別(最最后每個(gè)葉葉子會(huì)對(duì)應(yīng)應(yīng)一個(gè)類別別)。假如負(fù)責(zé)借借貸的銀行行官員利用用上面這棵棵決策樹來來決定支持持哪些貸
46、款款和拒絕哪哪些貸款,那那么他就可可以用貸款款申請(qǐng)表來來運(yùn)行這棵棵決策樹,用用決策樹來來判斷風(fēng)險(xiǎn)險(xiǎn)的大小?!澳晔杖肴耄?00000”和“高負(fù)負(fù)債”的用用戶被認(rèn)為為是“高風(fēng)風(fēng)險(xiǎn)”,同同時(shí)“收入入5年”的的申請(qǐng),則則被認(rèn)為“低風(fēng)險(xiǎn)”而建議貸貸款給他/她。數(shù)據(jù)據(jù)挖掘中決決策樹是一一種經(jīng)常要要用到的技技術(shù),可以以用于分析析數(shù)據(jù),同同樣也可以以用來做預(yù)預(yù)測(cè)(就像像上面的銀銀行官員用用它來預(yù)測(cè)測(cè)貸款風(fēng)險(xiǎn)險(xiǎn))。常用用的算法有有 CHAAID、CARTT、Quesst和 C5.0。數(shù)據(jù)挖掘過過程在實(shí)施數(shù)據(jù)據(jù)挖掘之前前,先制定定采取什么么樣的步驟驟,每一步步都做什么么,達(dá)到什什么樣的目目標(biāo)是必要要的,有了了好的
47、計(jì)劃劃才能保證證數(shù)據(jù)挖掘掘有條不紊紊地實(shí)施并并取得成功功。很多軟軟件供應(yīng)商商和數(shù)據(jù)挖挖掘顧問公公司提供了了一些數(shù)據(jù)據(jù)挖掘過程程模型,來來指導(dǎo)他們們的用戶一一步步地進(jìn)進(jìn)行數(shù)據(jù)挖挖掘工作。CRISPP-DM(Crosss Inndusttry SStanddard Proccess for Dataa Minning)是是數(shù)據(jù)挖掘掘界公認(rèn)的的規(guī)范標(biāo)準(zhǔn)準(zhǔn),是由SSPSS、NCR、DaimmlerCChryssler等等世界知名名公司根據(jù)據(jù)其實(shí)際經(jīng)經(jīng)驗(yàn)與理論論基礎(chǔ)共同同設(shè)計(jì)的數(shù)數(shù)據(jù)挖掘流流程。它以以企業(yè)(組組織)所面面臨的問題題為出發(fā)點(diǎn)點(diǎn),以能實(shí)實(shí)際解決企企業(yè)(組織織)的問題題并找出新新的商機(jī)為為終極
48、目標(biāo)標(biāo),所以CCRISPP-DM就就是以數(shù)據(jù)據(jù)為主軸,不不斷地尋找找并有效地地發(fā)掘出隱隱藏模式(Hidden Pattern)以及其內(nèi)涵的整體流程。換言之,如何能在大量數(shù)據(jù)中不斷地尋找出其寶藏即是CRISP-DM的精髓所在,如圖 4-12所示。圖 4-112 CRRISP-DM方法法一個(gè)數(shù)據(jù)挖挖掘項(xiàng)目的的生命周期期包括6個(gè)階段,上上圖顯示了了該流程的的各個(gè)階段段,包括商商業(yè)理解、數(shù)據(jù)理解解、數(shù)據(jù)準(zhǔn)準(zhǔn)備、建立立模型、模模型評(píng)估、模型發(fā)布布,各個(gè)階階段的順序序不是僵硬硬不變的,通通常需要在在不同階段段之間向前前和向后移移動(dòng),這取取決于每個(gè)個(gè)階段的結(jié)結(jié)果和接下下來將要實(shí)實(shí)施的階段段或者一個(gè)個(gè)階段的具
49、具體任務(wù)。箭頭指出出了各個(gè)階階段間最為為重要和頻頻繁的關(guān)聯(lián)聯(lián)。CRIISP-DDM通過這這6個(gè)階段來來保證完成成一個(gè)成功功的數(shù)據(jù)挖挖掘流程。上圖最外面面的循環(huán)表表示數(shù)據(jù)挖挖掘本身的的循環(huán)特征征。數(shù)據(jù)挖挖掘并非是是一旦得到到一個(gè)解決決方案就結(jié)結(jié)束了。在在流程及解解決方案中中得到的教教訓(xùn)可能引引發(fā)新的、常常是更更為集中的的商業(yè)問題題。后面的的數(shù)據(jù)挖掘掘過程將從從前幾次的的經(jīng)驗(yàn)中獲獲益。每個(gè)階段的的要點(diǎn)如下下。 1.商商業(yè)理解(Business understanding)這一初始階階段集中在在從商業(yè)角角度理解項(xiàng)項(xiàng)目的目標(biāo)標(biāo)和要求,然然后把理解解轉(zhuǎn)化為數(shù)數(shù)據(jù)挖掘問問題,并制制定出一個(gè)個(gè)旨在實(shí)現(xiàn)現(xiàn)目標(biāo)
50、的初初步計(jì)劃。2.數(shù)據(jù)理理解(Daata uunderrstanndingg)數(shù)據(jù)理解階階段開始于于原始數(shù)據(jù)據(jù)的搜集,接接下來進(jìn)行行的活動(dòng)是是熟悉數(shù)據(jù)據(jù)、識(shí)別數(shù)數(shù)據(jù)質(zhì)量問問題、探索索對(duì)數(shù)據(jù)的的第一認(rèn)識(shí)識(shí),或挖掘掘有深層含含義的數(shù)據(jù)據(jù)子集來形形成對(duì)隱藏藏信息的假假設(shè)。3.數(shù)據(jù)準(zhǔn)準(zhǔn)備(Daata pprepaaratiion)數(shù)據(jù)準(zhǔn)備階階段包括所所有從原始始未加工的的數(shù)據(jù)構(gòu)造造最終數(shù)據(jù)據(jù)集的活動(dòng)動(dòng)(這些數(shù)數(shù)據(jù)集是指指將要嵌入入建模工具具中的數(shù)據(jù)據(jù))。數(shù)據(jù)據(jù)準(zhǔn)備任務(wù)務(wù)可能實(shí)施施多次,而而且不按任任何規(guī)定的的順.序。這些些任務(wù)包括括表格、記記錄和屬性性選擇以及及對(duì)建模工工具中數(shù)據(jù)據(jù)的轉(zhuǎn)換和和清理。4.
51、建立模模型( MModelling)在此階段,主主要是選擇擇各種建模模技術(shù),同同時(shí)對(duì)它們們的參數(shù)進(jìn)進(jìn)行校準(zhǔn)以以達(dá)到最優(yōu)優(yōu)值。通常常對(duì)于同一一個(gè)數(shù)據(jù)挖挖掘問題類類型,會(huì)有有多種方法法。一些方方法在數(shù)據(jù)據(jù)形式上會(huì)會(huì)有具體的的要求。因因此,常常常必須返回回到數(shù)據(jù)準(zhǔn)準(zhǔn)備階段。5模型評(píng)估估( Evvaluaationn)進(jìn)入項(xiàng)目中中的這個(gè)階階段,你已已經(jīng)建立了了一個(gè)模型型(或者多多個(gè)),從從數(shù)據(jù)分析析的角度來來看,該模模型似乎有有很高的質(zhì)質(zhì)量。在進(jìn)進(jìn)行到模型型的最后發(fā)發(fā)布前,有有一點(diǎn)是很很重要的更為徹徹底地評(píng)估估模型和檢檢查建立模模型的各個(gè)個(gè)步驟,從從而確定它它完全地達(dá)達(dá)到了商業(yè)業(yè)目標(biāo)。一一個(gè)關(guān)鍵目目標(biāo)
52、為決定定是否存在在一些重要要的商業(yè)問問題仍未得得到充分地地考慮。關(guān)關(guān)于數(shù)據(jù)挖挖掘結(jié)果的的使用決定定應(yīng)該在此此階段結(jié)束束時(shí)確定下下來。6.模型發(fā)發(fā)布( DDeplooymennt)模型的創(chuàng)建建通常并不不是項(xiàng)目的的結(jié)尾。即即使模型的的目的是增增加對(duì)數(shù)據(jù)據(jù)的了解,所所獲得的了了解也需要要進(jìn)行組織織并以一種種客戶能夠夠使用的方方式呈現(xiàn)。這常常包包括在一個(gè)個(gè)組織的決決策過程中中應(yīng)用“現(xiàn)現(xiàn)場(chǎng)”模型型,如在網(wǎng)網(wǎng)頁的實(shí)時(shí)時(shí)個(gè)人化中中或營銷數(shù)數(shù)據(jù)的重復(fù)復(fù)得分中。不過,根根據(jù)需要,發(fā)發(fā)布過程可可以簡單到到產(chǎn)生一個(gè)個(gè)報(bào)告,也也可以復(fù)雜雜到在整個(gè)個(gè)企業(yè)中執(zhí)執(zhí)行一個(gè)可可重復(fù)的數(shù)數(shù)據(jù)挖掘過過程。在大大部分情況況下,是由由
53、客戶來實(shí)實(shí)施發(fā)布的的,而非數(shù)數(shù)據(jù)分析師師本身。盡盡管如此,即即使分析師師并不執(zhí)行行發(fā)布,這這對(duì)客戶也也是十分重重要的提前理解解需要采取取什么行動(dòng)動(dòng)來實(shí)際利利用產(chǎn)生的的模型。CRISPP-DM有有效管理商商業(yè)問題處處理的生命命周期。如如上圖所示示,生命周周期的6個(gè)狀態(tài)存存在很強(qiáng)的的相互依賴賴的關(guān)系,其其中任何一一個(gè)環(huán)節(jié)的的質(zhì)量關(guān)系系著所有環(huán)環(huán)節(jié)的成敗敗。6個(gè)環(huán)節(jié)之之間并無嚴(yán)嚴(yán)格的順序序關(guān)系,可可以根據(jù)需需要從任何何環(huán)節(jié)開始始數(shù)據(jù)挖掘掘過程。深刻理解 CRISSP-DMM方法可以以有助于用用戶更好地地解決商業(yè)業(yè)問題。從從提出一個(gè)個(gè)粗糙的商商業(yè)問題,歷歷經(jīng)若干個(gè)個(gè)生命周期期不斷地完完善它,并并提供最
54、佳佳的解決方方案。數(shù)字證書技技術(shù)數(shù)字證書技技術(shù)提供了了互聯(lián)網(wǎng)通通信的一種種安全技術(shù)術(shù)。數(shù)字證書介介紹 數(shù)字證書就就是互聯(lián)網(wǎng)網(wǎng)通信中標(biāo)標(biāo)志通信各各方身份信信息的一系系列數(shù)據(jù),提提供了一種種在Intterneet上驗(yàn)證證用戶身份份的方式,其其作用類似似于司機(jī)的的駕駛執(zhí)照照或日常生生活中的身身份證。它它是由一個(gè)個(gè)由權(quán)威機(jī)機(jī)構(gòu)CCA機(jī)構(gòu),又又稱為證書書授權(quán)(CCertiificaate AAuthoorityy)中心發(fā)發(fā)行的,人人們可以在在網(wǎng)上用它它來識(shí)別對(duì)對(duì)方的身份份。數(shù)字證證書是一個(gè)個(gè)經(jīng)證書授授權(quán)中心數(shù)數(shù)字簽名的的包含公開開密鑰擁有有者信息以以及公開密密鑰的文件件。最簡單單的證書包包含一個(gè)公公開密
55、鑰、名稱以及及證書授權(quán)權(quán)中心的數(shù)數(shù)字簽名。一般情況況下證書中中還包括密密鑰的有效效時(shí)間,發(fā)發(fā)證機(jī)關(guān)(證證書授權(quán)中中心)的名名稱,該證證書的序列列號(hào)等信息息,證書的的格式遵循循ITUTT X.5509國際際標(biāo)準(zhǔn)。一個(gè)標(biāo)準(zhǔn)的的X.5009數(shù)字證證書包含以以下一些內(nèi)內(nèi)容:(1)證書書的序列號(hào)號(hào),每個(gè)證證書都有一一個(gè)惟一的的證書序列列號(hào);(2)證書書所使用的的簽名算法法;(3)證書書的發(fā)行機(jī)機(jī)構(gòu)名稱,命命名規(guī)則一一般采用XX.5000格式;(4)證書書的有效期期,現(xiàn)在通通用的證書書一般采用用UTC時(shí)間間格式,它它的計(jì)時(shí)范范圍為19950-22049;(5)證書書所有人的的名稱,命命名規(guī)則一一般采用XX
56、.5000格式;(6)證書書所有人的的公開密鑰鑰;(7)證書書發(fā)行者對(duì)對(duì)證書的簽簽名。為什么要用用數(shù)字證書書基于因特網(wǎng)網(wǎng)的電子商商務(wù)系統(tǒng)技技術(shù)使在網(wǎng)網(wǎng)上購物的的顧客能夠夠極其方便便輕松地獲獲得商家和和企業(yè)的信信息,但同同時(shí)也增加加了對(duì)某些些敏感或有有價(jià)值的數(shù)數(shù)據(jù)被濫用用的風(fēng)險(xiǎn)。買方和賣賣方對(duì)于在在因特網(wǎng)上上進(jìn)行的一一切金融交交易運(yùn)作必必須是真實(shí)實(shí)可靠的,并并且要使顧顧客、商家家和企業(yè)等等交易各方方都具有絕絕對(duì)的信心心,因而因因特網(wǎng)(因因特網(wǎng))電電子商務(wù)系系統(tǒng)必須保保證具有十十分可靠的的安全保密密技術(shù),也也就是說,必必須保證網(wǎng)網(wǎng)絡(luò)安全的的四大要素素,即信息息傳輸?shù)谋1C苄?、?shù)數(shù)據(jù)交換的的完整性、
57、發(fā)送信息息的不可否否認(rèn)性、交交易者身份份的確定性性。信息的保密密性交易中的商商務(wù)信息均均有保密的的要求。如如信用卡的的賬號(hào)和用用戶名被人人知悉,就就可能被盜盜用,訂貨貨和付款的的信息被競(jìng)競(jìng)爭對(duì)手獲獲悉,就可可能喪失商商機(jī)。因此此在電子商商務(wù)的信息息傳播中一一般均有加加密的要求求。交易者身份份的確定性性 網(wǎng)上交易的的雙方很可可能素昧平平生,相隔隔千里。要要使交易成成功首先要要能確認(rèn)對(duì)對(duì)方的身份份,對(duì)商家家要考慮客客戶端不能能是騙子,而而客戶也會(huì)會(huì)擔(dān)心網(wǎng)上上的商店是是不是一個(gè)個(gè)玩弄欺詐詐的黑店。因此能方方便而可靠靠地確認(rèn)對(duì)對(duì)方身份是是交易的前前提。對(duì)于于為顧客或或用戶開展展服務(wù)的銀銀行、信用用卡公
58、司和和銷售商店店,為了做做到安全、保密、可可靠地開展展服務(wù)活動(dòng)動(dòng),都要進(jìn)進(jìn)行身份認(rèn)認(rèn)證的工作作。對(duì)有關(guān)關(guān)的銷售商商店來說,他他們對(duì)顧客客所用的信信用卡的號(hào)號(hào)碼是不知知道的,商商店只能把把信用卡的的確認(rèn)工作作完全交給給銀行來完完成。銀行行和信用卡卡公司可以以采用各種種保密與識(shí)識(shí)別方法,確確認(rèn)顧客的的身份是否否合法,同同時(shí)還要防防止發(fā)生拒拒付款問題題以及確認(rèn)認(rèn)訂貨和訂訂貨收據(jù)信信息等。不可否認(rèn)性性.由于商商情的千變變?nèi)f化,交交易一旦達(dá)達(dá)成是不能能被否認(rèn)的的,否則必必然會(huì)損害害一方的利利益。例如如訂購黃金金,訂貨時(shí)時(shí)金價(jià)較低低,但收到到訂單后,金金價(jià)上漲了了,如收單單方能否認(rèn)認(rèn)受到訂單單的實(shí)際時(shí)時(shí)間,甚至至否認(rèn)收到到訂單的事事實(shí),則訂訂貨方就會(huì)會(huì)蒙受損失失。因此電電子交易通通信過程的的各個(gè)環(huán)節(jié)節(jié)都必須是是不可否認(rèn)認(rèn)的。不可修改性性交易的文件件是不可被被修改的,如如上例所舉舉的訂購黃黃金。供貨貨單位在收收到訂單后
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 2977-2024載重汽車輪胎規(guī)格、尺寸、氣壓與負(fù)荷
- 2024年度云南省高校教師資格證之高等教育法規(guī)考前練習(xí)題及答案
- 2024-2025學(xué)年河北省保定市高三(上)期中考試物理試卷(含答案)
- 2024年風(fēng)力提水機(jī)組項(xiàng)目投資申請(qǐng)報(bào)告代可行性研究報(bào)告
- 贛南師范大學(xué)《環(huán)境修復(fù)原理與技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 阜陽師范大學(xué)《現(xiàn)代教育技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 阜陽師范大學(xué)《空間解析幾何》2021-2022學(xué)年第一學(xué)期期末試卷
- 阜陽師范大學(xué)《插畫設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)協(xié)和學(xué)院《物流業(yè)務(wù)英語與函電》2021-2022學(xué)年第一學(xué)期期末試卷
- 福建師范大學(xué)《中國民族民間舞》2023-2024學(xué)年第一學(xué)期期末試卷
- 2023國內(nèi)綠氨產(chǎn)業(yè)研究與前景展望-云道資本
- 卡片游戲商業(yè)計(jì)劃書
- (完整word版)北師大版七年級(jí)數(shù)學(xué)上冊(cè)知識(shí)點(diǎn)歸納復(fù)習(xí)提綱
- 預(yù)防犯罪 部編版道德與法治八年級(jí)上冊(cè)
- 讀書分享讀書交流會(huì)《大衛(wèi)科波菲爾》課件
- 工廠垃圾分類管理規(guī)章制度
- 幼兒園小班音樂課件《會(huì)跳舞的跳跳糖》
- 投標(biāo)物資運(yùn)達(dá)砂石施工現(xiàn)場(chǎng)后的保護(hù)措施和要求
- 火龍罐綜合灸療法三新項(xiàng)目匯報(bào)
- 高低壓開關(guān)柜-課件
- 表土剝離相關(guān)匯報(bào)課件
評(píng)論
0/150
提交評(píng)論