結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議_第1頁
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議_第2頁
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議_第3頁
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議_第4頁
結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議技術(shù)領(lǐng)域結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是一種通信協(xié)議,也是一種讓數(shù)據(jù)成為合格的結(jié)構(gòu)化大數(shù)據(jù)的技術(shù)。結(jié)構(gòu)化大 數(shù)據(jù)通信協(xié)議也類似于ETL,ETL是處理現(xiàn)有的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)的問題,而結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議 是在設(shè)計(jì)信息系統(tǒng)之初就開始預(yù)防數(shù)據(jù)產(chǎn)生問題。ETL是為數(shù)據(jù)治病,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是預(yù)防數(shù)據(jù) 產(chǎn)生疾病。ETL是對(duì)現(xiàn)有技術(shù)所產(chǎn)生的問題進(jìn)行小修小補(bǔ),結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了新的數(shù)據(jù)處理方 案。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議也是一種軟件開發(fā)模式,利用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)都 是大數(shù)據(jù)信息系統(tǒng),只要以鏡像的方式把各大數(shù)據(jù)信息系統(tǒng)中的數(shù)據(jù)上傳到大數(shù)據(jù)中心即可累加成合格的 結(jié)構(gòu)

2、化大數(shù)據(jù)。合格的結(jié)構(gòu)化大數(shù)據(jù)是不經(jīng)ETL轉(zhuǎn)換即可高效挖掘的結(jié)構(gòu)化數(shù)據(jù)。背景技術(shù)隨著大數(shù)據(jù)時(shí)代的到來,人們發(fā)現(xiàn)各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù) 時(shí)代的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難,各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,卻 難以高效挖掘。目前是利用關(guān)系數(shù)據(jù)庫(kù)來解決這些問題,但只能解決局部的問題,不能從根本上解決問題。 結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是針對(duì)這些問題而創(chuàng)立的。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議來源于模仿大腦記憶、聯(lián)想、 思維,始于1982年,那時(shí)想讓計(jì)算機(jī)模仿大腦的聯(lián)想功能。發(fā)明內(nèi)容結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過對(duì)數(shù)據(jù)的優(yōu)化及軟件開發(fā)模式的改變而避免信息孤島問題、互聯(lián)互

3、通問 題、數(shù)據(jù)共享問題產(chǎn)生,并使數(shù)據(jù)容易挖掘。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可使數(shù)據(jù)具有12個(gè)技術(shù)特性:“唯一 性、歸屬性、可識(shí)別性、獨(dú)立性、完整性、規(guī)范性、與系統(tǒng)的耦合性(耦合度為零)、結(jié)構(gòu)統(tǒng)一性、可累 加性、可移植性、時(shí)間性、真實(shí)性”,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才是合格的結(jié)構(gòu)化大數(shù)據(jù)。 發(fā)明所要解決的技術(shù)問題發(fā)明所要解決的技術(shù)問題是大數(shù)據(jù)4V中“數(shù)據(jù)類型多(Variety)”問題及“數(shù)據(jù)速度快(velocity)” 問題。所針對(duì)的具體的技術(shù)問題:各行各業(yè)已有很多信息系統(tǒng),然而信息系統(tǒng)雖多卻不能滿足大數(shù)據(jù)時(shí)代 的需求,信息孤島嚴(yán)重,難以互聯(lián)互通,數(shù)據(jù)共享困難;各行各業(yè)已有很多數(shù)據(jù),然而數(shù)據(jù)雖多,

4、卻難以 高效挖掘。有益效果實(shí)現(xiàn)互聯(lián)互通、數(shù)據(jù)共享容易,查詢速度快,數(shù)據(jù)挖掘容易。具體實(shí)施方式結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的創(chuàng)新表現(xiàn)在如下5個(gè)方面:1、首次提出了結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,只有同時(shí)滿足12個(gè)技術(shù)特性的數(shù)據(jù)才能成為合格的 結(jié)構(gòu)化大數(shù)據(jù)。為使數(shù)據(jù)滿足12個(gè)技術(shù)特性,創(chuàng)立了與12個(gè)技術(shù)特性相對(duì)應(yīng)的12個(gè)數(shù)據(jù)優(yōu)化方法。2、通信的基礎(chǔ)是雙方必須采用同一個(gè)協(xié)議。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所提出的“結(jié)構(gòu)化大數(shù)據(jù)的12個(gè) 技術(shù)特性”就是結(jié)構(gòu)化數(shù)據(jù)互聯(lián)互通的“通信協(xié)議”。3、在結(jié)構(gòu)化大數(shù)據(jù)的每一條數(shù)據(jù)中都增加了體現(xiàn)“數(shù)據(jù)的唯一性”和“數(shù)據(jù)的歸屬性”的數(shù)據(jù)項(xiàng)。 現(xiàn)有數(shù)據(jù)庫(kù)技術(shù)由于都是用于處理小數(shù)據(jù),都沒有考慮

5、這兩個(gè)數(shù)據(jù)項(xiàng)的作用,現(xiàn)有的數(shù)據(jù)中也都沒有這兩 個(gè)數(shù)據(jù)項(xiàng)。這兩個(gè)數(shù)據(jù)項(xiàng)是表明一個(gè)數(shù)據(jù)是不是合格的結(jié)構(gòu)化大數(shù)據(jù)的關(guān)鍵數(shù)據(jù)項(xiàng)。4、特別強(qiáng)調(diào)數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化。因?yàn)榇髷?shù)據(jù)環(huán)境中,標(biāo)準(zhǔn)化、規(guī)范化的數(shù)據(jù)能自動(dòng)模仿大腦的 聯(lián)想功能,從而大幅度提高查詢數(shù)據(jù)的速度和靈活性。關(guān)系數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)不加任何限制,完全由數(shù)據(jù)庫(kù)的 設(shè)計(jì)人員自己定義;結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對(duì)數(shù)據(jù)的限制非常嚴(yán)格,絕對(duì)不充許設(shè)計(jì)人員任意定義數(shù)據(jù), 所有數(shù)據(jù)都必須是規(guī)范的,這也是讓大數(shù)據(jù)容易挖掘的一項(xiàng)重要措施。5、利用結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性為大數(shù)據(jù)的真實(shí)性提供保障。小數(shù)據(jù)只是在某個(gè)單位內(nèi)部使用, 大數(shù)據(jù)是在很多單位之間使用,因此大數(shù)據(jù)的真實(shí)性

6、、公證性、權(quán)威、不可悔改性就顯得非常重要。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在對(duì)數(shù)據(jù)優(yōu)化時(shí)是以“萬能數(shù)據(jù)結(jié)構(gòu)表”(如表一所示)來存貯數(shù)據(jù),“萬能 數(shù)據(jù)結(jié)構(gòu)表”可以用一張表存貯各種各樣的結(jié)構(gòu)化數(shù)據(jù)。表一:萬能數(shù)據(jù)結(jié)構(gòu)表存貯數(shù)據(jù)的例子ID事物代號(hào)事物屬性事物屬性值超長(zhǎng)屬性值單位附件時(shí)間10991280數(shù)據(jù)來源廣州第一醫(yī)院2014.5.311001280事物分類病歷2014.5.311011280事物分類住院病歷2014.5.311021280事物分類醫(yī)療費(fèi)用2014.5.311031280身份證號(hào)XXXXXXXXXX2014.5.311041280住院號(hào)XXXXXXXXXX2014.5.311051280姓名張

7、三2014.5.311061280性別男2014.5.311071280中藥費(fèi)56元2014.5.311081280西藥費(fèi)72元2014.5.311091280其它費(fèi)用180元2014.5.3說明1:合格的結(jié)構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性及12個(gè)數(shù)據(jù)優(yōu)化方法合格的結(jié)構(gòu)化大數(shù)據(jù)具有12個(gè)技術(shù)特性,或者說只有同時(shí)滿足12個(gè)技術(shù)特性的結(jié)構(gòu)化數(shù)據(jù)才是合格 的結(jié)構(gòu)化大數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是使結(jié)構(gòu)化數(shù)據(jù)滿足12個(gè)技術(shù)特性的方法。為使數(shù)據(jù)擁有結(jié) 構(gòu)化大數(shù)據(jù)的12個(gè)技術(shù)特性,結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議提出了 12種相應(yīng)的數(shù)據(jù)優(yōu)化方法。1、數(shù)據(jù)的唯一性數(shù)據(jù)的唯一性:同一事物的各種數(shù)據(jù)在生存周期中,在不同的信息系統(tǒng)

8、中,都應(yīng)該是唯一的、可識(shí)別 的,不能因時(shí)間、空間的變化而變成不可識(shí)別的數(shù)據(jù)。數(shù)據(jù)的唯一性所針對(duì)的問題:當(dāng)前的同一事物的各種數(shù)據(jù)在不同的信息系統(tǒng)中的表達(dá)形式各不相同, 在大數(shù)據(jù)挖掘時(shí)難以準(zhǔn)確地識(shí)別。例如,同一商品,在不同的經(jīng)銷商的信息系統(tǒng)中具有不同的編碼;同一 患者在不同的醫(yī)院就醫(yī)時(shí),患者的住院號(hào)各不相同,在大數(shù)據(jù)環(huán)境中查患者病史時(shí),會(huì)因?yàn)榕c患者相關(guān)的 數(shù)據(jù)沒有一個(gè)統(tǒng)一的標(biāo)識(shí)碼而難以查詢。數(shù)據(jù)優(yōu)化方法一:讓同一事物的所有數(shù)據(jù),在不同的時(shí)間、空間、環(huán)境中,都必須含有一個(gè)(或若干 個(gè))唯一的、統(tǒng)一的大數(shù)據(jù)識(shí)別碼。大數(shù)據(jù)識(shí)別碼是數(shù)據(jù)的身份證、車牌號(hào)。大數(shù)據(jù)識(shí)別碼與關(guān)系數(shù)據(jù)庫(kù) 中的ID有本質(zhì)的差異,ID

9、只是在一張表的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù),大數(shù)據(jù)識(shí)別碼是在大數(shù)據(jù)的范圍內(nèi)標(biāo)識(shí)數(shù)據(jù)。大數(shù)據(jù)范圍:不同的大數(shù)據(jù)所涉及到的范圍不同。在國(guó)際貿(mào)易中,大數(shù)據(jù)范圍是全球,國(guó)家醫(yī)療大數(shù) 據(jù)的大數(shù)據(jù)范圍是醫(yī)療行業(yè),廣州大數(shù)據(jù)的數(shù)據(jù)范圍是廣州市。大數(shù)據(jù)識(shí)別碼可分為兩種,一種是某個(gè)具體事物的識(shí)別碼,猶如設(shè)備的序列號(hào),但與設(shè)備的序列號(hào)有 本質(zhì)的差異,設(shè)備序列號(hào)是企業(yè)自己編寫的,大數(shù)據(jù)識(shí)別碼需要按國(guó)際統(tǒng)一的標(biāo)準(zhǔn)來編碼;另一種是某類 事物的識(shí)別碼。例如,在了解某種型號(hào)的手機(jī)在各個(gè)經(jīng)銷商的銷售情況時(shí),就需要該種型號(hào)手機(jī)的大數(shù)據(jù) 識(shí)別碼,因?yàn)槭謾C(jī)由全世界數(shù)十萬個(gè)經(jīng)銷商銷售,手機(jī)廠家需要與全世界數(shù)十萬信息系統(tǒng)互聯(lián)互通。與人 相關(guān)的數(shù)據(jù)全

10、應(yīng)含有身份證號(hào),以確保在全球范圍內(nèi),在任何時(shí)間段,與某人相關(guān)的數(shù)據(jù)都是唯一的,可 識(shí)別為同一個(gè)人的。大數(shù)據(jù)會(huì)涉及到多個(gè)不同的信息系統(tǒng),而小數(shù)據(jù)只是在同一個(gè)信息系統(tǒng)中生存,因此 在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的唯一性就非常重要,沒有統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的識(shí)別碼會(huì)導(dǎo)致數(shù)據(jù)挖掘非常困 難。數(shù)據(jù)的唯一性是大數(shù)據(jù)挖掘、分析的基礎(chǔ)。大數(shù)據(jù)識(shí)別碼必須使可以方便數(shù)據(jù)分類統(tǒng)計(jì)。2、數(shù)據(jù)的歸屬性數(shù)據(jù)的歸屬性:數(shù)據(jù)不僅要反映事物的各種屬性,也要反映出數(shù)據(jù)是歸誰所有(或者說由誰采集、或 者說從何而來)。數(shù)據(jù)優(yōu)化方法二:每一個(gè)事物的數(shù)據(jù)中都要含有“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)?!皵?shù)據(jù)來源”是結(jié)構(gòu)化數(shù)據(jù)具 有了 “歸屬性”,一般情況下,可用單

11、位名稱來表示“數(shù)據(jù)來源”。大數(shù)據(jù)源于成千上萬家單位,若不標(biāo)明“數(shù)據(jù)來源”,在大數(shù)據(jù)挖掘時(shí)會(huì)引起識(shí)別混亂。3、數(shù)據(jù)的識(shí)別性數(shù)據(jù)的識(shí)別性:是指讓信息系統(tǒng)可識(shí)別,讓人也可識(shí)別。進(jìn)一步而言,不但要讓自己的信息系統(tǒng)識(shí)別, 也要能讓他人的信息系統(tǒng)識(shí)別,不但要讓自己能識(shí)別,也要讓他人能識(shí)別。數(shù)據(jù)的識(shí)別性所針對(duì)的問題:關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)只有數(shù)據(jù)庫(kù)的設(shè)計(jì)人員自己和自己的信息系統(tǒng)可識(shí) 別。其它人、其它信息系統(tǒng)只能通過軟件對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行解釋、注釋、翻譯之后才能識(shí)別。數(shù)據(jù)優(yōu)化方法三:以適當(dāng)?shù)娜哂嗍箶?shù)據(jù)可識(shí)別,盡量用標(biāo)準(zhǔn)的、規(guī)范的自然語言來表達(dá)數(shù)據(jù),盡量避 免用代碼來表達(dá)數(shù)據(jù)。在對(duì)數(shù)據(jù)進(jìn)行優(yōu)化時(shí)的原則是“讓相應(yīng)領(lǐng)

12、域的技術(shù)人員能看懂,讓別人的信息系統(tǒng) 也能識(shí)別,而不能只是數(shù)據(jù)庫(kù)的設(shè)計(jì)人員能看懂,也不只是自己的系統(tǒng)能識(shí)別。”在大數(shù)據(jù)環(huán)境中,數(shù)據(jù)的最重要、最關(guān)鍵的一個(gè)特性就是“數(shù)據(jù)的識(shí)別性”。關(guān)系數(shù)據(jù)庫(kù)的一個(gè)策略 是:盡量減少數(shù)據(jù)冗余。關(guān)系數(shù)據(jù)庫(kù)在降低了數(shù)據(jù)冗余的同時(shí)卻增加了識(shí)別數(shù)據(jù)的難度。結(jié)構(gòu)化大數(shù)據(jù)通 信協(xié)議的策略與關(guān)系數(shù)據(jù)庫(kù)正好相反。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:以適當(dāng)?shù)娜哂喽箶?shù)據(jù)具有可識(shí)別 性,從而使數(shù)據(jù)可以讓他人讀懂,也讓他人的信息系統(tǒng)能識(shí)別。關(guān)系數(shù)據(jù)庫(kù)是一種“數(shù)據(jù)、數(shù)據(jù)結(jié)構(gòu)、程序、數(shù)據(jù)庫(kù)系統(tǒng)四者密不可分的數(shù)據(jù)庫(kù)”。因?yàn)殛P(guān)系數(shù)據(jù)庫(kù) 中的數(shù)據(jù)脫離具體的表結(jié)構(gòu)和程序以后就變成了無意義的數(shù)據(jù),關(guān)系數(shù)據(jù)庫(kù)

13、中的數(shù)據(jù)只有在特定的表中才 具有意義?!叭f能數(shù)據(jù)結(jié)構(gòu)表”是一種“數(shù)據(jù)與程序無關(guān)的數(shù)據(jù)結(jié)構(gòu)”,或者說是一種“是什么就是什么,與程 序無關(guān)”。因?yàn)椤叭f能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)脫離其數(shù)據(jù)結(jié)構(gòu)后,其數(shù)據(jù)的真實(shí)含義不變?!叭f能數(shù)據(jù)結(jié) 構(gòu)表”中的數(shù)據(jù)是用標(biāo)準(zhǔn)的、規(guī)范的自然語言而表達(dá)的,只要懂自然語言,誰都可以看懂“萬能數(shù)據(jù)結(jié)構(gòu) 表”中的數(shù)據(jù)的真實(shí)含義。從表面上看,關(guān)系數(shù)據(jù)庫(kù)減少了數(shù)據(jù)冗余,這是其一大優(yōu)點(diǎn)。然而,這也是關(guān)系數(shù)據(jù)庫(kù)的最大缺點(diǎn)之 一。關(guān)系數(shù)據(jù)庫(kù)在減少了數(shù)據(jù)冗余的同時(shí),也導(dǎo)致了數(shù)據(jù)失真。數(shù)據(jù)失真的結(jié)果就導(dǎo)致了 “信息交換、信 息孤島、數(shù)據(jù)挖掘難”等等問題。在關(guān)系數(shù)據(jù)庫(kù)中,只有通過編寫大量的程序,才能

14、解決數(shù)據(jù)失真問題。 無數(shù)事實(shí)表明,關(guān)系數(shù)據(jù)庫(kù)因數(shù)據(jù)冗余問題而付出了非常高昂的代價(jià)。當(dāng)“數(shù)據(jù)與程序密不可分”時(shí),要 存貯、讀取、查詢數(shù)據(jù)就必須編寫大量的程序。當(dāng)“數(shù)據(jù)與程序無關(guān)時(shí)”,只要編寫一個(gè)通用的程序,其 它人借助這個(gè)程序就可以非常方便地存貯、讀取、查詢數(shù)據(jù),而不必每開發(fā)一個(gè)數(shù)據(jù)庫(kù)都開發(fā)大量的軟件。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的一個(gè)原則:基本上不考慮數(shù)據(jù)冗余問題,以空間換取智能和使用方便,讓數(shù) 據(jù)自己說話,而不是讓程序替數(shù)據(jù)說話。而關(guān)系數(shù)據(jù)則是通過應(yīng)用程序而代替數(shù)據(jù)說話。用數(shù)據(jù)代替程序: 寧愿增加大量的“冗余”,也要使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性。或者說為了使數(shù)據(jù)具有獨(dú)立性、 完整性、可識(shí)別性,

15、不考慮數(shù)據(jù)冗余問題,無論增加多少冗余都可以。在用關(guān)系數(shù)據(jù)庫(kù)設(shè)計(jì)信息系統(tǒng)時(shí), 總是用程序來解讀數(shù)據(jù)庫(kù)中的數(shù)據(jù)。這種策略所帶來的嚴(yán)重惡果就是在處理數(shù)據(jù)時(shí)需要編寫大量的程序, 不編寫程序就無法處理數(shù)據(jù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議的策略:不惜一切代價(jià),讓數(shù)據(jù)自己說話,杜絕用程序當(dāng)翻譯!“讓數(shù)據(jù)自已說話”的目的是:無論把一個(gè)數(shù)據(jù)放到任何地方、任何環(huán)境中都能獨(dú)立地、完整地表 達(dá)出同樣的、完整的含義。在大數(shù)據(jù)時(shí)代,一個(gè)數(shù)據(jù)會(huì)出現(xiàn)在不同的信息系統(tǒng)中,因此,必須確保數(shù)據(jù)在 不同的信息系統(tǒng)中、不同的環(huán)境中都有相同的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議使數(shù)據(jù)具有“獨(dú)立性、完整性、 識(shí)別性、唯一性、歸屬性”的目的就是讓數(shù)據(jù)自己說話,

16、在大數(shù)據(jù)環(huán)境中,這樣可以大幅度地減少編寫程 序的數(shù)量。關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)沒有獨(dú)立性,也沒有完整性,關(guān)系數(shù)據(jù)庫(kù)做不到“讓數(shù)據(jù)自己說話”。關(guān) 系數(shù)據(jù)庫(kù)中的數(shù)據(jù)需要借助各種“關(guān)系”才能表達(dá)出完整的含義。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議可以讓數(shù)據(jù)自己 說話,而關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)需要配備“七大姑八大姨”的“關(guān)系”才能準(zhǔn)確地表達(dá)出相應(yīng)的含義。關(guān)系數(shù)據(jù)庫(kù)的“七大姑八大姨”的“關(guān)系”:數(shù)據(jù)與數(shù)據(jù)庫(kù)系統(tǒng)具有密不可分的關(guān)系,數(shù)據(jù)與表結(jié)構(gòu) 具有密不可分的關(guān)系,數(shù)據(jù)與應(yīng)用程序具有密不可分的關(guān)系,數(shù)據(jù)與數(shù)據(jù)庫(kù)中的眾多表之間具有密不可分 的關(guān)系。關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)必須依靠關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應(yīng)用程序才具有意義。當(dāng) 關(guān)

17、系數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)脫離了相應(yīng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)類型、應(yīng)用程序之后就變成了無 意義的數(shù)據(jù)。當(dāng)前的信息系統(tǒng)所存在的“信息孤島問題、信息交換問題、數(shù)據(jù)接口問題、互聯(lián)互通問題、 系統(tǒng)的升級(jí)換代問題”等等,都是由于關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)不能自己說話而造成的。用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)電子病歷系統(tǒng)時(shí),對(duì)“患者基本情況”會(huì)采用如下形式:表二:患者基本情況表(關(guān)系數(shù)據(jù)庫(kù)中的表)IDHZXMGZDWZBXBZZNLRQHFBXRQMZCSZ26胡鳳橡膠廠工人0蒙古路2號(hào)321991-4-3已1991-4-3漢本人上述形式的數(shù)據(jù)是小數(shù)據(jù)時(shí)代的經(jīng)典結(jié)構(gòu)形式。其實(shí)“字段名”也是很重要的信息,必須用標(biāo)準(zhǔn)的、

18、規(guī)范的自然語言來描述?!盎颊呋厩闆r”經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進(jìn)行優(yōu)化之后,在“萬能數(shù)據(jù)結(jié)構(gòu) 表”中的表達(dá)形式:表三:患者基本情況表(萬能數(shù)據(jù)結(jié)構(gòu)表)ID事物代號(hào)事物屬性事物屬性值超長(zhǎng)屬性值單位附件時(shí)間1001001數(shù)據(jù)來源上海市第一醫(yī)院1011001事物分類病歷1021001事物分類住院病歷1031001事物分類入院病歷1041001事物分類患者基本情況1051001患者編號(hào)SH10-199103Z211061001健康卡號(hào)XXXXXXXXXXXX091071001身份證號(hào)XXXXXXXXXXXXXX1081001姓名胡風(fēng)1091001工作單位上海橡膠廠1101001職別工人1111001性

19、別女1121001住址蒙古路20號(hào)1131001年齡321141001入院日期1991-4-301151001婚否已婚1161001病史采取日期1991-4-301171001民族漢1181001病情陳述者本人通過上述兩張表的對(duì)比發(fā)現(xiàn),用“萬能數(shù)據(jù)結(jié)構(gòu)表”所表達(dá)的信息是一種完全用自然語言所表達(dá)的不 失真的信息,這種信息無論放在什么地方其含義都是一樣的。從表面上看用“萬能數(shù)據(jù)結(jié)構(gòu)表”所存貯的信息會(huì)多占據(jù)一倍左右的存貯空間,但這樣存貯數(shù)據(jù)可以 減少很多復(fù)雜的數(shù)據(jù)抽取、轉(zhuǎn)換工作。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的“數(shù)據(jù)冗余”就是讓“數(shù)據(jù)自己說話”, 讓數(shù)據(jù)不依賴數(shù)據(jù)庫(kù)系統(tǒng)、不依賴數(shù)據(jù)結(jié)構(gòu),不依賴數(shù)據(jù)類型,不依賴

20、應(yīng)用程序。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議 的策略是“以空間換智能及使用方便”。與30年前相比,目前硬盤的存貯容量已提高了 10萬倍以上,多 占據(jù)一倍左右的存貯空間的代價(jià)很低,可以忽略不計(jì)。“讓數(shù)據(jù)自己說話”就是讓數(shù)據(jù)猶如自然語言那樣, 可以準(zhǔn)確、無誤地表達(dá)應(yīng)有的含義,不需要注釋,也不需要應(yīng)用程序的解讀。4、數(shù)據(jù)的獨(dú)立性數(shù)據(jù)的獨(dú)立性:數(shù)據(jù)不依靠數(shù)據(jù)庫(kù)系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表 達(dá)出某種含義。針對(duì)的問題:關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)不具有獨(dú)立性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能解讀數(shù) 據(jù)的含義。關(guān)系數(shù)據(jù)庫(kù)中的很多表的字段名用的是不規(guī)范的字母縮寫,在呈現(xiàn)給用戶時(shí),需要通過信息系 統(tǒng)

21、為表加上表頭才能表達(dá)出數(shù)據(jù)的真正含義。數(shù)據(jù)優(yōu)化方法四:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫(kù)系統(tǒng)、不依靠 數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表達(dá)出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可 實(shí)現(xiàn)數(shù)據(jù)的獨(dú)立性。5、數(shù)據(jù)的完整性數(shù)據(jù)的完整性:數(shù)據(jù)不依靠數(shù)據(jù)庫(kù)系統(tǒng)、不依靠數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而完整地表 達(dá)出某種含義。針對(duì)的問題:關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)不具有完整性,需要借助于注釋、數(shù)據(jù)結(jié)構(gòu)、應(yīng)用程序才能解讀數(shù) 據(jù)完整的含義。數(shù)據(jù)優(yōu)化方法五:通過一定的數(shù)據(jù)冗余而是數(shù)據(jù)可以自己說話,讓“數(shù)據(jù)不依靠數(shù)據(jù)庫(kù)系統(tǒng)、不依靠 數(shù)據(jù)結(jié)構(gòu)、不依靠注釋、不依靠應(yīng)用程序而獨(dú)立地表

22、達(dá)出某種含義”,如上表三所示的萬能數(shù)據(jù)結(jié)構(gòu)表可 實(shí)現(xiàn)數(shù)據(jù)的獨(dú)立性。6、數(shù)據(jù)的規(guī)范性數(shù)據(jù)的規(guī)范性:數(shù)據(jù)應(yīng)為標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的、無歧義的。針對(duì)的問題:當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不規(guī)范導(dǎo)致數(shù)據(jù)挖掘非常困難。數(shù)據(jù)優(yōu)化方法六:應(yīng)在信息系統(tǒng)設(shè)計(jì)、數(shù)據(jù)采集階段就確保數(shù)據(jù)是規(guī)范的。數(shù)據(jù)的規(guī)范性需要建立在“國(guó)標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”的基礎(chǔ)之上,而不 是建立在某個(gè)單位內(nèi)部的數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)范的基礎(chǔ)之上。只有符合“國(guó)標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)、行 業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”的規(guī)范的數(shù)據(jù)才有資格成為合格的結(jié)構(gòu)化大數(shù)據(jù)。當(dāng)前的問題是各家單位的數(shù)據(jù)規(guī)范只是 自己制訂的,各不相同,沒有“國(guó)標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國(guó)家大數(shù)

23、據(jù)標(biāo)準(zhǔn)、行業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”,這是阻礙大數(shù)據(jù) 發(fā)展的一個(gè)大障礙。有了標(biāo)準(zhǔn)、規(guī)范,并按標(biāo)準(zhǔn)、規(guī)范執(zhí)行,那么在對(duì)大數(shù)據(jù)進(jìn)行挖掘時(shí),不再需要丁兀如何體現(xiàn)結(jié)構(gòu)化大數(shù)據(jù)的規(guī)范性:在設(shè)計(jì)信息系統(tǒng)時(shí)就要考慮數(shù)據(jù)的規(guī)范性,在采集、生成數(shù)據(jù)時(shí), 必須嚴(yán)格按照“國(guó)標(biāo)大數(shù)據(jù)標(biāo)準(zhǔn)、國(guó)家大數(shù)據(jù)標(biāo)準(zhǔn)、各行各業(yè)大數(shù)據(jù)標(biāo)準(zhǔn)”輸入數(shù)據(jù)、生成數(shù)據(jù),只有這 樣,信息系統(tǒng)所生成的數(shù)據(jù)才是規(guī)范的數(shù)據(jù)。各行各業(yè)的數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是一項(xiàng)工程量巨大的工程。只有做好這項(xiàng)工作,才能確?!敖Y(jié)構(gòu)化 大數(shù)據(jù)的規(guī)范性”。數(shù)據(jù)的標(biāo)準(zhǔn)化是大數(shù)據(jù)的基礎(chǔ)??梢哉f沒有數(shù)據(jù)的標(biāo)準(zhǔn)化就沒有合格的大數(shù)據(jù)。大數(shù) 據(jù)工程,標(biāo)準(zhǔn)先行。從某一方面而言,由于目前國(guó)際上、國(guó)內(nèi)的各

24、行各業(yè)都未能做好數(shù)據(jù)標(biāo)準(zhǔn)化工作,所 以目前根本就沒有合格的大數(shù)據(jù)!“信息系統(tǒng)名、數(shù)據(jù)庫(kù)名、表名、字段名、數(shù)據(jù)庫(kù)中的數(shù)據(jù)”都要用標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的自然語 言,盡量避免使用不規(guī)范的代碼,這是讓數(shù)據(jù)自然形成“聯(lián)想關(guān)系”的關(guān)鍵,也是實(shí)現(xiàn)萬能查詢的關(guān)鍵。 這也是結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議主張數(shù)據(jù)規(guī)范化的一個(gè)非常重要的原因!在大數(shù)據(jù)環(huán)境中,這種“聯(lián)想關(guān)系” 可為數(shù)據(jù)挖掘帶來極大的便利,可以大幅度地提高查詢數(shù)據(jù)的速度。關(guān)系數(shù)據(jù)庫(kù)理論對(duì)數(shù)據(jù)基本上沒有任何限制,全部由設(shè)計(jì)人員任意定義。這是關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)非 常難以挖掘的一個(gè)根本原因。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議對(duì)數(shù)據(jù)的要求、限制非常嚴(yán)格。嚴(yán)格要求數(shù)據(jù)必須是 標(biāo)準(zhǔn)的、規(guī)

25、范的、統(tǒng)一的,必須滿足12個(gè)技術(shù)特性,每一個(gè)數(shù)據(jù)都必須嚴(yán)格符合國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、 行業(yè)標(biāo)準(zhǔn)。嚴(yán)禁設(shè)計(jì)人員任意私自定義數(shù)據(jù)。數(shù)據(jù)猶如通用機(jī)械地零部件,必須標(biāo)準(zhǔn)化才可以。大數(shù)據(jù)標(biāo)準(zhǔn)涉及到每一個(gè)行業(yè),也涉及到各種各樣的業(yè)務(wù)。大數(shù)據(jù)標(biāo)準(zhǔn)涉及數(shù)據(jù)的標(biāo)準(zhǔn)、數(shù)據(jù)結(jié)構(gòu)的 標(biāo)準(zhǔn)、業(yè)務(wù)的標(biāo)準(zhǔn)、業(yè)務(wù)流程的標(biāo)準(zhǔn)、信息系統(tǒng)標(biāo)準(zhǔn)等。在大數(shù)據(jù)時(shí)代,一定要在信息系統(tǒng)中采用統(tǒng)一的、標(biāo)準(zhǔn)的、規(guī)范的自然言,盡量避免用代碼。這是確 保數(shù)據(jù)獨(dú)立性、數(shù)據(jù)的完整性和數(shù)據(jù)的識(shí)別性,降低數(shù)據(jù)與系統(tǒng)的耦合度的必要措施。7、數(shù)據(jù)與系統(tǒng)的耦合性數(shù)據(jù)與系統(tǒng)的耦合性:數(shù)據(jù)與系統(tǒng)的耦合度越高,數(shù)據(jù)對(duì)系統(tǒng)的依賴程度就越高。當(dāng)數(shù)據(jù)對(duì)系統(tǒng)的依 賴程度比較高時(shí)

26、,數(shù)據(jù)一旦脫離了原有的系統(tǒng)就變成了無意義的數(shù)據(jù)。如果說一個(gè)數(shù)據(jù)不需要任何信息系 統(tǒng)的解讀,用戶就能讀懂,那么該數(shù)據(jù)與信息系統(tǒng)的耦合度為零。針對(duì)的問題:關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與信息系統(tǒng)的耦合度非常高。關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與數(shù)據(jù)庫(kù)系統(tǒng)、 與數(shù)據(jù)結(jié)構(gòu)、與應(yīng)用程序是密不可分的,關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)一旦脫離了原信息系統(tǒng)到了大數(shù)據(jù)環(huán)境中之 后,就變成了無意義的數(shù)據(jù)。數(shù)據(jù)優(yōu)化方法七:必須確保每一個(gè)數(shù)據(jù)與信息系統(tǒng)的耦合度為零。以適當(dāng)?shù)臄?shù)據(jù)冗余而使數(shù)據(jù)具有獨(dú) 立性、完整性、識(shí)別性、規(guī)范性、唯一性、歸屬性,以數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識(shí)別性、數(shù) 據(jù)的規(guī)范性、數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性而確保每一個(gè)數(shù)據(jù)都是與信息系統(tǒng)

27、耦合度為零的數(shù)據(jù)。大數(shù)據(jù)的數(shù)據(jù)來源于成千上萬家單位的系統(tǒng),因此,大數(shù)據(jù)中的數(shù)據(jù)應(yīng)該是與系統(tǒng)的耦合度為零的數(shù) 據(jù),否則就需要編寫很多的應(yīng)用程度來解讀數(shù)據(jù),這會(huì)增加處理數(shù)據(jù)的難度、成本。人們用自然語言所編 寫的各種文章就是相應(yīng)專業(yè)的人員可直接讀懂的,不需要任何的信息系統(tǒng)的解讀,因此,這種數(shù)據(jù)與信息 系統(tǒng)的耦合度為零。在大數(shù)據(jù)中,其數(shù)據(jù)量數(shù)以千億條計(jì),如果其中的每一個(gè)數(shù)據(jù)都與系統(tǒng)都有一定的耦 合度,那么就需要編寫海量的程序才能解讀大數(shù)據(jù)。如果說大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)都是與信息系統(tǒng)的耦合 度為零的數(shù)據(jù),那么在處理大數(shù)據(jù)時(shí),就不必再編寫任何程序?qū)?shù)據(jù)進(jìn)行解讀。關(guān)系數(shù)據(jù)庫(kù)的設(shè)計(jì)者習(xí)慣用代碼來表示各種數(shù)據(jù)。例

28、如,有的設(shè)計(jì)人員用0”代表女性,用“1”代 表男性,而有的設(shè)計(jì)人員用“W”代表女性,用“M”代表男性。面對(duì)成千上萬的信息系統(tǒng)所產(chǎn)生的數(shù)千億 條以上的數(shù)據(jù),這種不標(biāo)準(zhǔn)、不規(guī)范的代碼就會(huì)為大數(shù)據(jù)挖掘帶來巨大災(zāi)難。用關(guān)系數(shù)據(jù)庫(kù)所建立的信息系統(tǒng)之所以會(huì)產(chǎn)生嚴(yán)重的信息孤島問題,一個(gè)重要原因在于關(guān)系數(shù)據(jù)庫(kù)中 的數(shù)據(jù)是不完整的、不獨(dú)立的、難以識(shí)別的。關(guān)系數(shù)據(jù)庫(kù)是用各種“關(guān)系”來表達(dá)各種事物間的關(guān)系。關(guān) 系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)、表結(jié)構(gòu)以及相應(yīng)的應(yīng)用程序密不可分,一旦分開,關(guān)系數(shù)據(jù)庫(kù)中的 數(shù)據(jù)將會(huì)變成無意義的數(shù)據(jù),正是這種“關(guān)系”導(dǎo)致關(guān)系數(shù)據(jù)庫(kù)必然產(chǎn)生“信息孤島”。“萬能數(shù)據(jù)結(jié)構(gòu)表”中的數(shù)據(jù)與數(shù)據(jù)庫(kù)系

29、統(tǒng)、表結(jié)構(gòu)及應(yīng)用程序無關(guān),可以完全脫離數(shù)據(jù)庫(kù)系統(tǒng)、表 結(jié)構(gòu)及應(yīng)用程序而獨(dú)立地存在?!氨硪弧敝械臄?shù)據(jù)是經(jīng)過結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議進(jìn)行優(yōu)化后的數(shù)據(jù),這樣 的數(shù)據(jù)即使脫離表結(jié)構(gòu)也能表達(dá)出原來的含義。大數(shù)據(jù)的原則:盡量避免代碼,盡量用標(biāo)準(zhǔn)的自然語言。判斷數(shù)據(jù)是不是合格的大數(shù)據(jù)的方法:與信息系統(tǒng)耦合度為零的數(shù)據(jù)才有資格成為合格的大數(shù)據(jù)。推論:由于當(dāng)前的關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)全部都是與信息系統(tǒng)密切耦合的數(shù)據(jù),所以當(dāng)前的關(guān)系數(shù)據(jù)庫(kù) 中的數(shù)據(jù)都不是合格的大數(shù)據(jù)。8、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性:合格的結(jié)構(gòu)化大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)必須是統(tǒng)一的。目前只有“萬能數(shù)據(jù)結(jié)構(gòu)表”可 以使數(shù)據(jù)實(shí)現(xiàn)“數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”。針對(duì)的問題:

30、各個(gè)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)各不相同。數(shù)據(jù)優(yōu)化方法八:結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議利用“萬能數(shù)據(jù)結(jié)構(gòu)表”(如下表四所示)來實(shí)現(xiàn)數(shù)據(jù)的“數(shù) 據(jù)結(jié)構(gòu)的統(tǒng)一性”。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議不充許設(shè)計(jì)人員設(shè)計(jì)任何數(shù)據(jù)結(jié)構(gòu),所有結(jié)構(gòu)化數(shù)據(jù)都必須存 貯在一張,或若干張結(jié)構(gòu)完全一樣的、標(biāo)準(zhǔn)的、統(tǒng)一的表中。用關(guān)系數(shù)據(jù)庫(kù)理論做不到數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化。表四:萬能數(shù)據(jù)結(jié)構(gòu)表可實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性ID事物代號(hào)事物屬性事物屬性值超長(zhǎng)屬性值單位附件時(shí)間1001001數(shù)據(jù)來源上海市第一人民醫(yī)院1011001事物分類病歷1021001事物分類住院病歷1031001事物分類入院病歷1041001事物分類患者基本情況1051001患者編號(hào)S

31、H10-19910430Z211061001健康卡號(hào)XXXXXXXXXXXXX091071001身份證號(hào)XXXXXXXXXXXXXXX1081001姓名胡風(fēng)1091001工作單位上海橡膠廠1101001職別工人1111001性別女1121001住址上海市蒙古路20號(hào)1131001年齡321141001入院日期1991/4/301151001婚否已婚1161001病史采取日期1991-4-301171001民族漢1181001病情陳述者本人1000052367數(shù)據(jù)來源廣州動(dòng)物園1000152367事物分類動(dòng)物管理系統(tǒng)1000252367事物分類企鵝1000352367事物分類帝企鵝1000452

32、367事物分類動(dòng)物檔案1000552367大數(shù)據(jù)識(shí)別碼GZQE00031000652367名字漢武帝1000752367購(gòu)入日期2013-3-211000852367身高1.2m1000952367體重20kg1001052367出生日期2011-4-21001152367照片JPG1001252367籠舍編號(hào)0981001352367管理員張三1001452367父GZQE00011001552367母GZQE00021001652367性別雄關(guān)系數(shù)據(jù)庫(kù)的最大問題就是數(shù)據(jù)結(jié)構(gòu)不標(biāo)準(zhǔn)。關(guān)系數(shù)據(jù)庫(kù)理論對(duì)數(shù)據(jù)結(jié)構(gòu)沒有任何限制,完全由設(shè)計(jì) 人員自由定義數(shù)據(jù)結(jié)構(gòu)。數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化是處理大數(shù)據(jù)的基礎(chǔ),數(shù)據(jù)

33、結(jié)構(gòu)不標(biāo)準(zhǔn)會(huì)導(dǎo)致數(shù)據(jù)處理非常困難。9、數(shù)據(jù)的累加性數(shù)據(jù)的累加性:是指“使數(shù)據(jù)可以(猶如圖書那樣)不經(jīng)任何處理即可累加在一起”。針對(duì)的問題:當(dāng)前的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已產(chǎn)生了很多數(shù)據(jù),然而這些數(shù)據(jù)都不能累加成大數(shù)據(jù)。數(shù)據(jù)優(yōu)化方法九:數(shù)據(jù)的累加性可通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的獨(dú)立 性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實(shí)現(xiàn)的,也可以說只有 同時(shí)擁有這些屬性的數(shù)據(jù)才具有累加性。傳統(tǒng)的寫在紙上的信息具有可累加性,圖書館就是眾多圖書之和,檔案館就是眾多檔案之和。數(shù)據(jù)若 具有累加性,那么,廣州市政府各部門的數(shù)據(jù)全部以鏡像方式集中存貯到云平臺(tái)之后就等于建

34、立了廣州市 大數(shù)據(jù),全國(guó)97.8萬家醫(yī)療機(jī)構(gòu)的所有數(shù)據(jù)全部以鏡像的方式上傳到國(guó)家醫(yī)療大數(shù)據(jù)中心就等于建成了 國(guó)家醫(yī)療大數(shù)據(jù)??上У氖?,當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不具有累加性。10、數(shù)據(jù)的移植性數(shù)據(jù)的移植性:“無論把數(shù)據(jù)移植到任何環(huán)境中,數(shù)據(jù)都能保持原有含義不變,能讓各種信息系統(tǒng)識(shí) 別,能讓用戶識(shí)別”,這樣的數(shù)據(jù)才具有移植性。針對(duì)的問題:用關(guān)系數(shù)據(jù)庫(kù)所建立的信息系統(tǒng)難以互聯(lián)互通,即一個(gè)系統(tǒng)中數(shù)據(jù)不能移植到另一個(gè)系 統(tǒng)中。數(shù)據(jù)優(yōu)化方法十:數(shù)據(jù)的移植性是通過“數(shù)據(jù)的唯一性、數(shù)據(jù)的歸屬性、數(shù)據(jù)的識(shí)別性、數(shù)據(jù)的獨(dú)立 性、數(shù)據(jù)的完整性、數(shù)據(jù)的規(guī)范性、數(shù)據(jù)與系統(tǒng)的耦合性、數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一性”來實(shí)現(xiàn)的,也可以說

35、只有 同時(shí)具有這些屬性的數(shù)據(jù)才具有移植性。數(shù)據(jù)的移植性關(guān)系到信息系統(tǒng)的互聯(lián)互通。具有移植性的數(shù)據(jù)才能任意地在各個(gè)系統(tǒng)之間互聯(lián)互通。 數(shù)據(jù)的移植性與數(shù)據(jù)的累加性是一樣的,具有移植性的數(shù)據(jù)也具有累加性,只是數(shù)據(jù)的移植性是用來體現(xiàn) 數(shù)據(jù)是否可以在各個(gè)系統(tǒng)之間互聯(lián)互通,數(shù)據(jù)的累加性指的是能否把眾多的小數(shù)據(jù)累加成大數(shù)據(jù)。11、數(shù)據(jù)的時(shí)間性數(shù)據(jù)的時(shí)間性:大數(shù)據(jù)中的每一個(gè)數(shù)據(jù)都應(yīng)有相應(yīng)的時(shí)間。數(shù)據(jù)優(yōu)化方法十一:為每一個(gè)數(shù)據(jù)增加時(shí)間戳。12、數(shù)據(jù)的真實(shí)性數(shù)據(jù)的真實(shí)性:小數(shù)據(jù)猶如自己記帳而產(chǎn)生的數(shù)據(jù),大數(shù)據(jù)猶如不同單位之間的資金來往而產(chǎn)生的數(shù) 據(jù),因此大數(shù)據(jù)的真實(shí)性就是非常重要的。數(shù)據(jù)優(yōu)化方法十二:必須把數(shù)據(jù)防

36、偽、數(shù)據(jù)防篡改當(dāng)作重要工作,可通過第三方認(rèn)證、第三方公證、 第三方數(shù)據(jù)備案的方法使數(shù)據(jù)的真實(shí)性得到保證。說明2:數(shù)據(jù)的唯一性是實(shí)現(xiàn)“數(shù)據(jù)全球通”的基礎(chǔ)在班、組這樣的小環(huán)境中可以用每個(gè)人的姓名而區(qū)分出每一個(gè)人,然而在全國(guó)范圍內(nèi),由于人數(shù)太多, 重名的很多,因此僅靠姓名就不能準(zhǔn)確無誤地識(shí)別出每一個(gè)人。大數(shù)據(jù)時(shí)代以前的關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)只 是應(yīng)用于某個(gè)機(jī)構(gòu)內(nèi)部,因此各個(gè)數(shù)據(jù)就容易識(shí)別,然而如果把關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)放到大數(shù)據(jù)環(huán)境中, 那么這些數(shù)據(jù)就成了不可識(shí)別的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,有關(guān)人的所有數(shù)據(jù)都必須含有“身份證號(hào)”,這 是為了表明數(shù)據(jù)的唯一性。關(guān)系數(shù)據(jù)庫(kù)用“ID”來表明每張表中的數(shù)據(jù)的唯一性。關(guān)

37、系數(shù)據(jù)庫(kù)所考慮的只是一張表中的數(shù)據(jù)的唯 一性問題,而未考慮大數(shù)據(jù)環(huán)境中的數(shù)據(jù)唯一性問題。例如,在很多醫(yī)療信息系統(tǒng)中,只是用“門診號(hào)”、 “住院號(hào)”來標(biāo)識(shí)患者的信息,而未含有患者的身份證號(hào)。如果要在國(guó)家醫(yī)療大數(shù)據(jù)環(huán)境中查詢某個(gè)患者 的病史數(shù)據(jù),那么,就會(huì)由于患者的數(shù)據(jù)中未含有身份證號(hào)而為查詢?cè)斐煞浅4蟮睦щy,因?yàn)榛颊叩牟∈?數(shù)據(jù)有可能包含在全國(guó)97.8萬家醫(yī)療機(jī)構(gòu)所產(chǎn)生的數(shù)百萬張以上的表中。在大數(shù)據(jù)環(huán)境中,每個(gè)事物的數(shù)據(jù)的“數(shù)據(jù)的唯一性”就是一個(gè)非常重要的問題?!皵?shù)據(jù)的唯一性” 是確保數(shù)據(jù)在大數(shù)據(jù)環(huán)境中具有“數(shù)據(jù)的識(shí)別性”的一個(gè)關(guān)鍵。例如,在生產(chǎn)廠家、經(jīng)銷商的信息系統(tǒng)中, 同一件商品的代號(hào)都必須

38、是全球唯一的、統(tǒng)一的、標(biāo)準(zhǔn)的,這樣才能確保在大數(shù)據(jù)環(huán)境中數(shù)據(jù)是可識(shí)別的。 然而,目前國(guó)際上還未做到這一點(diǎn),各家企業(yè)的信息系統(tǒng)都有自己的編碼方式,各不相同,針對(duì)同一種商 品,不同企業(yè)的編碼是不一樣的,這為數(shù)據(jù)的全球通及大數(shù)據(jù)分析造成了很大的困難。合格的大數(shù)據(jù)應(yīng)該是:在藥店買一盒藥,可以根據(jù)這盒藥上面的唯一的編碼而查詢到這盒藥的整個(gè)生 產(chǎn)、流通環(huán)節(jié)各種相關(guān)情況,是哪個(gè)廠家生產(chǎn)的,何時(shí)生產(chǎn),何時(shí)出廠,中間經(jīng)過了哪幾個(gè)中間商。世界經(jīng)濟(jì)最需要的是“數(shù)據(jù)全球通”,即全球所有企業(yè)的信息系統(tǒng)中的各種數(shù)據(jù)都可以“互聯(lián)互通”, 或者說“全球任何兩個(gè)企業(yè)的信息系統(tǒng)之間都可以及時(shí)地發(fā)送、接收任何商品的數(shù)據(jù)?!碑?dāng)前的實(shí)

39、際情況 是:每家企業(yè)都有獨(dú)有的產(chǎn)品編碼規(guī)則,當(dāng)企業(yè)接到訂單時(shí),還需要手工把訂單數(shù)據(jù)轉(zhuǎn)換為自己的信息系 統(tǒng)可識(shí)別的數(shù)據(jù),然后自己的系統(tǒng)才能處理客戶的訂單數(shù)據(jù),只有極少數(shù)的企業(yè)的信息系統(tǒng)可以直接處理 上游企業(yè)發(fā)來的數(shù)據(jù)。這種“全球數(shù)據(jù)都不通”的現(xiàn)象的根本原因就在于當(dāng)前的數(shù)據(jù)缺乏“數(shù)據(jù)的唯一性”, 沒有國(guó)際統(tǒng)一的、標(biāo)準(zhǔn)的商品編碼標(biāo)準(zhǔn)為“數(shù)據(jù)的唯一性”提供支持。要跟蹤一種商品在世界各地的流通情況,“數(shù)據(jù)的唯一性”是基礎(chǔ)。一種商品的數(shù)據(jù)會(huì)出現(xiàn)在全球數(shù) 百萬個(gè)企業(yè)的信息系統(tǒng)中,只有體現(xiàn)“數(shù)據(jù)的唯一性”的大數(shù)據(jù)識(shí)別碼才能準(zhǔn)確無誤地從數(shù)百萬個(gè)信息系 統(tǒng)中把這種商品的數(shù)據(jù)識(shí)別出來。全球大數(shù)據(jù)統(tǒng)一編碼、解碼(可稱

40、作為大數(shù)據(jù)識(shí)別碼)是大數(shù)據(jù)中的一 項(xiàng)非常重要的工作,也是一項(xiàng)非常復(fù)雜的工作。在國(guó)際貿(mào)易中訂單、商品的全球統(tǒng)一編碼、解碼就非常重 要,這是商品“數(shù)據(jù)全球通”的基礎(chǔ)。對(duì)企業(yè)而言,在大數(shù)據(jù)時(shí)代,訂單、商品數(shù)據(jù)的國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)是全球企業(yè)實(shí)現(xiàn)“數(shù) 據(jù)全球通”的基礎(chǔ)。沒有訂單、商品的標(biāo)準(zhǔn),企業(yè)就不能進(jìn)入到大數(shù)據(jù)時(shí)代。說明3:數(shù)據(jù)的歸屬性是區(qū)分大數(shù)據(jù)與小數(shù)據(jù)的一個(gè)關(guān)鍵如果從關(guān)系數(shù)據(jù)庫(kù)理論的角度來看,增加“數(shù)據(jù)來源”會(huì)使系統(tǒng)中產(chǎn)生大量的冗余數(shù)據(jù)。然而,在大 數(shù)據(jù)時(shí)代,所要處理的數(shù)據(jù)來源于數(shù)百萬個(gè)以上的信息系統(tǒng),因此,就非常有必要說清楚各個(gè)數(shù)據(jù)從何而 來,不然,就無法區(qū)分眾多的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中

41、,“數(shù)據(jù)來源”就是非常關(guān)鍵的數(shù)據(jù),也是必不可少 的。在大數(shù)據(jù)中,為每一個(gè)數(shù)據(jù)都增加“數(shù)據(jù)來源”數(shù)據(jù)項(xiàng)的目的就是讓數(shù)據(jù)無論在哪里都能獨(dú)立地、完 整地表達(dá)出其完整的含義。數(shù)據(jù)如物,人類社會(huì)的各種物都有其主,數(shù)據(jù)也應(yīng)有其主。區(qū)分大數(shù)據(jù)與小數(shù)據(jù)的一個(gè)關(guān)鍵指標(biāo)就是數(shù)據(jù)中是否含有“數(shù)據(jù)來源”。凡是不含有“數(shù)據(jù)來源”的 數(shù)據(jù)都是小數(shù)據(jù),都是不合格的結(jié)構(gòu)化大數(shù)據(jù),這是關(guān)系數(shù)據(jù)庫(kù)高手很難理解的,然而這也是數(shù)據(jù)庫(kù)技術(shù) 人員的思想觀念是否已轉(zhuǎn)到大數(shù)據(jù)時(shí)代的一個(gè)標(biāo)志。大數(shù)據(jù)所面對(duì)的是:數(shù)十萬家以上的單位,數(shù)百萬個(gè) 以上的信息系統(tǒng),數(shù)千萬以上的表,數(shù)萬億以上的數(shù)據(jù)。在大數(shù)據(jù)環(huán)境中,沒有“數(shù)據(jù)來源”就會(huì)引起大 混亂。在大

42、數(shù)據(jù)時(shí)代,有了 “數(shù)據(jù)來源”可以大幅度減少編寫程序代碼的行數(shù),在數(shù)據(jù)交換時(shí)就需要有“數(shù) 據(jù)來源”,數(shù)據(jù)共享時(shí),需要有“數(shù)據(jù)來源”。說明4:數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是實(shí)現(xiàn)萬能查詢的關(guān)鍵結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是在模仿大腦的記憶、聯(lián)想、思維的基礎(chǔ)上而創(chuàng)立的,開始于1982年,當(dāng)時(shí) 是希望計(jì)算機(jī)能模仿人的大腦的聯(lián)想功能(即查詢)。人的大腦在處理數(shù)據(jù)時(shí)所采用的技術(shù)是“超級(jí)高保 真數(shù)據(jù)處理技術(shù)”。“數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化是實(shí)現(xiàn)萬能查詢的關(guān)鍵”,這需要從人的大腦的超級(jí)高保真 數(shù)據(jù)處理技術(shù)的角度來理解。目前人們都是從計(jì)算機(jī)技術(shù)的角度來解讀什么是“數(shù)據(jù)”,實(shí)際上從人的大 腦記憶、聯(lián)想、思維的角度來解讀什么是“數(shù)據(jù)”才是

43、最合適的。人的大腦是大自然界最優(yōu)秀的“計(jì)算機(jī)”。人的大腦中所存貯的才是真正合格的“數(shù)據(jù)”。人的大腦 中的“數(shù)據(jù)”是“超級(jí)高保真數(shù)據(jù)”。人的大腦中的數(shù)據(jù)都是模擬數(shù)據(jù),幾乎是不失真的,是超級(jí)的高保 真數(shù)據(jù),是真正的數(shù)據(jù),能非常真實(shí)地反映自然界的各種事物,是自然界的各種事物的在大腦中的一個(gè)縮 影。人的大腦中的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是以事物的自然屬性而自然地建立起來的自然關(guān)系,可以真實(shí)地 反映到自然界的各種事物之間微妙關(guān)系,這才是大腦具有超強(qiáng)功能的根本。計(jì)算機(jī)中的數(shù)據(jù)是死的,人的大腦中的信息是活的。大腦可以突破時(shí)間、空間,隨時(shí)地激活大腦中的 “各種事物”,回放過去的各種場(chǎng)景。計(jì)算機(jī)也可以放電影,但是計(jì)算

44、機(jī)不能為電影中的各個(gè)事物建立聯(lián) 想關(guān)系。人的大腦可以由一個(gè)場(chǎng)景而聯(lián)想到另一個(gè)場(chǎng)景,計(jì)算機(jī)就不能。大腦在回憶北京的故宮、長(zhǎng)城時(shí), 眨眼間就可回憶起在上海的黃埔,又一眨眼就跑到了貴州黃果樹。大腦可實(shí)現(xiàn)“瞬間數(shù)千年,眨眼九萬里”。 計(jì)算機(jī)中的數(shù)據(jù)與數(shù)據(jù)之間沒有什么關(guān)系,然而任何輸入到人的大腦中的事物的信息,人的大腦都會(huì)自動(dòng) 地與大腦中的相關(guān)事物信息之間形成聯(lián)想關(guān)系,這種聯(lián)想關(guān)系是根據(jù)事物的自然屬性而建立的。人的大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù)主要有四種:1、超級(jí)高保真數(shù)據(jù)采集技術(shù);2、超級(jí)高保真數(shù)據(jù) 存貯及再現(xiàn)技術(shù);3、超級(jí)高保真形成數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系技術(shù)(形成聯(lián)想關(guān)系);4、超級(jí)高保真利用 數(shù)據(jù)之間

45、的關(guān)系技術(shù)(即以聯(lián)想來處理數(shù)據(jù))。用當(dāng)前的技術(shù)可以比較好地模仿大腦的“超級(jí)高保真數(shù)據(jù)采集技術(shù)”及“超級(jí)高保真數(shù)據(jù)存貯及再現(xiàn) 技術(shù)”。然而現(xiàn)有技術(shù)無法全面實(shí)現(xiàn)(甚至說根本無法模仿)大腦的“超級(jí)高保真形成數(shù)據(jù)與數(shù)據(jù)之間的 關(guān)系技術(shù)”和大腦的“超級(jí)高保真數(shù)據(jù)處理技術(shù)”,這兩種技術(shù)才是大腦具有超級(jí)功能的根本。超級(jí)高保真數(shù)據(jù)采集技術(shù):大腦是通過視覺、聽覺、觸覺、嗅覺、味覺、痛覺等感覺器官而采集數(shù)據(jù)。超級(jí)高保真存貯及真實(shí)再現(xiàn)數(shù)據(jù)技術(shù):大腦不但可以以超級(jí)高保真的形式存貯數(shù)據(jù),猶如把自然界的 事物“搬,到了大腦中,而且還可突破時(shí)間、空間使以往的事物隨意再現(xiàn)(聯(lián)想)。大腦中的數(shù)據(jù)是自然 界真實(shí)的具體的事物的縮影

46、。超級(jí)高保真建立數(shù)據(jù)之間的關(guān)系技術(shù):大腦不但可以采集、存貯數(shù)據(jù),更重要的是,大腦可以自動(dòng)地 讓數(shù)據(jù)在大腦中形成相似聯(lián)想、接近聯(lián)想、同時(shí)聯(lián)想關(guān)系。大腦中的數(shù)據(jù)聯(lián)想關(guān)系是根據(jù)事物的自然屬性 而自然地建立的。大腦不只是超級(jí)高保真存貯了數(shù)據(jù),而且還超級(jí)高保真地存貯了數(shù)據(jù)與數(shù)據(jù)之間的自然 關(guān)系。這是現(xiàn)有技術(shù)難以模仿的。超級(jí)高保真利用數(shù)據(jù)之間的關(guān)系技術(shù)(數(shù)據(jù)處理技術(shù)):計(jì)算機(jī)所處理的只是數(shù)字信號(hào),而人的大腦 所處理的全是模擬信號(hào)。大腦以相似聯(lián)想、同時(shí)聯(lián)想、接近聯(lián)想等方式處理超級(jí)高保真的模擬數(shù)據(jù)(即大 腦思維)?,F(xiàn)有技術(shù)根本無法全面模仿這種技術(shù),只能局部模仿。下面用事例比較詳細(xì)地說明“大腦的超級(jí)高保真數(shù)據(jù)處

47、理技術(shù)”。主要說明:自然事物、事物的屬性、 大腦根據(jù)事物的屬性而進(jìn)行聯(lián)想、推理,以及數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)想關(guān)系是根據(jù)事物的自然屬性而建立的。1、“人可以通過聽聲音而判斷出你是在敲鐵塊,還是在敲木頭?!边@是因?yàn)?,在人的大腦的記憶中, 敲鐵塊發(fā)出的聲音已非常自然地與鐵塊聯(lián)系在一起,敲木頭的聲音已非常自然地與木頭自然地聯(lián)系在一 起,這些信息都是人們?cè)谌粘I钪兴邮盏降?。因此,人們可以通過聲音而聯(lián)想到相應(yīng)的事物。計(jì)算機(jī) 也可以存貯音像文件,然而計(jì)算機(jī)不能實(shí)現(xiàn)聲音與圖像之間的自然聯(lián)系,也不能靈活地識(shí)別聲音和圖像。2、“我在手中輕輕地把松花蛋拋起幾次,就可以判斷出這個(gè)松花蛋是不是好的?!边@是因?yàn)楹玫乃?花

48、蛋在手中輕拋時(shí),手掌就會(huì)感到一種輕微的顫動(dòng),而生雞蛋、熟雞蛋就不會(huì)產(chǎn)生顫動(dòng),壞的松花蛋也不 會(huì)產(chǎn)生顫動(dòng)。在我的大腦的記憶中,顫動(dòng)已與松花蛋自然地建立了聯(lián)系。3、“買雞蛋時(shí),把雞蛋拿在手中輕輕地?fù)u一搖就可以判斷出雞蛋的好壞。”壞雞蛋,或者說放時(shí)間 長(zhǎng)的雞蛋,用手輕輕地?fù)u一搖,雞蛋里面的蛋黃、蛋清就會(huì)動(dòng),而好雞蛋中的蛋黃蛋清就不會(huì)動(dòng)。在我的 大腦記憶中,這些有關(guān)雞蛋的信息,已自然地與雞蛋的好壞建立起了聯(lián)系。4、“看見窗外樹在動(dòng),就知道刮風(fēng)了?!比说拇竽X中已存貯了風(fēng)吹樹動(dòng)的信息。5、“看見窗外的樹在動(dòng),就知道那是有人在搖樹?!币?yàn)槿藫u樹與風(fēng)吹樹是不一樣的。風(fēng)吹樹,彳艮 多樹都動(dòng)。人搖樹,只有一棵樹在

49、動(dòng),其它樹不動(dòng)。而且人搖樹引起的樹動(dòng),與風(fēng)吹樹引起的樹動(dòng)是有差 別的。與人的大腦相比,關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)幾乎是百分之百的失真數(shù)據(jù)。關(guān)系數(shù)據(jù)庫(kù)是人為地為數(shù)據(jù)建立 關(guān)系,關(guān)系數(shù)據(jù)庫(kù)理論認(rèn)為這是關(guān)系數(shù)據(jù)庫(kù)的最突出的優(yōu)勢(shì),然而這才是關(guān)系數(shù)據(jù)庫(kù)的最致命的缺陷!因 為,人為地為數(shù)據(jù)建立關(guān)系,破壞了自然界的事物之間本身的自然聯(lián)系。關(guān)系數(shù)據(jù)庫(kù)不能象人的大腦那樣 根據(jù)事物的自然屬性而建立聯(lián)系。關(guān)系數(shù)據(jù)庫(kù)的一個(gè)優(yōu)點(diǎn)是數(shù)據(jù)冗余非常小。然而這也是關(guān)系數(shù)據(jù)庫(kù)的致 命缺陷!因?yàn)殛P(guān)系數(shù)據(jù)庫(kù)在降低了數(shù)據(jù)冗余的同時(shí)也導(dǎo)致數(shù)據(jù)嚴(yán)重失真。嚴(yán)重失真的數(shù)據(jù)就不能根據(jù)事物 的自然屬性而自然地建立關(guān)系。關(guān)系數(shù)據(jù)庫(kù)把數(shù)據(jù)存貯在不同的表中,這

50、樣就割裂了事物與事物之間的自然屬性之間的關(guān)系。關(guān)系數(shù) 據(jù)庫(kù)把同一類事物的數(shù)據(jù)存貯在同一張表中,不同類的事物的數(shù)據(jù)存貯在不同的表中。大腦是根據(jù)事物的 自然屬性而對(duì)事物進(jìn)行分類,事物是不是同一類,由事物的自然屬性決定,擁有相同屬性的事物就是同一 類事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形態(tài)各不相同,大腦是根據(jù)塑料的自然屬性而把它們歸 為一類。對(duì)于塑料杯子、玻璃杯子、鋼杯子,大腦是根據(jù)“杯子”的自然屬性而把它們歸為一類。大腦中 的數(shù)據(jù)都在同一張表中,大腦根據(jù)事物的自然屬性就可以非常靈活地對(duì)各種數(shù)據(jù)進(jìn)行分類?!皵?shù)據(jù)”并不只是一個(gè)代號(hào)、符號(hào),真正的“數(shù)據(jù)”應(yīng)該是自然界的具體事物的縮影。人的大腦可以

51、把敲鐵塊所發(fā)出的聲音自然地與鐵聯(lián)系在一起,關(guān)系數(shù)據(jù)庫(kù)就不能讓“數(shù)據(jù)”實(shí)現(xiàn)這樣的自然聯(lián)系。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議模仿了大腦的超級(jí)高保真數(shù)據(jù)處理技術(shù)。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議就是要堅(jiān)決鏟 除關(guān)系數(shù)據(jù)庫(kù)中的“人為關(guān)系”,讓數(shù)據(jù)獨(dú)立地、自然地根據(jù)事物的自然屬性而建立“自然的關(guān)系”。關(guān) 系數(shù)據(jù)庫(kù)中的關(guān)系是人為建立的,破壞了事物之間的自然關(guān)系。要想使計(jì)算機(jī)接近人的大腦的超級(jí)思維功 能,就必須象大腦那樣使數(shù)據(jù)盡量地少失真,使數(shù)據(jù)能夠根據(jù)事物的自然屬性而建立自然的關(guān)系。也必須 堅(jiān)決地鏟除人為地為數(shù)據(jù)建立的關(guān)系,因?yàn)槿藶榈年P(guān)系肯定會(huì)破壞數(shù)據(jù)與數(shù)據(jù)之間的自然關(guān)系。計(jì)算機(jī)中的“數(shù)據(jù)”的概念非常狹隘?!皵?shù)據(jù)”不應(yīng)該只是“數(shù)

52、字”、“代號(hào)”,而且還應(yīng)該是自然 界的事物的真實(shí)反映,更重要的是也應(yīng)該反映出“數(shù)據(jù)”與“數(shù)據(jù)”之間的自然關(guān)系。計(jì)算機(jī)中的“手機(jī)” 只是數(shù)字,而人的大腦中的“手機(jī)”卻是真實(shí)的“手機(jī)”的真實(shí)的反映,大腦通過視覺、聽覺、觸覺接收 到了海量的有關(guān)“手機(jī)”的各種各樣的信號(hào)。合格的“數(shù)據(jù)”應(yīng)該是失真程度最少的,能夠比較全面地反 映具體的事物,也能真實(shí)反映出事物之間的自然關(guān)系。關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)不能真實(shí)地反映出數(shù)據(jù)與數(shù)據(jù) 之間的自然關(guān)系。數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系絕對(duì)不能人為地建立,而應(yīng)該是由事物本身的自然屬性而自然地 建立關(guān)系。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議是通過一定量的“數(shù)據(jù)冗余”而使數(shù)據(jù)盡量地少失真,使“數(shù)據(jù)”與“數(shù)

53、 據(jù)”之間自然地根據(jù)事物的自然屬性而建立“自然的關(guān)系”?!靶畔⑾到y(tǒng)名、數(shù)據(jù)庫(kù)名、表名、字段名”要用標(biāo)準(zhǔn)化的、統(tǒng)一的、規(guī)范的自然語言,盡量不用代碼, 以便實(shí)現(xiàn)“聯(lián)想”。信息系統(tǒng)的名稱、數(shù)據(jù)庫(kù)的名稱、表名、字段名都是非常重要的事物屬性,都具有重 要含義。關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)的設(shè)計(jì)人員習(xí)慣于用代碼、英文縮寫、漢語拼音縮寫作為數(shù)據(jù)庫(kù)名、表名、字段 名。這就導(dǎo)致普通用戶看不懂關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫(kù)忽視了這種信息,因?yàn)樗幚淼氖切?shù) 據(jù)。在大數(shù)據(jù)環(huán)境中,這些信息就是非常重要的,不能缺省。在結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議中,為了使數(shù)據(jù)具有獨(dú)立性、完整性、可識(shí)別性,在每個(gè)數(shù)據(jù)中都增加了 “信 息系統(tǒng)的名稱、數(shù)據(jù)庫(kù)的

54、名稱、表名”,“信息系統(tǒng)的名稱、數(shù)據(jù)庫(kù)的名稱、表名”實(shí)際上是事物的“分 類”,或者說是事物的屬性。這種做法是關(guān)系數(shù)據(jù)高手所難以理解的、不可思議的,因?yàn)檫@種做法增加了 大量的數(shù)據(jù)冗余。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議在“數(shù)據(jù)冗余”與“數(shù)據(jù)的獨(dú)立性、數(shù)據(jù)的完整性、數(shù)據(jù)的識(shí)別 性、數(shù)據(jù)與系統(tǒng)的耦合度”之間選擇后者。其目的是讓不懂技術(shù)的普通人也能看懂?dāng)?shù)據(jù)的真實(shí)含義。關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)冗余非常少,但其代價(jià)是,不懂技術(shù)的普通人看不懂關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),關(guān)系數(shù) 據(jù)庫(kù)中的數(shù)據(jù)只能存貯在相應(yīng)的數(shù)據(jù)庫(kù)中,一旦脫離了相應(yīng)的數(shù)據(jù)庫(kù)就變成了無意義的數(shù)據(jù)。關(guān)系數(shù)據(jù)庫(kù) 中的數(shù)據(jù)需要通過大量的應(yīng)用程序的翻譯才能讓普通用戶讀懂。如果數(shù)據(jù)庫(kù)中

55、的數(shù)據(jù)都是標(biāo)準(zhǔn)化的、規(guī)范化的,那么,這些數(shù)據(jù)就可以自然地根據(jù)“萬能數(shù)據(jù)結(jié)構(gòu)表” 中的“事物屬性”和“事物屬性值”而自動(dòng)地聯(lián)立起自然的“聯(lián)想”關(guān)系(通過索引而建立)。由于利用 結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議所建立的各種信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)全部存貯在一張,或若干張結(jié)構(gòu)完全一樣的 “萬能數(shù)據(jù)結(jié)構(gòu)表”中,所以可以很容易地編寫出通用的“萬能查詢”工具。例如,如果全國(guó)的各種醫(yī)療 信息系統(tǒng)都是用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而建立的,那么就可以通過患者的身份證號(hào)而方便地從國(guó)家醫(yī)療大 數(shù)據(jù)中心而“聯(lián)想”(查詢)到患者的病史數(shù)據(jù)。因?yàn)榛颊叩牟∈分械拿織l數(shù)據(jù)中都含有身份證號(hào)(大數(shù) 據(jù)識(shí)別碼),通過患者的身份證號(hào)就可以“聯(lián)想”到與患者

56、有關(guān)的所有數(shù)據(jù)。而當(dāng)前的各種醫(yī)療數(shù)據(jù)中不 一定含有患者身份證號(hào),所以從全國(guó)各家醫(yī)院的信息系統(tǒng)中查詢患者的病史數(shù)據(jù)就非常困難。結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議之所以用大量的“數(shù)據(jù)冗余”而使數(shù)據(jù)滿足12個(gè)技術(shù)特性,其根本目的就是 為了使數(shù)據(jù)成為“高保真的數(shù)據(jù)”,“數(shù)據(jù)冗余”彌補(bǔ)了數(shù)據(jù)的失真,只有“高保真的數(shù)據(jù)”才能使信息 系統(tǒng)可以象人的大腦那樣實(shí)現(xiàn)“超級(jí)高保真數(shù)據(jù)處理”。說明5:不必進(jìn)行ETL轉(zhuǎn)換即可高效挖掘并可實(shí)現(xiàn)萬能查詢要對(duì)當(dāng)前的全國(guó)的醫(yī)療數(shù)據(jù)進(jìn)行挖掘?qū)⑹欠浅@щy的,原因在于當(dāng)前的各種信息系統(tǒng)中的數(shù)據(jù)不標(biāo) 準(zhǔn)、不規(guī)范。例如:醫(yī)療行業(yè)有數(shù)百萬張表,數(shù)千億條記錄,各表的結(jié)構(gòu)各不相同。對(duì)如此之多的結(jié)構(gòu)各 不相同

57、的表中的數(shù)據(jù)進(jìn)行挖掘、查詢,需要編寫大量的程序。如果全國(guó)的各家醫(yī)療機(jī)構(gòu)的各種信息系統(tǒng)全 部是按結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而設(shè)計(jì),那么對(duì)這樣的信息系統(tǒng)所產(chǎn)生的數(shù)據(jù)進(jìn)行挖掘、查詢將是很容易的。 因?yàn)檫@些信息系統(tǒng)全都采用“萬能數(shù)據(jù)結(jié)構(gòu)表”,其中的數(shù)據(jù)全是標(biāo)準(zhǔn)的、規(guī)范的、統(tǒng)一的。表五:兩種方法的數(shù)據(jù)挖掘、查詢效果對(duì)比表序 號(hào)對(duì)比內(nèi)容用關(guān)系數(shù)據(jù)庫(kù)而建設(shè)的當(dāng)前的 全國(guó)醫(yī)療的各種信息系統(tǒng)用結(jié)構(gòu)化大數(shù)據(jù)通信協(xié)議而建設(shè) 的全國(guó)醫(yī)療的各種信息系統(tǒng)1表的數(shù)量 及結(jié)構(gòu)數(shù)百萬張以上的表,各表結(jié)構(gòu)各不相同。數(shù)百萬張表,各表的結(jié)構(gòu)完全相 同,全部采用“萬能數(shù)據(jù)結(jié)構(gòu)表”。2數(shù)據(jù)量數(shù)千億條數(shù)千億條3ETL、數(shù)據(jù)挖掘因各家醫(yī)療機(jī)構(gòu)的數(shù)

58、據(jù)全都不標(biāo)準(zhǔn)、不規(guī)范、不 統(tǒng)一,ETL的難度非常高,數(shù)據(jù)挖掘成本非常高。 因性別、癥狀名稱、疾病名稱、藥名各不相同, 不統(tǒng)一,數(shù)據(jù)挖掘、統(tǒng)計(jì)、分析非常困難。在信息系統(tǒng)的設(shè)計(jì)階段,在數(shù)據(jù) 采集階段,在產(chǎn)生數(shù)據(jù)階段,全 部都采用標(biāo)準(zhǔn)的、規(guī)范的、全國(guó) 統(tǒng)一的數(shù)據(jù),不需要ETL就已是 標(biāo)準(zhǔn)的、規(guī)范的、全國(guó)統(tǒng)一的數(shù) 據(jù),數(shù)據(jù)挖掘、統(tǒng)計(jì)、分析非常 容易。4以查詢患者病史為 例要對(duì)全國(guó)的數(shù)百萬張結(jié)構(gòu)各不相同的表進(jìn)行查 詢,需要編寫大量的程序,成本非常高。各醫(yī)療 機(jī)構(gòu)是以住院號(hào)、門診號(hào)作為標(biāo)識(shí)而記錄患者的 各種數(shù)據(jù),而各家醫(yī)院的住院號(hào)、門診號(hào)的編碼 各不相同,相互之間沒有規(guī)律,在全國(guó)范圍內(nèi)查 患者病史數(shù)據(jù)很難

59、。需要先根據(jù)患者的名稱、身 份證號(hào)從全國(guó)97.8萬醫(yī)療機(jī)構(gòu)的信息系統(tǒng)中分 別查詢患者是否有就診記錄,若有還要查相應(yīng)的 住院號(hào)、門診號(hào),然后再根據(jù)住院號(hào)、門診號(hào)而 從各種表中查詢患者的病史數(shù)據(jù)。(注:由于原 來沒有“數(shù)據(jù)的唯一性”、大數(shù)據(jù)識(shí)別碼的概念, 同一患者的醫(yī)療數(shù)據(jù),在不同的醫(yī)療機(jī)構(gòu)的表現(xiàn) 形式各不相同,識(shí)別方式也各不相同,不能保持 “唯一”。)數(shù)據(jù)百萬張表,結(jié)構(gòu)完全相同。 因此,可以通過技術(shù)處理,編寫 一個(gè)通用的查詢工具,使用戶在 查詢數(shù)據(jù)時(shí)猶如查詢一張表中的 內(nèi)容。因?yàn)榕c患者相關(guān)的所有數(shù) 據(jù)中都包含了患者身份證號(hào),因 此只要通過身份證號(hào)即可查詢到 所有數(shù)據(jù)。有了通用的查詢工具 后,查詢

60、的難度及工作量大幅度 減少(即只是查詢一張表中的數(shù) 據(jù))。(注:這也體現(xiàn)出了“數(shù) 據(jù)的唯一性”、大數(shù)據(jù)識(shí)別碼在 大數(shù)據(jù)中強(qiáng)大作用。)5萬能查詢要從數(shù)百萬張結(jié)構(gòu)各不相同的表中查詢數(shù)據(jù),不 能實(shí)現(xiàn)萬能查詢。經(jīng)技術(shù)處理后,猶如只有一張表, 可實(shí)現(xiàn)萬能查詢,只要編寫一個(gè) 通用的軟件工具即可?!按髷?shù)據(jù)的最關(guān)鍵技術(shù)是查詢技術(shù)”:大數(shù)據(jù)的特點(diǎn)是大,正因?yàn)榇?,要想獲得所需數(shù)據(jù)特別困難, 因此,從大數(shù)據(jù)中查詢到所需要的數(shù)據(jù)就是最關(guān)鍵的,然后才是對(duì)查詢到的數(shù)據(jù)的分析、統(tǒng)計(jì)。因此,可 以說“大數(shù)據(jù)就是查詢”,大數(shù)據(jù)的前期工作是為查詢做準(zhǔn)備,大數(shù)據(jù)的后期工作是對(duì)查詢到數(shù)據(jù)進(jìn)行統(tǒng) 計(jì)、分析,大數(shù)據(jù)的各種工作都是以查詢?yōu)?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論