計算機科學導論 課件 第3章 數(shù)據(jù)思維_第1頁
計算機科學導論 課件 第3章 數(shù)據(jù)思維_第2頁
計算機科學導論 課件 第3章 數(shù)據(jù)思維_第3頁
計算機科學導論 課件 第3章 數(shù)據(jù)思維_第4頁
計算機科學導論 課件 第3章 數(shù)據(jù)思維_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第3章數(shù)據(jù)思維

數(shù)據(jù)的組織數(shù)據(jù)的管理02

數(shù)據(jù)的價值0301本章目錄01數(shù)據(jù)的組織數(shù)據(jù)的組織011、數(shù)據(jù)的邏輯結構數(shù)據(jù)的組織012、數(shù)據(jù)的存儲結構數(shù)據(jù)在內存中存放有兩種形態(tài):一是存放數(shù)據(jù)的內存單元地址是相鄰的,二是存放數(shù)據(jù)的內存單元地址不相鄰。因此,當數(shù)據(jù)元素存放在地址連續(xù)的存儲單元中,其數(shù)據(jù)之間的邏輯關系和存儲關系是一致的,這樣的存儲結構稱為順序存儲結構。當數(shù)據(jù)元素存放在任意的存儲單元中,這組存儲單元可以是連續(xù)的或不連續(xù)的,數(shù)據(jù)元素的存儲關系并不能反映其邏輯關系,通常使用地址指針來表示數(shù)據(jù)與數(shù)據(jù)之間的關系,這種存儲結構稱為鏈式存儲結構。此外,數(shù)據(jù)的存儲結構還有索引存儲結構和散列(Hash)存儲結構,這兩種存儲結構并不是一種“全新”的存儲結構,而是在前兩種存儲結構的基礎上擴展定義出的存儲結構。數(shù)據(jù)的組織013、數(shù)據(jù)結構定義數(shù)據(jù)是計算機處理符號的總稱,數(shù)據(jù)是由數(shù)據(jù)元素構成的,數(shù)據(jù)元素之間存在關系,數(shù)據(jù)的存儲需要根據(jù)內存的特點選擇適當?shù)姆绞竭M行存儲,由此,數(shù)據(jù)結構DS可用一個三元組描述為:DS=(E,R,M)其中,E表示數(shù)據(jù)元素的集合,R表示數(shù)據(jù)元素之間關系的集合,M表示存儲數(shù)據(jù)元素的存儲單元的集合。數(shù)據(jù)的組織01線性表數(shù)據(jù)的組織01樹(1)度。一個結點的子樹個數(shù)稱為此結點的度,樹中所有結點的度的最大值稱為樹的度。(2)樹的高度。樹中的結點有層次之分,從根結點開始定義,根結點的層次為1,根的直接后繼的層次為2,依次類推,樹中所有結點的層次的最大值稱為樹的高度,亦稱深度。(3)葉子結點和分支結點。根據(jù)結點的度,樹中的結點可以分為兩類,一類是度為0的結點稱為葉子結點或終端結點;一類是度不為0的結點稱為分支結點或非終端結點。(4)雙親結點、孩子結點和兄弟結點。一個結點的直接前驅稱為該結點的雙親結點。一個結點的直接后繼稱為該結點的孩子結點。同一雙親結點的孩子結點之間互稱兄弟結點。(5)祖先結點和子孫結點。從根結點到某一個結點的路徑上的所有結點稱為該結點的祖先結點,以某結點為根的子樹中的任一結點都稱為該結點的子孫結點。樹是指在n(n≥0)個結點構成的有限集合T中,當n=0時,稱為空樹;當n>0時,稱為非空樹,且滿足如下條件:(1)樹有一個稱為根(Root)的結點,即根結點,該結點沒有直接前驅,但有零個或多個直接后繼。(2)除根結點之外的其余n-1個結點可以劃分成m(m≥0)個互不相交的有限集T1,T2,T3,...,Tm,其中子集Ti又是一棵樹,稱為根結點的子樹。數(shù)據(jù)的組織01樹在一棵樹中,如果各子樹之間是有先后次序的,則稱為有序樹,否則稱為無序樹。二叉樹(BinaryTree)是一棵除葉子結點外,每個結點至多只有兩棵子樹的有序樹,即結點的度都不大于2。與此同時,二叉樹的這兩棵子樹有左右之分,其次序不能任意顛倒,位于左邊的子樹稱為左子樹,位于右邊的子樹稱為右子樹。數(shù)據(jù)的組織01圖圖由頂點和頂點之間的邊的集合組成,設V為圖G頂點的非空有限集合,圖G中每一條邊的兩個頂點互為鄰接點,E是圖G邊的有限集合,則圖G可形式化描述為:G=<V,E>若圖中的每條邊沒有方向,則稱該圖為無向圖,無向圖中的邊均為頂點的無序對。若圖中的每條邊是有方向的,則稱該圖是有向圖,有向圖中的邊也稱為弧,是由兩個頂點構成的有序對02數(shù)據(jù)的管理02數(shù)據(jù)的管理一、數(shù)據(jù)庫系統(tǒng)DBMS管理數(shù)據(jù)庫的一種系統(tǒng)軟件DBA完成某一功能的應用程序1應用程序2應用程序nDBAP1DBAP2DBAPn相互有關聯(lián)關系的表形式數(shù)據(jù)的集合數(shù)據(jù)庫//DatabaseDBMS如何支持用戶操縱數(shù)據(jù)庫?數(shù)據(jù)庫(DB):Database數(shù)據(jù)庫管理系統(tǒng)(DBMS):DatabaseManagementSystem數(shù)據(jù)庫應用(DBAP):DataBaseApplication數(shù)據(jù)庫管理員(DBA):DataBaseAdministrator計算機軟硬件02數(shù)據(jù)的管理二、數(shù)據(jù)模型數(shù)據(jù)模型是一組嚴格定義的概念集合,是對現(xiàn)實世界中的事物特征、聯(lián)系和行為的抽象。數(shù)據(jù)模型精確地描述了系統(tǒng)的數(shù)據(jù)結構、數(shù)據(jù)操作和數(shù)據(jù)完整性約束條件。02數(shù)據(jù)的管理概念數(shù)據(jù)模型簡稱概念模型,是對現(xiàn)實世界的第一層抽象,用戶和數(shù)據(jù)庫設計人員之間進行交流的工具。概念模型是整個數(shù)據(jù)模型的基礎,側重于對客觀世界復雜事物的結構及它們內在聯(lián)系的描述,與具體的計算機平臺和數(shù)據(jù)庫管理系統(tǒng)無關的。目前常用概念模型是實體-聯(lián)系模型(Entity-RelationshipModel,E-R模型)課程學生選修學號姓名年齡性別系別課程號學分課程名成績mn用矩形表示實體型;用橢圓表示屬性;用菱形表示聯(lián)系,并標示出聯(lián)系的類型02數(shù)據(jù)的管理邏輯數(shù)據(jù)模型簡稱邏輯模型,是客觀世界的抽象描述到信息世界的轉換。邏輯模型直接與DBMS有關,概念模型只有在轉換成邏輯模型后才能在數(shù)據(jù)庫中得以表示。目前成熟的邏輯模型有層次模型(HierarchicalModel)、網狀模型(NetworkModel)、關系模型(RelationalModel)以及面向對象模型(ObjectOrientedModel)。02數(shù)據(jù)的管理物理數(shù)據(jù)模型簡稱物理模型,是面向計算機物理表示的模型,是信息世界模型在機器世界的實現(xiàn),即將信息世界的實體及其聯(lián)系抽象為便于計算機存儲的二進制格式。物理模型給出了數(shù)據(jù)模型在計算機上真正的物理結構的表示。02數(shù)據(jù)的管理三、關系數(shù)據(jù)庫市場上常見的關系數(shù)據(jù)庫產品包括Oracle、SQLServer、MySQL、DB2等關系數(shù)據(jù)庫按照結構化的方法存儲數(shù)據(jù),每個數(shù)據(jù)表的結構都事先定義好(比如表的名稱、字段名稱、字段類型、約束等),然后根據(jù)表的結構,數(shù)據(jù)以行和列的方式進行存儲,讀取和查詢都十分方便,可靠性和穩(wěn)定性都比較高02數(shù)據(jù)的管理02數(shù)據(jù)的管理基本動作對基本動作的抽象【并】操作

【差】操作

【積】操作

【選擇】操作

【投影】操作

解釋這種組合,并按次序調用基本動作予以執(zhí)行程序執(zhí)行機構程序指令基本動作SelectSnameFromStudent,SCWhereStudent.S#=SC.S#andSC.C#=‘001’OrderByScoreDESC;

Sname(student.s#=sc.s#(StudentSC))關系模型基本運算關系模型基本運算的各種組合SQL語言數(shù)據(jù)庫管理系統(tǒng)復雜動作=基本動作的各種方式的組合02數(shù)據(jù)的管理02數(shù)據(jù)的管理關系數(shù)據(jù)庫(按行存儲數(shù)據(jù),按列按類型區(qū)分)第一種NoSQL數(shù)據(jù)庫(按“屬性名:屬性值”對存儲數(shù)據(jù),均為字符串數(shù)據(jù))第二種NoSQL數(shù)據(jù)庫(按文檔存儲數(shù)據(jù),一行是一個文檔)第二種NoSQL數(shù)據(jù)庫(按文檔存儲數(shù)據(jù),一行是一個文檔,文檔中還可能嵌入文檔)與關系數(shù)據(jù)庫相比,最大的優(yōu)點:(1)可擴展性—可隨時增加新屬性列和減少屬性列,而無須改變以前存儲的數(shù)據(jù)。(2)無需事先定義模式,可直接操縱數(shù)據(jù)(3)并行/分布處理—可適應大規(guī)模并行/分布計算。【NoSQL】“不僅是SQL,而不是NO-to-SQL”,不僅能管理結構化數(shù)據(jù),而且能管理半結構化甚至非結構化數(shù)據(jù)的數(shù)據(jù)庫。為處理大數(shù)據(jù),多數(shù)都采用分布式存儲技術<標記>文本</標記>“標記”:“文本”02數(shù)據(jù)的管理抽象理論設計理論支持設計:設計正確性、完備性判定方法先抽象再設計:從管理一個具體的表,到可管理所有的表抽象:區(qū)分并命名表的每一個形式要素理論:數(shù)學化邏輯嚴密化各種概念;設計:語言/實現(xiàn)/系統(tǒng)理論指導下的抽象:抽象更為嚴密E.F.Codd,基于對“表(Table)”的理解:

提出了“關系”及關系模型,提出了關系數(shù)據(jù)庫理論開創(chuàng)了數(shù)據(jù)庫的時代,當前普遍應用的數(shù)據(jù)庫管理系統(tǒng)的奠基者獲得了計算機領域最高獎“圖靈獎”03數(shù)據(jù)的價值03數(shù)據(jù)的價值1、大數(shù)據(jù)的概念大數(shù)據(jù)由巨型數(shù)據(jù)集組成,這些數(shù)據(jù)集的大小常超出人們在可接受時間內的收集、應用、管理和處理能力。大數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型多樣(Variety)、處理速度快(Velocity)和價值密度低(Value)的特點。03數(shù)據(jù)的價值2、思維轉變由于數(shù)據(jù)已經具備了資本的屬性,可以用來創(chuàng)造經濟價值,因此,大數(shù)據(jù)時代思維方式也在發(fā)生轉變。維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中明確指出,大數(shù)據(jù)時代最大的轉變就是思維方式的3種轉變,即全樣而非抽樣、效率而非精確、相關而非因果。03數(shù)據(jù)的價值3、大數(shù)據(jù)的應用03數(shù)據(jù)的價值4、數(shù)據(jù)挖掘數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn),它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出知識。03數(shù)據(jù)的價值數(shù)據(jù)對超市經營有無幫助呢?客戶購買習慣商品組合方式及策略……營銷策略價格策略貨源組織03數(shù)據(jù)的價值數(shù)據(jù)挖掘之關聯(lián)規(guī)則挖掘商品的關聯(lián)規(guī)則“尿布”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論