




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一講生物信息學(xué)(Bioinformatics)是20世紀(jì)80年代末隨著人類(lèi)基因組計(jì)劃的啟動(dòng)而興起的一門(mén)新型交叉學(xué)科,它體現(xiàn)了生物學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)等學(xué)科間的滲透與融合。生物信息學(xué)通過(guò)對(duì)生物學(xué)實(shí)驗(yàn)數(shù)據(jù)的獲取、加工、存儲(chǔ)、檢索與分析,達(dá)到揭示數(shù)據(jù)所蘊(yùn)含的生物學(xué)意義從而解讀生命活動(dòng)規(guī)律的目的。生物信息學(xué)不僅是一門(mén)學(xué)科,更是一種重要的研究開(kāi)發(fā)平臺(tái)與工具,是今后進(jìn)行幾乎所有生命科學(xué)研究的推手。生物技術(shù)與生物信息學(xué)的區(qū)別及聯(lián)系生物技術(shù)生物信息學(xué)英文名稱(chēng)BiotechnologyBioinformatics最終目的產(chǎn)品研究方法利用生物的特性和功能,設(shè)計(jì)構(gòu)建具有預(yù)期功能的新物質(zhì)或品系對(duì)生物信息進(jìn)行
2、采集、處理、存儲(chǔ)、分析和解釋涉及學(xué)科基因工程、分子生物學(xué)、生物化學(xué)、遺傳學(xué)、細(xì)胞生物學(xué)、胚胎學(xué)、免疫學(xué)等生物學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理學(xué)等發(fā)展歷程可追溯到 2000 B.C.數(shù)十年生物信息學(xué)的發(fā)展歷史 人類(lèi)基因組計(jì)劃(HGP) 人類(lèi)基因組計(jì)劃由美國(guó)科學(xué)家于1985年提出,1990年啟動(dòng)。根據(jù)該計(jì)劃,在2015年要把人體約4萬(wàn)個(gè)基因的密碼全部揭開(kāi),同時(shí)繪制出人類(lèi)基因的譜圖,也就是說(shuō),要揭開(kāi)組成人體4萬(wàn)個(gè)基因的30億個(gè)堿基對(duì)的秘密。HGP與曼哈頓原子彈計(jì)劃和阿波羅計(jì)劃并稱(chēng)為三大科學(xué)計(jì)劃,被譽(yù)為生命科學(xué)的登月計(jì)劃。(百度百科)隨著基因組計(jì)劃的不斷發(fā)展,海量的生物學(xué)數(shù)據(jù)必須通過(guò)生物信息學(xué)的手段進(jìn)行收集
3、、分析和整理后,才能成為有用的信息和知識(shí)。換句話(huà)說(shuō),人類(lèi)基因組計(jì)劃為生物信息學(xué)提供了興盛的契機(jī)。上文所說(shuō)的基因、堿基對(duì)、遺傳密碼子等術(shù)語(yǔ)都是生物信息學(xué)需要著重研究的地方。第二講 回顧細(xì)胞結(jié)構(gòu)細(xì)胞是所有生命形式結(jié)構(gòu)和功能的基本單位細(xì)胞組成細(xì)胞膜 主要由脂類(lèi)和蛋白質(zhì)組成的環(huán)繞在細(xì)胞表面的雙層膜結(jié)構(gòu)細(xì)胞質(zhì) 細(xì)胞膜與細(xì)胞核之間的區(qū)域:包含液體流質(zhì),夾雜物存儲(chǔ)的營(yíng)養(yǎng)、分泌物、天然色素和細(xì)胞器細(xì)胞器 細(xì)胞內(nèi)完成特定功能的結(jié)構(gòu):線(xiàn)粒體、核糖體、高爾基體、溶酶體等細(xì)胞核 最大的細(xì)胞器DNA的結(jié)構(gòu)堿基 (腺嘌呤A、鳥(niǎo)嘌呤G、胞嘧啶C、胸腺嘧啶G)核苷酸核苷酸是構(gòu)成DNA分子的重要模塊。每個(gè)核苷酸分子由一分子稱(chēng)作
4、脫氧核糖的戊糖(五碳糖)、一分子磷酸和一分子堿基構(gòu)成。每種核苷酸都有一個(gè)堿基對(duì),也就是A、T、C、G基因是什么基因是遺傳物質(zhì)的基本單位基因就是核苷酸序列。大部分的基因大約是1000-4000個(gè)核苷酸那么長(zhǎng)?;蛲ㄟ^(guò)控制蛋白質(zhì)的合成,從微觀和宏觀上影響細(xì)胞、組織和器官的產(chǎn)生?;蛟谌旧w上。第四講 數(shù)據(jù)結(jié)構(gòu)及其對(duì)應(yīng)算法數(shù)據(jù)結(jié)構(gòu)的定義數(shù)據(jù)結(jié)構(gòu)探討的是在計(jì)算機(jī)中如何有效地存放數(shù)據(jù),使其可以方便地被處理 二維數(shù)組 鏈表 棧和隊(duì)列第五講 序列比較序列比較的根本任務(wù)是:1. 發(fā)現(xiàn)序列之間的相似性2. 辨別序列之間的差異目的:相似序列 相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性推測(cè)序列之間的進(jìn)化關(guān)系 序列
5、對(duì)比定義:序列對(duì)比(sequence alignment)是運(yùn)用某種特定的數(shù)學(xué)模型或算法,找出兩個(gè)或多個(gè)序列之間的最大匹配堿基或殘基數(shù),比對(duì)的結(jié)果反映了算法在多大程度上提供序列之間的相似性關(guān)系及他們的生物學(xué)特征。編輯距離.AGCACAC-A. A-CACACTA.-Match(a,a)字符匹配-Delete(a,-) 從第一條序列刪除一個(gè)字符,或者在第二條序列相應(yīng)的位置插入空位 -Replace(a,b)以第二條序列中的字符b替換第一條序列中的字符a, a不等于b-Insert(-,b)在第一條序列插入空位符,或者刪除第二條序列中的對(duì)應(yīng)字符b編輯距離,又稱(chēng)Levenshtein距離,是指在對(duì)于
6、兩個(gè)字符串,由其中一個(gè)轉(zhuǎn)換成另一個(gè)所需要的最少編輯次數(shù),該編輯可以是 Replace, Delete,InsertBesting BeatenS1. Replace (s - a )S2. Replace (i - e ) S3. Delete (g - -)S3. Insert(-,g)問(wèn)題:把一個(gè)字符串s1最少經(jīng)過(guò)多少步操作變成字符串s2?相關(guān)算法 遞歸函數(shù)調(diào)用自身,需要有邊界函數(shù)n! = n(n-1)(n-2).1;f(n) = f(n-1)+f(n-2) 動(dòng)態(tài)規(guī)劃 (最長(zhǎng)公共字符子序列)將大問(wèn)題分解為一系列子問(wèn)題,每個(gè)子問(wèn)題的解保存在數(shù)組中用來(lái)求最終解問(wèn)題描述 字符序列的子序列是指從給
7、定字符序列中隨意地(不一定連續(xù))去掉若干個(gè)字符(可能一個(gè)也不去掉)后所形成的字符序列。令給定的字符序列X=“x0,x1,xm-1”,序列Y=“y0,y1,yk-1”是X的子序列,存在X的一個(gè)嚴(yán)格遞增下標(biāo)序列,使得對(duì)所有的j=0,1,k-1,有xij=yj。例如,X=“ABCBDAB”,Y=“BCDB”是X的一個(gè)子序列。最長(zhǎng)公共字符子序列A=“a0,a1,am-1”;B=“b0,b1,bm-1”;Z=“z0,z1,zk-1”為它們的最長(zhǎng)公共子序列,那么關(guān)于A,B,Z應(yīng)該有如下性質(zhì):1) 如果am-1=bn-1,則zk-1=am-1=bn-1,且“z0,z1,zk-2”是“a0,a1,am-2”和
8、“b0,b1,bn-2”的一個(gè)最長(zhǎng)公共子序列; 2) 如果am-1!=bn-1,則若zk-1!=am-1,蘊(yùn)涵“z0,z1,zk-1”是“a0,a1,am-2”和“b0,b1,bn-1”的一個(gè)最長(zhǎng)公共子序列; 3)如果am-1!=bn-1,則若zk-1!=bn-1,蘊(yùn)涵“z0,z1,zk-1”是“a0,a1,am-1”和“b0,b1,bn-2”的一個(gè)最長(zhǎng)公共子序列。 最長(zhǎng)公共字符子序列現(xiàn)有兩個(gè)序列X=x1,x2,x3,.xi,Y=y1,y2,y3,.,yj,設(shè)一個(gè)Ci,j: 保存Xi與Yj的LCS的長(zhǎng)度。第六講編輯距離問(wèn)題算法 if i = 0 且 j = 0,matrix(i, j) = 0
9、 if i = 0 且 j 0,matrix(i, j) = j if i 0 且j = 0,matrix(i, j) = i ifi 1 且j 1 ,matrix(i, j) = min matrix(i-1, j) + 1, matrix(i, j-1) + 1, matrix(i-1, j-1) + f(i, j) ,當(dāng)?shù)谝粋€(gè)字符串的第i個(gè)字符不等于第二個(gè)字符串的第j個(gè)字符時(shí),f(i, j) = 1;否則,f(i, j) = 0。第八講全局序列比對(duì)算法Levenshtein 與 LCS 的異同點(diǎn) Si-1,j-1 + cost(ai,bj) cost = 0 | 1Si,j = minS
10、i-1,j+cost(ai,-) delete (i,-) Si,j-1+cost(-,bj) delete (j,-)算法DemoABBA 01234B 11123B 22112A 32221第九講 生物信息學(xué)的計(jì)算機(jī)、統(tǒng)計(jì)學(xué)及數(shù)學(xué)基礎(chǔ)生物信息學(xué)的定義:生物信息學(xué)是生物學(xué)與計(jì)算機(jī)科學(xué)以及應(yīng)用數(shù)學(xué)等學(xué)科相互交叉而形成的一門(mén)新興學(xué)科。因此,計(jì)算機(jī)技術(shù)將是進(jìn)行生物信息學(xué)研究的重要手段;而數(shù)學(xué)知識(shí)是研究的重要方法。 目前,一般提到的 生物信息學(xué) 是就指這個(gè)狹義的概念,更準(zhǔn)確地說(shuō),應(yīng)該是分子生物信息學(xué)(Molecular Bioinformatics)。 2、動(dòng)態(tài)規(guī)劃方法動(dòng)態(tài)規(guī)劃(Dynamic Pr
11、ogramming)是一種解決多階段決策過(guò)程的最優(yōu)化方法或復(fù)雜空間的優(yōu)化搜索方法動(dòng)態(tài)規(guī)劃解決問(wèn)題的基本過(guò)程是:將一個(gè)問(wèn)題的全局解分解為局部解,逆序遞推求出局部最優(yōu)解,隨著執(zhí)行過(guò)程的推進(jìn),“局部”逐漸接近“全局”,最終獲得全局最優(yōu)解 在生物信息學(xué)中,使用得最多的是反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,簡(jiǎn)稱(chēng)BP網(wǎng))。專(zhuān)家系統(tǒng)專(zhuān)家系統(tǒng)(Expert System)是一種基于知識(shí)的智能系統(tǒng),它將領(lǐng)域?qū)<业慕?jīng)驗(yàn)用一定的知識(shí)表示方法表示出來(lái),并放入知識(shí)庫(kù)中,供推理機(jī)使用 知識(shí)庫(kù)是專(zhuān)家系統(tǒng)的第一重要組成部分,知識(shí)庫(kù)中的知識(shí)通常分為兩類(lèi):1. 一類(lèi)領(lǐng)域的事實(shí)性知識(shí)或
12、廣泛公用的知識(shí)2. 另一類(lèi)是啟發(fā)性知識(shí),是該領(lǐng)域?qū)<以陂L(zhǎng)期研究和實(shí)踐過(guò)程中積累起來(lái)的經(jīng)驗(yàn)總結(jié)知識(shí)獲取方式大致上可以分為兩種:一種是由知識(shí)工程師向領(lǐng)域?qū)<以?xún)問(wèn)有關(guān)知識(shí),經(jīng)過(guò)整理編輯后將知識(shí)轉(zhuǎn)換成計(jì)算機(jī)表示形式,送入知識(shí)庫(kù)另一種是針對(duì)大量數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),分析、總結(jié)和抽取出有用的新知識(shí),這是更高層次的知識(shí)獲取方式。 專(zhuān)家系統(tǒng)的另一個(gè)重要部分是推理機(jī),由它來(lái)控制和協(xié)調(diào)整個(gè)系統(tǒng),并根椐當(dāng)前輸入的數(shù)據(jù)和知識(shí),按一定的推理策略,去解決當(dāng)前的問(wèn)題,推導(dǎo)出結(jié)論。第十講 數(shù)據(jù)挖掘數(shù)據(jù)挖掘(定義)從技術(shù)層面上:數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取有用信息的過(guò)程 從商業(yè)層面上:數(shù)據(jù)挖掘就是一種商業(yè)信息處理技術(shù),通過(guò)對(duì)大量業(yè)
13、務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和建模處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)數(shù)據(jù)挖掘(任務(wù))分類(lèi)分析(Classification)通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類(lèi)別做出準(zhǔn)確的描述或建立分析模型產(chǎn)生分類(lèi)規(guī)則,然后用這個(gè)模型或規(guī)則對(duì)數(shù)據(jù)庫(kù)中的其他記錄進(jìn)行分類(lèi)。已被廣泛應(yīng)用于用戶(hù)行為分析、生物科學(xué)等領(lǐng)域。 聚類(lèi)分析(Clustering)聚類(lèi)和分類(lèi)是兩個(gè)容易混淆的概念。聚類(lèi)是一種無(wú)指導(dǎo)的觀察式學(xué)習(xí),沒(méi)有預(yù)先定義的類(lèi)。而分類(lèi)問(wèn)題是有指導(dǎo)的示例式學(xué)習(xí),預(yù)先定義類(lèi)。分類(lèi)是訓(xùn)練樣本里包含有分類(lèi)屬性值,而聚類(lèi)是要在訓(xùn)練樣本中發(fā)現(xiàn)這些分類(lèi)屬性值。第十一講 動(dòng)態(tài)規(guī)劃矩陣相乘只有當(dāng)矩陣A的列數(shù)與矩陣B的行數(shù)相等時(shí)A
14、B才有意義。一個(gè)mn的矩陣a(m,n)左乘一個(gè)np的矩陣b(n,p),會(huì)得到一個(gè)mp的矩陣c(m,p) 共計(jì)算 2 * 3 * 4 = 24次動(dòng)態(tài)規(guī)劃算法 確定要用動(dòng)態(tài)規(guī)劃算法之后如何去分析問(wèn)題 怎么描述問(wèn)題,要把問(wèn)題描述為交疊的子問(wèn)題 交疊子問(wèn)題的初始條件(邊界條件) 動(dòng)態(tài)規(guī)劃在形式上往往表現(xiàn)為填矩陣的形式回顧編輯距離 或者 LCS算法,以上三點(diǎn)也都在我們的分析中體現(xiàn)背包問(wèn)題背包問(wèn)題簡(jiǎn)述問(wèn)題:如何在不超出背包重量的前提下得到最大價(jià)值?思考解決問(wèn)題的結(jié)構(gòu),尋找最優(yōu)子結(jié)構(gòu)Item a1,a2,a3W: 5,3,2 P : 9,7,8MaxWeight: 5W: 5,3,2P : 9,7,8Max
15、Weight: 5問(wèn)題:一共要計(jì)算多少種可能性?核心算法cim=maxci-1m,ci-1m-wi+pi第十四講 信息可視化技術(shù)背景計(jì)算機(jī)圖形學(xué)的產(chǎn)生和發(fā)展為可視化的誕生奠定基礎(chǔ)1987年正式將可視化分為:數(shù)據(jù)可視化、信息可視化、科學(xué)可視化數(shù)據(jù)可視化將數(shù)據(jù)以圖像的形式呈現(xiàn)出來(lái)數(shù)據(jù)可視化主要旨在借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)之視覺(jué)表現(xiàn)形式的研究;其中,這種數(shù)據(jù)的視覺(jué)表現(xiàn)形式被定義為一種以某種概要形式抽提出來(lái)的信息,包括相應(yīng)信息單位的各種屬性和變量。 數(shù)據(jù)可視化技術(shù)的基本思想是將數(shù)據(jù)庫(kù)中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。 基本概念及構(gòu)成元素 數(shù)據(jù)空間:由n維屬性和m個(gè)元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間 數(shù)據(jù)開(kāi)發(fā):利用一定的算法和工具對(duì)數(shù)據(jù)進(jìn)行定量的推演和計(jì)算 數(shù)據(jù)分析:指對(duì)多維數(shù)據(jù)進(jìn)行切片、塊、旋轉(zhuǎn)等動(dòng)作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù) 數(shù)據(jù)可視化:指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同協(xié)議書(shū)集錦15篇
- 天津?qū)幒涌h圖書(shū)館招聘試題帶答案分析2024年
- 企業(yè)策劃專(zhuān)員崗位說(shuō)明書(shū)
- 福建莆田圖書(shū)館招聘試題帶答案分析2024年
- 圖書(shū)館志愿者活動(dòng)總結(jié)8篇
- 建筑公司市政道路施工質(zhì)量抽檢管理辦法
- 建筑公司浴室用水溫度控制制度
- 建筑公司人員定位系統(tǒng)數(shù)據(jù)更新制度
- 2024年蕪湖鏡湖區(qū)聘用中學(xué)教師招聘真題
- 知難而退避其鋒芒
- 三農(nóng)課件教學(xué)課件
- ca認(rèn)證電子合同協(xié)議
- 店長(zhǎng)入股合伙合同協(xié)議
- 青海西寧事業(yè)單位考試《行測(cè)》模擬題帶答案2023年
- 靜脈治療理論(2025年版)試題及答案
- 吊籃施工安全技術(shù)交底
- 如何培養(yǎng)護(hù)理科研思維
- 醫(yī)院智慧運(yùn)營(yíng)管理平臺(tái)建設(shè)需求
- DB11∕T1130-2024公共建筑節(jié)能運(yùn)行管理與監(jiān)測(cè)技術(shù)規(guī)程
- 河道整治生態(tài)護(hù)岸構(gòu)建
- 2025年中鐵(天津)軌道交通投資建設(shè)限公司運(yùn)營(yíng)管理人員招聘5人自考難、易點(diǎn)模擬試卷(共500題附帶答案詳解)
評(píng)論
0/150
提交評(píng)論