版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
生物信息學第一章:生物信息學的概念及其發(fā)展歷史第一節(jié):生物信息學的發(fā)展歷史1.目前,絕大多數(shù)的核酸和蛋白質(zhì)數(shù)據(jù)庫由美國、歐洲和日本的三家數(shù)據(jù)庫產(chǎn)生,共同組成GenBank/EMBC/DDBJ國際核酸序列數(shù)據(jù)庫,每天交換數(shù)據(jù)同步更新。2.我國目前的情況:
北京大學于1997年3月成立了生物信息學中心;中國科學院上海生命科學研究院于2000年3月成立了生物信息學中心。分別維護國內(nèi)兩個專業(yè)水平較高的生物信息學網(wǎng)站第二節(jié):生物信息學的研究領域
生物信息學的研究對象為生物數(shù)據(jù),研究方向著重于“序列—結構—功能—應用”這個方向的功能和應用部分。
其中涉及到的研究領域有:
1.分子生物學和細胞生物學
2.生物物理學
3.腦和神經(jīng)科學
4.醫(yī)藥學
5.農(nóng)林牧漁學
6.分子和生態(tài)進化第三節(jié):生物信息學的主要應用一:生物信息學數(shù)據(jù)庫
比較著名的與生物相關數(shù)據(jù)庫有:NCBI、EMBL、KEGG等(一)數(shù)據(jù)庫建設
目前應用較多的有Oracle、MySQL、PostgreSQL等數(shù)據(jù)庫,相關網(wǎng)址大家可從網(wǎng)上查閱。(二)數(shù)據(jù)庫整合和數(shù)據(jù)挖掘二:序列比對(一)序列比對
生物信息學最基本的操作對象是核酸序列和氨基酸序列
1955年桑格完成第一個蛋白質(zhì)—牛胰島素的測序;1977年他領導研究小組完成測定第一個噬菌體φX174全基因組核苷酸序列。
利用散彈法測序被全世界迅速利用,即將完整的DNA鏈打散為成千上萬條600-800個核苷酸的DNA片段,這些DNA片段兩端相互重疊,只有按照正確的次序才可以得到完整的序列。
比較序列的目的是發(fā)現(xiàn)相似的序列,得到保守的區(qū)域,他們可能有結構、功能或進化上的關系。閑雜可利用BLAST或FASTA算法等尋找他們的同源序列。(二)基因序列的注釋
隨著測序工作的開展,全基因組的自動注釋需求迫切。
自動尋找基因和調(diào)控元件的工作通常包括的步驟有:翻譯起始點和終止點的確定,潛在的閱讀框、剪切位點的識別,基因結構的構建,各種反式和順式調(diào)控原件的識別等。三:測序和拼接
目前的DNA自動測序儀只能測出遠少于待測序列長度的結果,需要將DNA序列打成小片段才可以測出來。對于生物的全基因組測序,目前由兩種方法:
1.將全基因組打斷成大的DNA序列,后將大片段再打小,反復幾次得到小片段
2.全基因組鳥槍法,一次就將全基因組打斷成可以直接測序的小片段,對拼接技術要求很高。四:基因預測
以現(xiàn)在的技術手段,通過實驗方法將數(shù)以億計的堿基序列中大多數(shù)基因鑒定出來。五:生物進化與系統(tǒng)發(fā)育分析
不同生物種類間差異,可以最終理解為核酸序列的差異,分子系統(tǒng)發(fā)育分析是研究核酸序列與蛋白質(zhì)序列的發(fā)育問題。
在具體分析時,會選擇某段核內(nèi)核酸序列等進行多個生物種類相關序列的同源性分析,查明這些種類的親緣關系及進化程度,構建進化樹。六:蛋白質(zhì)結構預測
目前測定特定性質(zhì)蛋白質(zhì)結構的手段主要依靠X射線晶體衍射與核磁共振。這兩種方法只能測定特定性質(zhì)蛋白質(zhì)結構,跟不上核酸測定的速度。七:RNA結構預測
RNA序列分析比DNA序列分析和蛋白質(zhì)序列分析要難,其中原因之一是RNA的二級結構保守性更多,RNA的結構決定RNA正常功能。八:分子設計與藥物設計
先導藥物的產(chǎn)生是一系列新藥問世過程重要環(huán)節(jié),生物信息學可在先導藥物結構的產(chǎn)生和優(yōu)化、新藥結構的衍生階段發(fā)揮作用。九:代謝網(wǎng)絡分析
生命活動對內(nèi)外刺激因子的響應、生物系統(tǒng)的調(diào)節(jié)都是通過蛋白質(zhì)表達出來,故在體內(nèi)大部分調(diào)控過程以基因表達為基礎。
在一定基礎上,可以將整個代謝過程在計算機完成模擬。十:生物芯片
生物芯片的核心原理是通過與探針的特異性結合或雜交檢出目標生物大分子。目前面臨著生物實際的生理條件和實驗條件有差異而結果不理想這些缺陷。十一:DNA計算
即通過DNA計算數(shù)學方法解決一些復雜數(shù)學問題。(四)蛋白質(zhì)結構預測
蛋白質(zhì)的一級結構決定其高級結構,高級結構又決定他的生物學功能,目標是通過氨基酸序列來預測蛋白質(zhì)的三維空間結構。在醫(yī)藥工業(yè)上特別突出(藥物設計、設計各種特殊用途的酶)。(五)蛋白質(zhì)與蛋白質(zhì)的相互作用
蛋白質(zhì)間相互作用涉及蛋白質(zhì)分子間的聯(lián)系,這種聯(lián)系與生化反應、信號轉(zhuǎn)導、各種網(wǎng)絡有關系。
生物學實驗很多,比如免疫共沉淀法、熒光掃描共振能量轉(zhuǎn)移、雙分子熒光互補技術。(六)生物系統(tǒng)模擬(七)代謝網(wǎng)絡建模分析
代謝網(wǎng)絡設計生化反應途徑、基因調(diào)控和信號轉(zhuǎn)到過程(蛋白質(zhì)的相互作用)(八)計算生物學(九)生物多樣性研究(十)合成生物學補充內(nèi)容:人類基因組計劃一:目標與意義
人類基因組計劃提出的目標包括:1.鑒定人類基因組中約3萬個基因;2.測定人類基因組約30億個堿基序列;3.建立生物信息數(shù)據(jù)庫;4.提高測序及生物信息分析技術;5.各機構企業(yè)間技術合作;6.研究此計劃帶來的倫理、法律、社會問題二:資助
美國政府資助約30億美元實施人類基因組計劃,真正用于分析人類基因組全序列的錢占很小份額,很多錢花在尋找便宜快速的測序技術上。三:研究機構
從某種意義來看,人類基因組計劃可以分為兩部分:1.美國的國家計劃2.世界范圍內(nèi)項目(6個國家受官方承認參與了人類基因組計劃:美國、英國、日本、德國、法國、中國),人類基因組測序任務主要由國際人類基因組測序協(xié)作組(IHGSC)執(zhí)行,主要包括上述6國家20個研究機構。四:研究方法
DNA序列測定是人類基因組計劃中最基本任務,在探索有效的測序方法時,先將有關方法應用到其他生物基因組測序,再將成功方法運用到人類基因組。
釀酒酵母基因組第一個被測序真核生物,12100000個堿基對;線蟲基因組第一個被測序動物基因組,97000000個堿基對。
基因組測序概觀:選擇生物→從細胞中分離基因組DNA→把基因組DNA切割成合適的可相互重疊的DNA片段→把DNA片段插入載體中大量克隆→測出每個DNA片段的序列→根據(jù)片段間重疊,把序列組裝成最終基因組序列
根據(jù)基因組切割成的片段大小,將全基因組測序分為兩種測序:“基因圖譜”和shotgun(鳥槍法)國際人類基因組測序協(xié)作組采取“基因圖譜”,步驟:全基因組分級成大片段→大片段分為小片段→小片段單向測序→計算機拼接。
基因圖譜分為遺傳圖譜和物理圖譜:
遺傳圖譜:顯示基因等標記在基因組中相對距離和次序的圖。
物理圖譜:顯示DNA標記在基因組中準確位置的圖。
不論哪種測序技術,都要經(jīng)過測序與拼接兩個階段:測序一般采用“末端終止法”,通過測序反應獲取分別終止在A/T/C/G的DNA片段,根據(jù)重疊情況去組合大片段。五:目前結果
人類基因組計劃于2003年提前結束,原本預測人類有約3萬個基因,后來證據(jù)證實只有2萬個—2.5萬個基因。例一:用“末端終止法”對DNA序列ACCTGA測序
提示:末端終止法原理重在終止核苷酸(雙脫氧堿基)的終止
補充:此題利用到核酸電泳(補充如下)
關于生物技術書籍,如果想深入了解,推薦教材《現(xiàn)代生化技術》科學出版社第三版郭勇編電泳儀電泳儀電泳結果回到例一:解:現(xiàn)場講(p52)例二:一段DNA序列用兩組不同的切割位點切開,形成兩組DNA小片段,第一組為(1)TTGGGT(2)TCAATC(3)AACG(4)TACCG(5)ACTG第二組為(1)CGTA(2)TGGGTAA(3)ACTGTCA(4)CCG(5)ATCT請拼接出原來的DNA序列提示:通過依次對比拼接第二章:生物學數(shù)據(jù)庫及其檢索第一節(jié):生物學數(shù)據(jù)庫簡介一:什么是數(shù)據(jù)庫
數(shù)據(jù)庫是一類用于存儲和管理數(shù)據(jù)的計算機文檔,是統(tǒng)一管理的相關數(shù)據(jù)集合,其儲存形式有利于數(shù)據(jù)信息的檢索和調(diào)用。
數(shù)據(jù)庫的每一條記錄(record)也可以稱之為條目(entry),包含了多個描述某一類的數(shù)據(jù)特性或?qū)傩缘淖侄危╢ield)如基因名、來源物種、序列的創(chuàng)建日期等,這也是數(shù)據(jù)結構化的基礎。值(value)則是指每個記錄中某個字段的具體內(nèi)容。二:數(shù)據(jù)庫的類型
截至目前,數(shù)據(jù)庫使用了4種不用的數(shù)據(jù)庫結構:平面文件、關系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫和基于Internet平臺的XML。
最早的數(shù)據(jù)庫是以平面文件格式(flatfileformat)保存的,將多個記錄以特殊約定的分隔符進行區(qū)分,數(shù)據(jù)庫形成一個很長的文本文件,這樣的數(shù)據(jù)庫很難檢索。
后來發(fā)展為包含能夠幫助尋找數(shù)據(jù)記錄隱含關系的計算機操作指令的數(shù)據(jù)庫管理系統(tǒng)(databasemanagementsystem),這樣的系統(tǒng)分為關系型數(shù)據(jù)管理系統(tǒng)和對象型數(shù)據(jù)管理系統(tǒng)。三:生物學數(shù)據(jù)庫
2003年人類基因組計劃(HGP)完成了,隨之以后人類基因組序列以及其他生物的基因組序列也相繼完成。
生物學數(shù)據(jù)庫的類型多種多樣,根據(jù)存放數(shù)據(jù)類型的不同,可以分為序列(GenBank),(三維)結構(PDB),文獻(NCBI的PubMed),序列特征(PROSITE,Pfam),基因組圖譜(MapViewer、Ensembl),表達譜等。
根據(jù)數(shù)據(jù)庫儲存的具體內(nèi)容可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫,一級用戶針對性更強的專用數(shù)據(jù)庫。(一)一級數(shù)據(jù)庫和二級數(shù)據(jù)庫
一級數(shù)據(jù)庫:屬于檔案數(shù)據(jù)庫,庫中主要內(nèi)容來源于實驗室操作原始數(shù)據(jù)結果及一些基本說明。
例:核酸序列數(shù)據(jù)庫GenBank、EMBL、DDBJ及蛋白質(zhì)結構數(shù)據(jù)庫PDB。
二級數(shù)據(jù)庫:一級數(shù)據(jù)庫信息基礎上進行了計算加工處理并增加了人為注釋。
例:NCBI的RefSeq其mRNA序列是綜合了GenBank中來源于同一物種相同基因的所有mRNA序列信息一致性序列。即其不是通過實驗確定的。
專業(yè)數(shù)據(jù)庫則是滿足不同生物學研究團體對待特定類型信息的需求,比如果蠅、線蟲、擬南芥等基因研究組的數(shù)據(jù)庫。(二)如何查找與研究相關的生物學資源1.利用公共搜索引擎
如利用NationalCenterforBiotechnologyInformation簡稱NCBI查詢資源2.了解重要生物信息學門戶站點3.利用NucleicAcidResearch雜志每年的數(shù)據(jù)庫專輯/網(wǎng)絡服務器專輯
NucleicAcidResearch(《核酸研究》簡稱NAR)是分子生物學研究的權威雜志
其中NAR數(shù)據(jù)庫分類中舉幾例大類的數(shù)據(jù)庫有:
核酸序列數(shù)據(jù)庫;RNA序列數(shù)據(jù)庫;結構數(shù)據(jù)庫;基因組數(shù)據(jù)庫;代謝與信號數(shù)據(jù)庫;人類與疾病等。四:重要的生物信息站點(一)NCBI—美國國家生物技術信息中心
主要任務是創(chuàng)建公共可接入數(shù)據(jù)庫,引導咋計算生物學及基因組數(shù)據(jù)分析方面的軟件開發(fā),同時發(fā)布各類生物醫(yī)學信息。
NCBI的數(shù)據(jù)資源主要包括數(shù)據(jù)庫、分析工具、數(shù)據(jù)提交、教育四個部分(二)EBI—歐洲生物信息研究所(三)EMBnet—歐洲分子生物學信息網(wǎng)絡
由多個位于歐洲及歐洲以外的成員國節(jié)點和專業(yè)節(jié)點組成。第二節(jié):生物學數(shù)據(jù)庫的內(nèi)容與結構一:數(shù)據(jù)庫儲存基礎
獲取信息需要控制兩個方面:1.數(shù)據(jù)被編譯為字節(jié)的方式—數(shù)據(jù)格式
2.運用哪些程序能夠編碼和解碼這些數(shù)據(jù)二:生物信息學的平面文件格式—FlatFile
FlatFile格式中的數(shù)據(jù)常被結構化為一組數(shù)據(jù)Entry(記錄/條目)
每行開頭為一個由兩個字符組成的字段標識符,用來區(qū)分這個Entry的不同部分與他們各自的意義;接下來的若干行提供Entry的另外一些信息。
FlatFile可由Perl例程進行分析。三:序列格式
數(shù)據(jù)庫中包含有大量的蛋白質(zhì)及核酸序列的詳細描述,在文本格式中堿基序列和氨基酸序列都用一個字母來表示。但他們需要通過特定的共用算法表達出來。四:生物信息學中的XML格式
可擴展標記語言XML是一種在文本文件中組織數(shù)據(jù)的語言,一個XML文件代表一個嵌套的信息樹。五:關系型數(shù)據(jù)庫
關系型數(shù)據(jù)庫是由根據(jù)特定的關系模型組織的一系列數(shù)據(jù),基本組成單位是表:一組行每行代表一個Entry;每行包括相同數(shù)量的列,每列代表Entry的一個屬性具特定的數(shù)據(jù)類型。第三節(jié):生物學數(shù)據(jù)庫的檢索一:NCBI的Entrez系統(tǒng)二:EBI的SRS系統(tǒng)第三章:序列比對原理蛋白質(zhì)序列或核酸序列比對是常見方式,通過查詢序列與整個數(shù)據(jù)庫所有序列進行比對,確定查詢序列的生物學基礎第一節(jié):序列比對相關概念一:序列比對目的及定義(一)序列比對目的
通過比較兩條或多條序列之間是否具有足夠相似性,判定他們之間是否具有同源性。在進行多個序列的比對中,找出序列中具有保守生物學功能的共同基序,還可以找出新測定序列中可能有幫助的基序。(二)序列比對的定義
序列比對(sequencealignment)就是運用某種特定的數(shù)學模型或算法,找出兩個或多個序列之間最大匹配堿基或殘基數(shù),比對的結果反映了算法在多大程度上提供序列之間的相似性及他們的生物學特征。
序列比對也可以用來尋找保守基序。二:序列比對類型(一)序列比對分類
生物分子序列比對主要用于發(fā)現(xiàn)潛在的同源序列,為查詢序列功能及三維結構做基礎。可以分為雙序列比對和多序列比對。雙序列比對又可以分為全局比對和局部比對。(二)編輯距離
現(xiàn)在希望比對兩條序列:AGCACACA以及ACACACTA。
引入字符編輯操作概念描述兩條序列之間的關系。(-代表空位)
Match(a,a):字符匹配
Delete(a,-):從第一條序列刪除一個字符,第二條序列插入相應空位。
Replace(a,b):以第二條序列中字符b替換第一條序列字符a
Insert(-,b):第一條序列插入空位字符,或刪除第二條序列對應字符b(三)雙序列比對
雙序列比對即對兩條序列進行編輯操作,使其編輯距離盡可能小,使更多的字符匹配。有以下計分規(guī)則:
(1)兩條序列s和t的比對得分等于將s轉(zhuǎn)化為t的所有編輯操作的得分總和
(2)s和t的最優(yōu)比對是所有可能的比對中得分最高的一個比對
(3)s和t的最小編輯距離應該是在得分函數(shù)p值最優(yōu)時的舉例
進行序列比對的目的是尋找一個得分最高的比對得分:p(a,a)=1p(a,b)=0p(a,-)=p(-,b)=-1(四)全局序列比對
計算方法同雙序列比對類似,優(yōu)勢在于對具有高度同源性的序列進行優(yōu)化。(五)局部序列比對
局部序列比對適合于那些在全長中具有局部小同源片段的序列比較,一般適用于特定序列位點,結構域以及其他類型重復序列的搜索。三:序列比對的相關概念(一)同源性、同一性、相似性
相似性:兩序列之間直接的數(shù)量關系,如部分相同等。
同一性:兩序列在同一位點核苷酸或氨基酸殘基完全相同的序列比例。
同源性:指從某個共同祖先經(jīng)趨異進化而形成的不同序列,也就是從一些數(shù)據(jù)推斷出兩個基因在進化上具有共同祖先的結論,是質(zhì)的判斷。(二)直系同源,旁系同源
直系同源基因:指在不同物種具有相同功能的同源基因(物種形成時形成)
旁系同源基因:指一個物種內(nèi)的同源基因。
一般而言,一個物種的基因組中,兩個基因或可讀框在各自全長60%以上范圍內(nèi),同一性不少于30%時稱為同源基因。第二節(jié)序列比對打分方法一:序列比對打分目的
序列比對目的是揭示核苷酸或氨基酸序列編碼的高級結構或功能信息,通過打分評判一個優(yōu)劣標準。
不同類型的字符替換,其代價和得分差別很大,尤其對于蛋白質(zhì)序列。因此保守序列(序列相近)的蛋白質(zhì)替換更可能維持蛋白質(zhì)的功能。
由此引出打分矩陣概念,是序列比對的基礎。二:打分矩陣
序列比對中,只考慮殘基的同一性,故兩個序列相比較時,只有0或1兩種得分(稀疏矩陣),這樣有很大的局限性。由此引出相似性打分矩陣的概念。
相似性打分,是基于遠距離進化過程中的殘基替換率,并用不同的打分值表征不同殘基之間的相似程度。(一)DNA打分矩陣
DNA序列中存在不同的堿基替換,其中有顛換(嘌呤嘧啶互換)和轉(zhuǎn)換(嘌呤和嘧啶內(nèi)部變換),則存在如下的打分矩陣:ACGTA0.990.0020.0060.002C0.0020.990.0060.002G0.0060.0020.990.002T0.0020.0060.0020.99(二)氨基酸序列打分矩陣
20種氨基酸之間的替換遠比核苷酸要復雜。首先將其劃分為相似組,再進行下一步的劃分。
于后一頁補充氨基酸的縮寫符號(三字/單字)
第一組:C
第二組:S、T、P、A、G
第三組:N、D、E、Q
第四組:H、R、K
第五組:M、I、L、V
第六組:F、Y、W
其中常用的打分矩陣有PAM矩陣與BLOSUM矩陣,這里不做詳述名稱三字縮寫單字縮寫名稱三字縮寫單字縮寫丙氨酸AlaA亮氨酸LeuL精氨酸ArgR賴氨酸LysK天冬氨酸AspD甲硫氨酸MetM半胱氨酸CysC苯丙氨酸PheF谷氨酰胺GlnQ脯氨酸ProP谷氨酸GluE絲氨酸SerS組氨酸HisH蘇氨酸ThrT異亮氨酸IleI色氨酸TrpW甘氨酸GlyG酪氨酸TyrY天冬酰胺AsnN纈氨酸ValV三:空位罰分
將兩個序列進行比對時,通過引入空位表示插入和刪除。在比對時引入的空位越多,意味著功能或結構的改變。
通常的評分系統(tǒng)是空位罰分,即每插入一個空位,在總分值中減去一定分值。
包括:空位起始罰分+空位延伸罰分
空位起始罰分:某一序列中插入一個空位;延伸罰分:在插入的空位后繼續(xù)插入空位罰分的舉例:C---TTAACTCGGATCA--T(一)線性空位罰分
最簡單的方式,僅考慮起始空位罰分(設為-4),連續(xù)空位罰分不計數(shù)。
則上題罰分=8(二)仿射空位罰分
考慮進線性空位罰分的計算:
引入函數(shù)g(k)=a+b×k
設a=-4;b=-3,則一共為23分(a起始,b連續(xù))第三節(jié)序列比對算法
序列比對算法:在眾多序列比對結果中獲取合適的序列比對結果。其中有dotplot算法;動態(tài)規(guī)劃算法;BLAST算法。此節(jié)只著重介紹BLAST算法。一:dotplot算法
通過點陣作圖的方法,很直觀的看出兩條序列的相關性。
獲得相似性片段為相同片段,不能提供相似片段在統(tǒng)計學意義上相似性。二:動態(tài)規(guī)劃算法
分為全局動態(tài)規(guī)劃算法(Needleman-Wunsch算法)和局部動態(tài)規(guī)劃算法(Smith-Waterman算法)。
非常精確但是運行時間長不適合于數(shù)據(jù)量龐大的搜索。三:BLAST算法
采用一種短片段匹配算法和一種有效統(tǒng)計模型找出數(shù)據(jù)庫之間最佳局部對比效果。
基本思想為通過產(chǎn)生數(shù)量更少但質(zhì)量更好的增強點提高速度。(一)算法步驟(1)編譯一個查詢序列生成的長度固定字段編譯列表(2)數(shù)據(jù)庫中掃描獲得與編譯列表中字段匹配的序列記錄(3)以編譯列表的字段為中心向兩段延伸尋找超過閾值分數(shù)S的高分值片段HSP
在BLAST算法過程中,有一個最重要的統(tǒng)計顯著為期望值(E值),描述一次數(shù)據(jù)庫搜素中隨機條件下發(fā)生的得分大于S的不同比對數(shù)目。
E=Kmne-λS
m:待查序列長度;n:整個數(shù)據(jù)庫長度;S比對原始分數(shù);K和λ:Karlin-Altschul統(tǒng)計量(二)算法特點
速度快而精確,適用于從一大組大量序列中搜索與查詢相似序列。第四節(jié)序列比對工具
序列比對工具,即序列比對數(shù)據(jù)庫搜索工具,常用EBI的FASTA工具和NCBI的BLAST工具。一:FASTA工具(FAST-ALL)
可用于核酸和蛋白質(zhì)序列的快速序列比對數(shù)據(jù)庫搜素工具。二:BLAST工具
從核算和蛋白質(zhì)序列庫數(shù)據(jù)庫中找出與待檢序列具有一定相似性的序列。例如給定一個視黃醇結合蛋白rbp4序列,可通過BLAST數(shù)據(jù)庫搜索工具,在核酸或蛋白質(zhì)序列數(shù)據(jù)庫中找出與該序列相似的一系列序列集合。
分為基本BLAST工具和高級BLAST工具
(一)基本BLAST工具
包括blastn,blastp,blastx,tblastn,tblastx等,分別為不同的監(jiān)測方法。
比對基本步驟如下:
1.輸入待檢序列
2.設置程序參數(shù)
3.比對結果解析
(1)搜索的詳細情況
(2)數(shù)據(jù)庫中與查詢序列相匹配的項的簡明圖形
(3)與查詢序列相匹配的數(shù)據(jù)庫中序列列表
(4)查詢序列與目標序列之間雙序列比對情況(二)高級BLAST工具1.PSI-BLAST
位點特異性迭代BLAST,用來尋找遠緣相關的蛋白質(zhì)序列,比常規(guī)BLAST更敏感。為了構建其中需要的PSSM矩陣,需要選擇小于某個期望值的序列進行多序列比對。2.PHI-BLAST
模式識別BLAST,能找到與查詢序列相似的符合某種模式的蛋白質(zhì)序列。3.MEGABLAST
快速的局部核酸序列比對工具,適用于基因預測、發(fā)現(xiàn)和分析單核苷酸多態(tài)性等方面的工作。有效的識別相似性較高的序列。在相似性達到95%以上的序列比對搜索結果中,比blastn更準確。第五節(jié)多序列比對一:多序列比對概述(一)多序列比對目的
多序列比對即對三條以上序列進行的對比,目的通常為為了發(fā)現(xiàn)構成同一基因家族的成組序列之間的共性。發(fā)現(xiàn)這些共性對研究分子結構、功能和進化關系都有非常重要的作用,在闡明一組相關序列的生物學模式方面也有重要作用。
例:通過多序列比對,可以發(fā)現(xiàn)與結構域相關的保守序列片段;也可以發(fā)現(xiàn)蛋白質(zhì)序列之間的系統(tǒng)發(fā)育關系,更好的理解蛋白質(zhì)之間的進化關系。(二)多序列比對定義
多序列比對就是對多條序列插入空位,使得插入空位后的全局比對結果具有相同的長度,并且比對結果中不能出現(xiàn)一列全為空位。例:QDGDAAKGEKEFNQDGDAAKGEKEFN-GDAAKGEKEFNK——————--GDAAKGEKEFNKQEGDEAGAKFNKQEGD–EAGAK-FNK(三)多序列比對應用
可用于發(fā)現(xiàn)新序列與已知序列家族的同源性,也可用于蛋白質(zhì)序列的二級和三級結構預測、發(fā)現(xiàn)蛋白質(zhì)之間系統(tǒng)發(fā)生關系,以及蛋白質(zhì)家族中結構或功能的相似片段獲得。二:多序列比對算法(一)動態(tài)規(guī)劃算法
同雙序列比對算法,分為兩步:打分矩陣的計算—打分矩陣中回溯尋找獲得一條路徑(代表多序列比對結果)。該算法中打分矩陣為多維矩陣。(二)漸進式算法
基本思想基于相似序列通常具有進化相關性這一假設。首先進行雙序列比對,將多個序列兩兩構成矩陣進行指導樹構建,最后進行漸進式比對。(三)迭代算法
核心是使用比對計分函數(shù)反復添加一個附加的序列到已知比對中。
先在所有雙序列比對中找出距離值最小的一組組成最優(yōu)比對,后反復找出與最優(yōu)比對距離值最小的序列,與最優(yōu)比對表頭文件匹配并根據(jù)所得結果修改比對和表頭文件。(四)統(tǒng)計概率算法(隱馬爾可夫模型HMM)
可用來比對監(jiān)測序列的保守區(qū)。三:多序列比對工具(一)Clustal/W(二)T-Coffee工具(三)MultAlin工具
基本思想是啟發(fā)式聚類:首先將序列雙序列對比,后根據(jù)雙序列對比獲得的分值進行分層次的聚類,在聚類的基礎上多序列對比,最后建立指導樹。(四)MAFFT工具
算法基于傅里葉變換。第四章蛋白質(zhì)結構分析
蛋白質(zhì)結構決定功能,通過分析蛋白質(zhì)結構可以進行功能注釋,確認功能單位或結構域,可以為遺傳操作提供目標,為新的蛋白質(zhì)設計提供依據(jù)。
目前我們獲得的高分辨率蛋白大約69351個(截止2010年11月)遠遠小于蛋白質(zhì)序列的量。目前施一公教授主要研究區(qū)域即在蛋白質(zhì)解結構。第一節(jié)蛋白質(zhì)結構的組織層次
蛋白質(zhì)結構分為一級、二級、三級和四級結構,在其上又補充了超二級結構。一:蛋白質(zhì)的結構特征(一)一級結構
指多肽鏈的氨基酸排列順序(二)二級結構
多肽鏈局部的空間結構(構象),有α螺旋、β折疊、β轉(zhuǎn)角、無規(guī)卷曲形式。(三)超二級結構、結構域
相鄰的二級結構單元組合在一起形成的。模體是結構域的亞單位。(四)三級結構
整整條多肽鏈的三維結構(五)四級結構
指亞基和亞基之間通過疏水作用等次級鍵結合成為有序排列的特定空間結構。
由亞基組成(每個亞基一條多肽鏈)二:蛋白質(zhì)結構分類系統(tǒng)(一)SCOP分類數(shù)據(jù)庫1.SCOP的層次
把所有已知結構的蛋白分成了4個層次(1)家族:依據(jù)為序列的同一性程度,將序列同一性超過30%蛋白質(zhì)歸入同一個家族,即他們存在比較明確的進化關系。(2)超家族:序列相似性較低,但結構和功能特性表明他們有共同的進化起源。(3)折疊:無論有無共同進化起源,只要二級結構單元具相同的排列拓撲結構(4)結構類型:由α結構域、β結構域、α/β結構域、α+β結構域等構成2、SCOP的用途
數(shù)據(jù)庫生成后主要是作為一個工具,通過序列與結構的關系理解蛋白質(zhì)進化,以確定新序列、新結構是否與已知蛋白相關。(二)CATH蛋白質(zhì)結構分類數(shù)據(jù)庫
也是將蛋白質(zhì)結構分為4個層次:(1)類型:α主類、β主類、α-β類、低二級機構類(2)構架:超二級結構的排列方式(3)拓撲結構:二級結構形狀和二級結構之間的關系(4)同源性:序列水平上相似性第二節(jié)蛋白質(zhì)結構的測定與理論預測一:蛋白質(zhì)結構的實驗測定(一)X射線晶體衍射
X射線衍射可以確定原子精度的結構,可以給出有機分子如蛋白質(zhì)等的原子坐標。(二)核磁共振法(NMR)
不需要制備蛋白質(zhì)晶體,但是僅限于長度不超過150個氨基酸殘基的小蛋白。(1)可測定溶液中接近生理狀態(tài)的構象(2)可測定小分子和蛋白質(zhì)動力學過程(3)可測定蛋白質(zhì)可變形的尾部構象(4)NMR是一種非損傷測定(三)電子顯微鏡二維晶體三維重構
冷凍電子顯微鏡技術二:蛋白質(zhì)結構比對(一)蛋白質(zhì)結構比對的目的和意義
一個標準的蛋白質(zhì)結構比對結果包括以下信息:1.產(chǎn)生一個參數(shù)衡量蛋白質(zhì)結構之間相似性2.產(chǎn)生兩個蛋白質(zhì)序列比對結果,同一比對位置上氨基酸意味著他們在空間結構上相似性3.產(chǎn)生結構疊加后的蛋白質(zhì)結構文件可以具體觀測(二)蛋白質(zhì)結構比對的基本原理
通過蛋白質(zhì)空間結構圖形顯示軟件,觀測兩個結構相似的部分,但是這種方法僅適用于結構很相似的蛋白質(zhì)。
對于結構有差異的蛋白質(zhì),采用共同子結構方法,即類似于序列比對,也采取一種打分方法。
打分函數(shù)主要分為兩部分:分子間距離+分子內(nèi)距離
同樣存在雙結構比對與多結構比對的區(qū)分。(三)常用結構比對方法1.DALI
采用分子內(nèi)距離方法,主要策略是將結構相似的氨基酸片段拼接成一個完整的結構比對。2.CE方法
分子內(nèi)距離比較方法,通過結構比對上的氨基酸片段拼接成整個結構比對,但是是一次考慮8個殘基的氨基酸片段。3.STRUCTURAL方法
分子間距離4.SSM方法
分子間距離5.TM-align方法
類似于分子間方法。三:蛋白質(zhì)結構預測
蛋白質(zhì)結構預測主要分為三級結構預測和二級結構預測。
三級結構預測可以分為三類:同源模建、折疊識別和從頭計算。
二級結構預測是要預測一個蛋白質(zhì)序列中每個氨基酸所處的二級結構原件。(一)同源模建
理論基礎是蛋白質(zhì)的三級結構比一級結構更為保守,如果兩個蛋白的序列具相似性,則其三級結構很可能也是類似的。其步驟如下:1.模板的選擇:通過BLAST對蛋白質(zhì)結構數(shù)據(jù)庫同源性搜索實現(xiàn)。選取原則:模板盡可能與待測序列享有最高的相似性。2.待測序列與模板序列的比對:當待測蛋白和模板享有很高的序列相似性時,不同序列比對方法總產(chǎn)生相同的比對。3.同源模型建立:分為三步—待測蛋白的主鏈模建—loop區(qū)模建—側(cè)鏈安裝。4.同源模型精修和評估(二)折疊識別1.折疊識別基本原理
從蛋白質(zhì)結構數(shù)據(jù)庫中識別與待測序列具有相似折疊類型,進而實現(xiàn)對待測序列的空間結構預測。分為4步:(1)建立蛋白質(zhì)結構模板數(shù)據(jù)庫(2)設計合適的打分函數(shù)衡量待測序列和模板數(shù)據(jù)庫中結構相似性(3)對打分函數(shù)得到的結果進行統(tǒng)計顯著性分析(4)對結構模板數(shù)據(jù)庫中通過計算得到的具有統(tǒng)計顯著性蛋白質(zhì)結構排序。(三)從頭計算法
原理:蛋白質(zhì)的天然構象對應其能量最低的構象,因此通過構造合適的能量函數(shù)及優(yōu)化方法,可以實現(xiàn)蛋白質(zhì)序列直接預測其三維結構的目的。
其中有Rosetta方法與I-TASSER方法(四)二級結構預測
主要是預測一個蛋白質(zhì)序列中每個氨基酸所處的二級結構元件(五)不同蛋白質(zhì)預測方法的評價
蛋白質(zhì)結構預測CASP競賽
實時的評價方法第三節(jié)蛋白質(zhì)折疊與疾病一:蛋白質(zhì)折疊的意義
目前由蛋白質(zhì)異常的三維結構而引發(fā)的疾病有瘋牛病、老年癡呆癥、囊性纖維病、家族性高膽固醇癥、家族性淀粉樣蛋白質(zhì)、白內(nèi)障等二:蛋白質(zhì)折疊機制理論模型1.框架模型:認為蛋白質(zhì)的局部構象依賴于其局部的氨基酸序列2.疏水塌縮模型:把疏水作用力看成蛋白質(zhì)折疊過程中起決定作用的力3.擴散-碰撞-黏合模型:認為蛋白質(zhì)折疊起始于伸展肽鏈上幾個位點,在這些位點生成不穩(wěn)定二級結構單元或疏水簇,主要依靠局部序列相互作用維持。4.成核-凝聚-生長模型:肽鏈中某一區(qū)域可以形成“折疊晶核”,以他們?yōu)楹诵倪M一步折疊進而獲得天然構象。5.拼版模型:多肽鏈可以咽多條不同途徑進行折疊三:分子伴侶和蛋白質(zhì)折疊
分子伴侶:一種能引導蛋白質(zhì)正確折疊的蛋白質(zhì),能夠折疊和穩(wěn)定另外一種蛋白質(zhì)的不穩(wěn)定構象,并促進新生多肽鏈折疊等。
分子伴侶是從功能上定義的,凡具有這類功能的均可以稱為分子伴侶,他們的結構可以完全不同。迄今為止發(fā)現(xiàn)的大多屬于熱激蛋白(HSP)。四:蛋白質(zhì)感染
體內(nèi)保證蛋白質(zhì)正確折疊分為兩步:識別錯誤(發(fā)現(xiàn)哪些蛋白質(zhì)存在錯誤)+決定錯誤是否更正(能更正的借助分子伴侶更正,不能更正的清除)(一)蛋白感染因子導致的疾病
典型:瘋牛病(二)淀粉樣蛋白導致的疾病
大致分為兩類:老年癡呆癥,帕金森病
第五章真核生物基因組注釋
截止2010年1月,一共6443個基因組測序計劃中1176個基因組測序完畢并公布?;蚪M注釋目標是盡可能確定基因組每一個核苷酸的生物生化功能。
目前主要分為以下區(qū)域:1.確定蛋白質(zhì)編碼基因及其外顯子-內(nèi)含子結構,推斷生物學功能;2.進行RNA基因預測,推斷其功能和相互作用靶標分子;3.確定基因組中重復序列的含量和分類;4.進行假基因識別和分類。
我們本章只對蛋白質(zhì)的基因組注釋做講解第一節(jié)蛋白質(zhì)編碼基因的注釋
一個基因組大部分的生物學功能,主要通過對預測出蛋白質(zhì)編碼基因的功能推斷而得到。
蛋白質(zhì)編碼基因的注釋大致分為三種策略:
1.基于證據(jù)的注釋—根據(jù)已有的實驗證據(jù)、表達序列標簽和蛋白質(zhì)編碼基因
2.從頭開始—只根據(jù)基因組DNA序列對蛋白質(zhì)編碼基因的注釋
3.重新基因預測—通過與其他物種基因組比較一:基于證據(jù)的基因注釋
將已有的cDNA序列或蛋白質(zhì)序列與基因組比對,從而得到基因結構。
根據(jù)序列是否由一個基因自身轉(zhuǎn)錄或翻譯而來,分為順式比對和反式比對。(一)順式比對
使用被注釋基因組的cDNA或蛋白質(zhì)序列與基因組序列對比后得到比對位點。通常是使用全長cDNA與基因組對比。許多cDNA測序項目得到的大多是表達序列標簽(EST),即轉(zhuǎn)錄物片段,可把不同部位的EST拼接為一個整體。(二)反式比對
一些基因組測序項目中不含cDNA測序,因此缺乏相應的全長cDNA和EST等信息,需要采用反式比對策略進行基因組注釋。
使用cDNA或蛋白質(zhì)序列與基因組比對后得到同源位點,cDNA序列或蛋白序列可以來自本物種也可以來自近緣物種
基于證據(jù)的基因注釋系統(tǒng)弱點:許多數(shù)據(jù)庫數(shù)據(jù)良莠不齊,導致錯誤信息傳遞;數(shù)據(jù)庫不含有足夠相似程度序列,結果不易得到。二:從頭開始的基因預測
只依賴蘊含在DNA序列內(nèi)部信息確定基因結構。
目前問題有兩方面:對生物體的轉(zhuǎn)錄和翻譯法則認識還需要進一步提高;計算模型可能無法精確模擬這個過程。
主要分為兩個步驟:蛋白質(zhì)編碼基因特征的識別+基因結構的生成。
蛋白質(zhì)編碼基因特征:組成特征+信號特征
組成特征:高CG含量+密碼子組成+六聯(lián)核苷酸組成+堿基出現(xiàn)周期
信號特征:核糖體結合位點+內(nèi)含子供體+受體剪接位點+內(nèi)含子分支點+起始和終止密碼子+CpG島等三:重新基因預測
利用對照基因組+目標基因組比對信息進行基因預測。
在進化中大多數(shù)經(jīng)受著負選擇作用,因此產(chǎn)生了兩個指示編碼蛋白質(zhì)基因的重要信號(1)由于沉默突變往往發(fā)生在密碼子第3位,因此序列比對空缺以3為倍數(shù)(2)為了保證ORF編碼準確性,插入和確實序列長度為3的倍數(shù)。
因此如果有移碼突變,這個可讀框也常常被附近其他插入和缺失修復,衡量這種現(xiàn)象一個指標稱為讀框連續(xù)性(RFC)四:整合信息(一)人工整合
由于注釋所依賴的證據(jù)數(shù)量有限,從頭預測和重新預測結果可靠性較低,因此將信息整合在一起可以得到更好的注釋結果。
盡管其有效,但是因為成本很高目前僅用于幾個核心基因(二)自動整合
從人類基因組草圖公布后,自動整合系統(tǒng)得到發(fā)展。最簡單的是在每一個位置上選擇最好的證據(jù),首先進行cDNA比對,然后用基因預測結果填補cDNA比對。五:蛋白質(zhì)編碼基因的功能注釋
對預測的未知功能基因進行功能注釋主要是利用已知功能基因等信息對新基因功能推斷。目前的常用主要方法有:
序列相似性比較法;進化分析;亞細胞定位;結構基因組研究和蛋白質(zhì)組研究。第六章生物進化與分子系統(tǒng)發(fā)育分析本章先介紹生物進化的基本知識,在此基礎上利用分子序列來研究生物間親緣關系。分子系統(tǒng)發(fā)育分析的直觀結果是獲得進化樹,目前用的最多的進化樹構建方法有距離法、最大簡約法與最大似然法。一:生物進化
以三個部分介紹生物進化,分別是進化論歷史;目前進化論觀點的證據(jù);分子進化,在微管水平了解進化的起源(一)進化理論的歷史
達爾文時代,人們普遍認為物種均為上帝的產(chǎn)物,自然神學主宰了17世紀歐洲和美洲生物學界,在這段時期卡爾·林奈創(chuàng)造了雙名法。
18世紀時許多自然史學家開始思考用進化觀點解釋自然現(xiàn)象,提出越深地層中化石與現(xiàn)有生命體特征相差越大。(與這一時期的一位大主教稱上帝在公元前4004年10月22日創(chuàng)造了地球,但是發(fā)現(xiàn)同一時期的地層中有很多生物相悖)
但是居維葉認為地層中的生物出現(xiàn)和滅絕和大環(huán)境相關,一個大災變會毀滅很多物種,而新物種不可能通過由自然進化得到。
拉馬克在1809年出版了一本著作,提出一定時期內(nèi)環(huán)境使物種改變,他比較了現(xiàn)存物種和生物化石,提出了這樣的體系:年代較遠化石→年代較近化石→現(xiàn)存物種。從這些證據(jù)可以看出適應性進化,以后這個理論被稱為獲得性遺傳。
達爾文同意拉馬克關于環(huán)境影響進化和適應性的觀點,但是不同意用進廢退而提出“自然選擇”。提出的觀點總和了之前居維葉和林奈的研究成果。
其在觀察Galapagos島時發(fā)現(xiàn)許多動物物種在世界其他地方找不到,但這些動物和南美洲大陸動物相似,并且雖然不同的種類占據(jù)著不同的島嶼,但各種鳴禽間親緣關系很近。其猜測這些島嶼中鳴禽來自南美洲大陸,后分布于各島中,隨著時間推移這些鳥類開始各自適應不同的環(huán)境,而其中的喙則是變異更大。
當時達爾文提出了雜交遺傳作為性狀傳遞的一種模式,這一觀點被廣泛接受(因為子代看起來像父母),但是這樣的思想沒有辦法和自然選擇相結合,因為自然選擇基于存活和繁殖個體產(chǎn)生的突變。
解決這個問題要歸功于孟德爾,提出了遺傳因子傳遞替代了基因雜交遺傳。
現(xiàn)代綜合理論強調(diào)以下三個方面的重要性:1.種群是作為進化的單位;2.自然選擇是進化的重要機制;3.用漸變的觀點解釋明顯的進化由小的變異經(jīng)長期累積而成。(二)進化與自然選擇的證據(jù)
自然選擇是影響生物適應性的唯一機制,但是還有些問題需要考慮:1.在某些生物性狀中有可遺傳的變異;2.這些性狀的差異可引起生物存活與繁殖,以致?lián)碛心骋恍誀畹纳锟纱婊畈⒎敝掣嗪蟠硪恍誀畹纳锷媾c繁殖受到抑制。
1.同源性:兩種或更多生物的性狀起源于這些生物的共同祖先的同一性狀。有些時候在生物成體中看不到,但是在胚胎發(fā)育期比較明顯(比如鰓裂)。
分子同源性是進化論另一證據(jù),因為在分子層面所有生物共享某種特征。2.化石證據(jù):化石演替年代順序與生命樹祖先-后代關系相對應。大多數(shù)證據(jù)來自同一世系的祖先化石與現(xiàn)代生物中演變的結構。3.趨同進化和趨異進化:趨異進化(適應性輻射)4.退化的器官:遺跡器官—已經(jīng)退化的無用功能的器官,但是保留了其構造5.比較解剖學:同功器官—指不同生物的某些結構有相似的功能,但這些器官有不同的發(fā)育來源。6.可觀察到的自然進化過程:在更短的時期內(nèi)進化也可以發(fā)生,蛾的體色與歐洲麻雀的體型均可在短時期內(nèi)進行適應輻射。(工業(yè)黑化)7.對殺蟲劑和寄生生物的抗性:8.人工選擇:(三)分子進化
分子水平上的進化會被用于研究物種間的差異,研究長時間內(nèi)生物遺傳信息改變的原因與結果的領域被稱為“分子進化”。
20世紀60年代以來,DNA技術革命使人們認識到DNA記錄著進化的歷史,通過比較兩種生物的DNA序列可以發(fā)現(xiàn)他們的親緣關系。近些年還掀起了許多新興領域,如基因漂移,人類疾病與代謝相關基因的鑒定分析,進化的計算機模擬,分子系統(tǒng)發(fā)育分析等。
1.編碼區(qū)DNA序列的進化
鐮刀狀細胞貧血?。貉t蛋白β亞基基因的第17個堿基位置A被T替代,谷氨酸變?yōu)榱死i氨酸。
一般真核生物基因組只有3%基因編碼蛋白質(zhì),其中突變發(fā)生的頻率并不高,在人類及哺乳動物中約為2×10-8.一個細胞約60億個堿基,則每個細胞可能120個突變(可講癌癥)2.在DNA重復區(qū)域的進化
DNA中相當多部分是重復的,并且有時DNA的長片段還會轉(zhuǎn)移位置,通過分布于整個基因組的轉(zhuǎn)座子完成移動過程。(其中有復制型轉(zhuǎn)座和非復制型轉(zhuǎn)座)
另一種形式的重復序列叫串聯(lián)重復DNA,出現(xiàn)在真核生物整個基因組。DNA堿基的重復數(shù)比轉(zhuǎn)座子重復數(shù)高,目前還未發(fā)現(xiàn)其作用,但是他們的突變率很高。(包括小衛(wèi)星DNA,短串聯(lián)重復序列,微衛(wèi)星DNA,Alu重復序列)
3.遺傳變異和種群遺傳學
種群遺傳學的領域主要研究基因與基因型出現(xiàn)頻率,從分子生物學角度分析進化。(1)突變:尤其如果種群很小時,一個突變基因可不通過自然選擇明顯改變基因頻率。就算在大種群中,也有很多人認為突變是中性的。(2)遺傳漂移:與選擇壓力無關的基因隨機漂移。對小種群很重要,因為在其中一些個體死亡后,整個種群均造成稀有基因缺失,而漂移可以增加基因的出現(xiàn)頻率。(3)基因流:亞種群之間基因流動,如果移入使亞種群增加了新基因,移出使稀有基因在亞種群消失。(4)不隨意的交配會影響表現(xiàn)型出現(xiàn)的頻率:如果個體適于交配特征,將使能產(chǎn)生這些特征的個體保留下來。在小種群偶爾出現(xiàn)。4.分子進化的中性理論
并不是所有種群被固定下來的突變均由自然選擇形成,有些突變是中性的,并不妨礙生物的生存和繁殖。所以DNA和蛋白質(zhì)的進化主要是由隨機的過程產(chǎn)生,很多分子水平進化并不是因為適應引起的。
中性理論的一個結果是不同突變的基因會有不同的進化速率,不同功能的基因或同一基因不同部位有不同進化速率。
人類和黑猩猩分子進化速率為1.3×10-9堿基替換/年。
分子進化的另一個討論熱點是分子鐘理論,認為在特定系統(tǒng)發(fā)育世系中氨基酸或核苷酸的替換是一個恒定的常數(shù)。分子鐘用來測定物種在何時從哪一個祖先開始進化并分開。二:分子系統(tǒng)發(fā)育分析1.分子系統(tǒng)發(fā)育的概念
根據(jù)生物大分子序列差異評估物種或分子間的進化。分子系統(tǒng)發(fā)育的一個重要意義是對生物分類的影響,現(xiàn)行16SrRNA序列的分析對生物分類很實用。2.構建進化樹的方法
目前常用方法有三種:距離法、最大簡約發(fā)、最大似然法。
分別適用于較高相似性時;序列相似性很高時;任何相關序列集合。(1)距離法:首先算出序列間的遺傳距離(進化距離),后根據(jù)這些距離將序列分別依次合并的聚類分析方法,最后用進化樹表示。(2)最大簡約法:根據(jù)信息位點提供的各序列間替換情況,在所有可能的樹中尋找含最小替換數(shù)的樹的方法。(3)最大似然法:構建進化樹的最大似然法是在所有可能的樹及所有可能字符替換數(shù)方式中,選擇可能性最大的一種做結果。計算過程需要用到似然函數(shù)。第七章生物芯片主要介紹生物芯片的原理和數(shù)據(jù)分析,生物芯片用已知的核酸、蛋白質(zhì)、脂質(zhì)和糖類分子微點陣與生物樣本中分子特異性結合的原理,對生物樣品的生物信息進行快速和高通量的監(jiān)測。數(shù)據(jù)分析主要包括圖像分析,標準化處理,Ratio值分析,基因聚類分析。一:引言
生物芯片前身是20世紀80年代到90年代初期被廣泛運用在尼龍膜上的分子點陣雜交技術。根據(jù)用途分為DNA/RNA芯片、基因芯片、蛋白芯片。利用核酸分子雜交,蛋白質(zhì)分子親和原理,通過熒光標記實現(xiàn)生物信息可視化,最后通過計算機分析處理。二:生物芯片的原理1.生物芯片的制備對固定相分子要求較高,需要固定后保持活性,并且在雜交過程中藥保持穩(wěn)定。(1)芯片片基好的光學性質(zhì);可以進行化學反應的基團;足夠吸附能力;很好的穩(wěn)定性;兼容性。性狀要求為片狀和膜狀。(2)生物分子與芯片的結合
芯片表面活性基團形成特異性吸附位點,用來吸附和親和固定生物活性分子。其中三種常用的為氨基片,醛基片,環(huán)氧乙基片。(3)生物芯片的制作
基質(zhì)表面都具有特異的活性基團,分點樣法(將預先合成好的探針等直接點在相應位置)和原位合成法(復雜,主要是點樣法)2.待測生物樣品的制備和標記(1)制備方法
表達水平監(jiān)測:直接監(jiān)測指標是mRNA轉(zhuǎn)錄水平;
SNP芯片和突變監(jiān)測:將純化的基因組DNA用特定引物擴增為標記,分為引物標記和特定核苷酸標記。可以發(fā)光。
特定基因片段篩選和比較基因組研究。(2)標記方法
核素放射性標記;熒光標記;化學標記。3.生物分子之間的結合
利用核酸互補鏈之間的特異性結合(Southern、Northernblot);抗原-抗體特異結合的能力。
互補雜交是根據(jù)探針的類型、長度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 安徽省黃山市高三第二次質(zhì)量檢測 語文試題(含答案)
- 2025年度教育機構臨時教師聘用合同4篇
- 2025年電影票務保證合同
- 二零二五版石油管道安全巡檢與維護合同3篇
- 2025版學校操場施工臨時用電合同2篇
- 年度動漫展宣傳視頻制作服務合同3篇
- 舞蹈工作室與培訓機構2025年度合作協(xié)議3篇
- 個人承辦公共設施建設合同(2024年)
- 二零二五年度VIP客戶專屬健康管理與養(yǎng)生服務協(xié)議3篇
- 2025年度白酒企業(yè)市場拓展與區(qū)域代理合同集合
- 2024企業(yè)答謝晚宴會務合同3篇
- 《客艙安全管理與應急處置》課件-第14講 應急撤離
- 中華人民共和國文物保護法
- 節(jié)前物業(yè)安全培訓
- 高甘油三酯血癥相關的器官損傷
- 手術室護士考試題及答案
- 牙膏項目創(chuàng)業(yè)計劃書
- 單位食堂供餐方案
- 風電工程需要編寫的專項施工方案及危大工程目錄
- 商業(yè)計劃書(BP)財務計劃風險控制資本退出與附錄的撰寫秘籍
- 七年級下冊《Reading 1 A brave young man》優(yōu)質(zhì)課教案牛津譯林版-七年級英語教案
評論
0/150
提交評論