生物信息學(xué)題庫(kù)_第1頁(yè)
生物信息學(xué)題庫(kù)_第2頁(yè)
生物信息學(xué)題庫(kù)_第3頁(yè)
生物信息學(xué)題庫(kù)_第4頁(yè)
生物信息學(xué)題庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

C值真核生物基因組大小同屋中的復(fù)雜性相關(guān)性很小Feng-Doolittle假定最近序列空隙應(yīng)該保留HIV用于指導(dǎo)開發(fā)針對(duì)保守蛋白的疫苗 PAM25080%Refseq源于GenBank,提供非冗余序列信息比較從E搜索結(jié)果應(yīng)該相當(dāng)成百端粒中從頭以上單基在普通人群較少見,并且發(fā)生時(shí)間較早蛋白1-5%第一ФX174各種50%根據(jù)對(duì)于每一個(gè)給定的蛋白質(zhì),其分子進(jìn)化的速率在所有的進(jìn)化分支上大致是恒定根據(jù)假陽(yáng)性率太高,許多不是外顯子的序列部分被錯(cuò)誤指定構(gòu)建多序列比對(duì)錯(cuò)誤基于字母特征的算法沒有定義分支序列的中間數(shù)據(jù)矩陣假設(shè)BLOSUM45和PAM250 普通10確定Unigene人類1% 人類3000人類基因密度相對(duì)較高如果6如果PubMed天冬N/W/Y 為什使用了全局比對(duì)系統(tǒng)樹的拓?fù)浣Y(jié)構(gòu)和分支長(zhǎng)度細(xì)菌DNA的基因含量、組成結(jié)構(gòu)很不一樣下列半胱氨酸下列胞內(nèi)細(xì)菌下列全局比對(duì)比對(duì)整體序列下列最大似然法(ML)下面dbEST下面OMIM要在blastx要證獲取以上一個(gè)200000一個(gè)蛋白質(zhì)序列一個(gè)可能以下NM_15392與PAM它是基于遠(yuǎn)相關(guān)蛋白的局部多序列比對(duì)直系不同物種中具有共同祖先的同源序列是指生物種族的進(jìn)化歷史,亦即生物體在整個(gè)進(jìn)化譜在研究\o"生物"生物進(jìn)化和系統(tǒng)分類中,常用一種類似樹狀分支的圖形來(lái)概括各種(類)生物之間的親緣關(guān)系,這種樹狀分支的圖形成為系統(tǒng)發(fā)育樹(phylogenetictree)。生物信息學(xué)的大體定義是什么?其發(fā)展歷程如何?利用應(yīng)用數(shù)學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的方法研究生物學(xué)的問題。目前的生物信息學(xué)基本上只是分子生物學(xué)與信息技術(shù)(尤其是互聯(lián)網(wǎng)技術(shù))的結(jié)合體。生物信息學(xué)的研究材料和結(jié)果就是各種各樣的生物學(xué)數(shù)據(jù),其研究工具是計(jì)算機(jī),研究方法包括對(duì)生物學(xué)數(shù)據(jù)的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計(jì)算、模擬)。目前主要的研究方向有:序列比對(duì)、基因識(shí)別、基因重組、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因表達(dá)、蛋白質(zhì)反應(yīng)的預(yù)測(cè),以及建立進(jìn)化模型。發(fā)展歷程:20世紀(jì)50年代,生物信息學(xué)開始孕育20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來(lái)20世紀(jì)70年代,生物信息學(xué)的真正開端④20世紀(jì)70年代到80年代初期,出現(xiàn)了一系列著名的序列比較方法和生物信息分析方法⑤20世紀(jì)80年代以后,出現(xiàn)一批生物信息服務(wù)機(jī)構(gòu)和生物信息數(shù)據(jù)庫(kù)

⑥20世紀(jì)90年代后,HGP促進(jìn)生物信息學(xué)的迅速發(fā)展請(qǐng)論述生物信息學(xué)的研究?jī)?nèi)容有哪些?生物分子數(shù)據(jù)的收集與管理:①基因組數(shù)據(jù)庫(kù)(EMBL、GenBank、DDBJ)②蛋白質(zhì)序列數(shù)據(jù)庫(kù)(SWTSS-PROT、PIR)③蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)(PDB)數(shù)據(jù)庫(kù)搜索及序列比較搜索同源序列在一定程度上就是通過序列比較尋找相似序列

①序列比較的一個(gè)基本操作就是比對(duì)(Alignment),即將兩個(gè)序列的各個(gè)字符(代表核苷酸或者氨基酸殘基)按照對(duì)應(yīng)等同或者置換關(guān)系進(jìn)行對(duì)比排列,其結(jié)果是兩個(gè)序列共有的排列順序,這是序列相似程度的一種定性描述。②多重序列比對(duì)研究的是多個(gè)序列的共性。序列的多重比對(duì)可用來(lái)搜索基因組序列的功能區(qū)域,也可用于研究一組蛋白質(zhì)之間的進(jìn)化關(guān)系?;蚪M序列分析:①遺傳語(yǔ)言分析——天書②基因組結(jié)構(gòu)分析③基因識(shí)別④基因功能注釋⑤基因調(diào)控信息分析⑥基因組比較基因表達(dá)數(shù)據(jù)的分析與處理:基因表達(dá)數(shù)據(jù)分析是目前生物信息學(xué)研究的熱點(diǎn)和重點(diǎn)。

目前對(duì)基因表達(dá)數(shù)據(jù)的處理主要是進(jìn)行聚類分析,將表達(dá)模式相似的基因聚為一類,在此基礎(chǔ)上尋找相關(guān)基因,分析基因的功能。

所用方法主要有:①相關(guān)分析方法②模式識(shí)別技術(shù)中的層次式聚類方法③人工智能中的自組織映射神經(jīng)網(wǎng)絡(luò)④主元分析方法5)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)。蛋白質(zhì)的生物功能由蛋白質(zhì)的結(jié)構(gòu)所決定,蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)成為了解蛋白質(zhì)功能的重要途徑。

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)分為:

(1)二級(jí)結(jié)構(gòu)預(yù)測(cè):在一定程度上二級(jí)結(jié)構(gòu)的預(yù)測(cè)可以歸結(jié)為模式識(shí)別問題

在二級(jí)結(jié)構(gòu)預(yù)測(cè)方面主要方法有:

立體化學(xué)方法、圖論方法、統(tǒng)計(jì)方法、最鄰近決策方法、基于規(guī)則的專家系統(tǒng)方法、分子動(dòng)力學(xué)方法、人工神經(jīng)網(wǎng)絡(luò)方法

預(yù)測(cè)準(zhǔn)確率超過70%的第一個(gè)軟件是基于神經(jīng)網(wǎng)絡(luò)的PHD系統(tǒng)(2)空間結(jié)構(gòu)預(yù)測(cè)在空間結(jié)構(gòu)預(yù)測(cè)方面,比較成功的理論方法是同源模型法

該方法的依據(jù)是:相似序列的蛋白質(zhì)傾向于折疊成相似的三維空間結(jié)構(gòu),運(yùn)用同源模型方法可以完成所有蛋白質(zhì)10-30%的空間結(jié)構(gòu)預(yù)測(cè)工作請(qǐng)敘述構(gòu)建系統(tǒng)進(jìn)化樹的一般步驟。構(gòu)建系統(tǒng)發(fā)生樹的5個(gè)步驟:[1]序列選擇:從那些可以輸出FASTA格式的數(shù)據(jù)庫(kù)中選擇[2]多序列比對(duì)[3]替代模型的選擇[4]生成樹:方式:distance-based;character-based:maximumparsimony;character-andmodel-based:maximumlikelihood;character-andmodel-based:Bayesian基于距離的樹生成軟件:MEGA和PAUPMEGA應(yīng)用算法:UPGMA,基于距離的算法。[5]結(jié)果評(píng)估:原則(一致性、效率、和魯棒性);檢測(cè)方法:最為常見的方法是引導(dǎo)檢測(cè)的分析方法引導(dǎo)檢測(cè)法:簡(jiǎn)單地講就是把序列的位點(diǎn)都重排,重排后的序列再用相同的辦法構(gòu)樹,如果原來(lái)樹的分枝在重排后構(gòu)的樹中也出現(xiàn)了,就給這個(gè)分枝打上一分,如果沒出現(xiàn)就給0分,這樣經(jīng)過你給定的repetitions次(至少1000次)重排構(gòu)樹打分后,每個(gè)分枝就都得出分值,計(jì)算機(jī)會(huì)給你換算成bootstrap值。重排的序列有很多組合,值越小說(shuō)明分枝的可信度越低,最好根據(jù)數(shù)據(jù)的情況選用不同的構(gòu)樹方法和模型.歸納前面所講,下面幾點(diǎn)可以幫助我們解釋進(jìn)化樹:(1)從根節(jié)點(diǎn)到任何一個(gè)節(jié)點(diǎn)的惟一路徑和方向代表了進(jìn)化時(shí)間;(2)根是樹中所有物種的共同祖先;(3)根節(jié)點(diǎn)上的物種我們認(rèn)為比樹中其他所有的物種分化更早。如果無(wú)法確定根節(jié)點(diǎn)的物種,就使用無(wú)根樹進(jìn)行分析。NCBI的Entrez檢索包含了哪些方面的信息。Entrez是NCBI為用戶提供整合的訪問序列、定位、分類及結(jié)構(gòu)數(shù)據(jù)的搜索和檢索的系統(tǒng),是一個(gè)用以整合NCBI數(shù)據(jù)庫(kù)中信息的搜尋和檢索的工具,包括核酸序列、蛋白質(zhì)序列、蛋白質(zhì)三維結(jié)構(gòu)、基因組圖譜和通過PubMed檢索的MEDLINE。其中,Entrez可以整合檢索的序列數(shù)據(jù)庫(kù)包括GenBank、EMBI—DDBJ、RefSeq、PIR-International、PRF、Swiss—Prot和PDB等。Entrez有兩個(gè)顯著的特點(diǎn):第一是對(duì)每個(gè)數(shù)據(jù)庫(kù)中的記錄都預(yù)先做相似性比較,產(chǎn)生一個(gè)列表,包括序列、結(jié)構(gòu)和MEDLINE文獻(xiàn)記錄等信息;第二是對(duì)某個(gè)數(shù)據(jù)庫(kù)的記錄與其他數(shù)據(jù)庫(kù)的相關(guān)記錄做了鏈接,使對(duì)不同數(shù)據(jù)庫(kù)的訪問得以整合。所以Entrez是通過相近性和硬連接來(lái)提供集成的信息檢索。Entrez可以用很廣泛的文本方式搜索,比如作者名字、雜志名字、基因或蛋白名、物種、單一的檢索號(hào)(如:accessionnumber、序列ID、PubMedID、MEDLNEUID)和其他的術(shù)語(yǔ),因此,Entrez是一個(gè)強(qiáng)大的檢索相關(guān)序列、結(jié)構(gòu)和參考文獻(xiàn)的信息檢索工具。BLAST系列軟件分別用哪些數(shù)據(jù)搜索何種數(shù)據(jù)庫(kù)?真核基因結(jié)構(gòu)注釋包括哪些內(nèi)容?相關(guān)的軟件所依據(jù)的理論基礎(chǔ)是什么?GENSCAN是美國(guó)麻省理工大學(xué)的ChrisBurge于1997年開發(fā)成功的人類(或脊椎動(dòng)物)基因預(yù)測(cè)軟件,它根據(jù)基因的整體結(jié)構(gòu)進(jìn)行基因預(yù)測(cè),不依賴于已有的蛋白庫(kù),是一種"從頭預(yù)測(cè)"軟件;用于ORF識(shí)別。通過對(duì)特征序列(GT-AG)的分析進(jìn)行直接的預(yù)測(cè)基因預(yù)測(cè)軟件(NetGene2),內(nèi)含子/外顯子剪切位點(diǎn)識(shí)別。與相應(yīng)的基因組序列比對(duì),分析比對(duì)片段的分布位置(Spidey),用于mRNA剪切位點(diǎn)識(shí)別。選擇性剪切數(shù)據(jù)庫(kù):ProSplicer。啟動(dòng)子結(jié)合位點(diǎn)分析:Cister。限制性酶切位點(diǎn)分析:NEBcutter。密碼子使用偏好性分析:CodonW。請(qǐng)概述基因組注釋的大體流程。(1)基因組注釋(Genomeannotation)是利用生物信息學(xué)方法和工具,對(duì)基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)?;蚪M注釋的研究?jī)?nèi)容包括基因識(shí)別和基因功能注釋兩個(gè)方面?;蜃R(shí)別的核心是確定全基因組序列中所有基因的確切位置。從基因組序列預(yù)測(cè)新基因,現(xiàn)階段主要是3種方法的結(jié)合:(1)分析mRNA和EST數(shù)據(jù)以直接得到結(jié)果;(2)通過相似性比對(duì)從已知基因和蛋白質(zhì)序列得到間接證據(jù);(3)基于各種統(tǒng)計(jì)模型和算法從頭預(yù)測(cè)。對(duì)預(yù)測(cè)出的基因進(jìn)行高通量功能注釋可以借助于以下方法,利用已知功能基因的注釋信息為新基因注釋:(1)序列數(shù)據(jù)庫(kù)相似性搜索;(2)序列模體(Motif)搜索;(3)直系同源序列聚類分析(Clusteroforthologousgroup,COG).(2)基因組注釋系統(tǒng)是MGAP的核心,整合了許多常用的基因識(shí)別和蛋白質(zhì)功能預(yù)測(cè)軟件,包括GeneMarks、IPRsearch、BLASTPGP和FASTA3等,以及多

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論