《生物信息學(xué)》復(fù)習(xí)資料

上傳人：T*** IP屬地：江西上傳時(shí)間：2019-06-29 格式：DOC 頁數(shù)：9 大?。?8KB 積分：15 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

超二級(jí)結(jié)構(gòu)：是介于二級(jí)和三級(jí)結(jié)構(gòu)之間的一個(gè)結(jié)構(gòu)層次。有的模體本身有一定的功能，有的與其他的結(jié)構(gòu)成分協(xié)同發(fā)揮作用。Conting（疊連群）：又譯作連續(xù)克隆系。為搞清某段DNA的排列順序而建立的一組克隆。被克隆的DNA小片段有相互鄰接并部分重疊的關(guān)系，從而可以完全覆蓋該段DNA，一個(gè)這樣的克隆群即為一個(gè)conting。蛋白質(zhì)組：對(duì)應(yīng)于基因組的概念，指由一個(gè)細(xì)胞或一個(gè)組織的基因所表達(dá)的全部相應(yīng)的蛋白質(zhì)。蛋白質(zhì)組是一個(gè)動(dòng)態(tài)的概念：和基因不一樣。不同組織和不同發(fā)育時(shí)期都不一樣基因在轉(zhuǎn)錄后，還有一系列的修飾，翻譯等過程都可以影響蛋白質(zhì)的表達(dá)。因此通過對(duì)蛋白質(zhì)組的研究，在此基礎(chǔ)上更能闡明遺傳、發(fā)育、進(jìn)化、功能調(diào)控等基本生物學(xué)問題以及與人類健康和疾病相關(guān)的生物醫(yī)學(xué)問題。單核苷酸多態(tài)性：在DNA的某一個(gè)位點(diǎn)處的核苷酸，有一部分是A，另一部分是T，其他為G和C，如果各種情況的比例均為1%，則稱該位點(diǎn)處的核苷酸為多態(tài)性的。就一個(gè)位點(diǎn)而言，SNP最多為4種。但人類基因組很多，估計(jì)平均每1000bp就有一個(gè)SNP，因此整個(gè)金一組可有3*1000000個(gè)SNP位點(diǎn)，因此產(chǎn)生多態(tài)性就是非常多了。已知人類基因組DNA序列中最常見的變異形式是SNP。非蛋白質(zhì)編碼區(qū)：非蛋白質(zhì)編碼區(qū)占據(jù)了人類基因組的大部分，研究表明“Junk”是許多對(duì)生命過程富有活力的不同類型的DNA的復(fù)合體，它們至少包括以下類型的DNA成分或由其表達(dá)的RNA成分：內(nèi)含子、衛(wèi)星DNA、小衛(wèi)星DNA、微衛(wèi)星DNA、非均一核RNA、短散置元、長(zhǎng)散置元、偽基因等。除此之外，順式調(diào)控原件如啟動(dòng)子、增強(qiáng)子等也屬于非編碼序列。分裂基因、割裂基因、不連續(xù)基因：基因的編碼序列在DNA分子上是被不編碼的序列隔開而不連續(xù)排列的。其中，編碼的序列叫外顯子，對(duì)應(yīng)于心事RNA序列的區(qū)域。不編碼的叫內(nèi)含子，通常比外顯子大得多?；騼啥似鹗己徒Y(jié)束于外顯子，對(duì)應(yīng)于轉(zhuǎn)錄產(chǎn)物RNA和5和3端。如果一個(gè)基因含n個(gè)內(nèi)含子，則n+1個(gè)外顯子。功能域：蛋白質(zhì)中具有某種特定功能的部分，它在序列上未必是連續(xù)的。某蛋白質(zhì)中所有功能域組合起來決定著該蛋白質(zhì)的全部功能?；蚣易澹阂唤M密切相關(guān)的編碼相似產(chǎn)物的基因基因組：某一物種的一套完整染色體組中的所有遺傳物質(zhì)。其大小一般以其堿基對(duì)總數(shù)表示?；蚪M學(xué)：從事基因組的序列測(cè)定和表征描述，以及基因活性與細(xì)胞功能關(guān)系的研究。結(jié)構(gòu)域：指二級(jí)結(jié)構(gòu)折疊較緊密的區(qū)域，是三級(jí)結(jié)構(gòu)的基本單元。人類基因組計(jì)劃：HGP主要目標(biāo)：提供公開的完全的高質(zhì)量的含有30億bp的人類基因組全序列。生物信息學(xué)：是分子生物學(xué)，信息技術(shù)與科學(xué)，物理學(xué)，數(shù)學(xué)等學(xué)科交叉，結(jié)合的產(chǎn)物。其研究核心是基因組信息學(xué)及蛋白質(zhì)組學(xué)。其研究目標(biāo)是揭示基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律，揭示生命的遺傳語言；描述人類疾病的診斷，治療內(nèi)在規(guī)律，為人類服務(wù)。雙重序列對(duì)比：兩序列間的對(duì)比分析。最常見的方法有Needle-Wunsch的方法。能夠利用的軟件有BLAST、FASTA.序列示蹤位點(diǎn)：在人類基因組中只出現(xiàn)一次的位置和序列已知的長(zhǎng)約200500bp的短DNA序列片段。由于可以通過PCR檢測(cè)到，STS在將來源于許多不同實(shí)驗(yàn)室的基因圖譜和測(cè)序數(shù)據(jù)進(jìn)行定位和定向時(shí)非常有用，而且STS在人類基因組的物理圖譜中也有界標(biāo)的作用。表達(dá)的序列標(biāo)簽就是那些得自cDNAs的STSs。UniGene：美國國家生物技術(shù)信息中心提供的公用數(shù)據(jù)庫，該數(shù)據(jù)庫將GenBank中屬于同一條基因的所有片段拼接成完整的基因進(jìn)行收錄。、保守序列：演化過程中基本上不變的DNA中堿基序列或蛋白質(zhì)中的氨基酸序列表達(dá)序列標(biāo)簽：是隨機(jī)選取的cDNA克隆的部分（末端）序列，即一個(gè)EST就是對(duì)應(yīng)于某一個(gè)mRNA的一個(gè)cDNA克隆的一段序列。一般長(zhǎng)度為300500bp，經(jīng)一定方法定位后轉(zhuǎn)變?yōu)镾TS。EST可用于全長(zhǎng)基因的聊聊、基因定位、基因表達(dá)、基因結(jié)構(gòu)等的分析。表型或表現(xiàn)型：有機(jī)體可見的或可計(jì)算的外在性質(zhì)，可以由一個(gè)或多個(gè)基因決定。序列標(biāo)簽位點(diǎn)：一段長(zhǎng)度約為200300bp的特定DNA序列，每個(gè)STS序列位點(diǎn)對(duì)應(yīng)于基因組中一個(gè)單獨(dú)的位置。來源于EST序列和隨機(jī)測(cè)序等。是由PCR方法確定的單拷貝序列。作圖時(shí)，相當(dāng)于一個(gè)圖標(biāo)。常染色體：與性別決定無關(guān)的染色體，人雙倍體染色體組含有46條染色體，其中22對(duì)常染色體，一對(duì)與性別決定有關(guān)的性染色體。單基因?。海系聽栠z傳?。┦怯蓡蝹€(gè)基因的等位基因的突變所導(dǎo)致的遺傳病。DNA計(jì)算機(jī)：用堿基序列作為數(shù)字編碼，用生物實(shí)驗(yàn)作為運(yùn)算過程。通過復(fù)制、剪切、拖拽、粘貼、提取等操作將DNA堿基序列按不同的方式組合，來解決特定的問題。核糖體：簡(jiǎn)寫為rRNA，與蛋白質(zhì)等結(jié)合而構(gòu)成核糖體。后基因時(shí)代：即揭示基因組以及其包含的全部基因的功能，以及對(duì)基因產(chǎn)物蛋白質(zhì)結(jié)構(gòu)和功能的研究和預(yù)測(cè)。蛋白質(zhì)組學(xué)的目標(biāo)是對(duì)所有的蛋白質(zhì)和蛋白質(zhì)相互作用進(jìn)行鑒定和定性?；镜幕诰植繉?duì)準(zhǔn)的搜索工具：一種快速查找與給定序列具有連續(xù)相同片段的序列的技術(shù)?；虮磉_(dá)：基因中的編碼信息被轉(zhuǎn)換成行使特定功能的結(jié)構(gòu)產(chǎn)物的過程?；颍哼z傳的基本單位，攜帶遺傳信息的DNA片段，也稱遺傳因子，是控制性質(zhì)的基本遺傳單位?；蚩寺。翰捎弥亟MDNA技術(shù)，將不同來源的DNA分子在體外進(jìn)行特異切割，重新連接，組裝成一個(gè)新的雜合DNA分子。在此基礎(chǔ)上，這個(gè)雜合子能夠在一定的宿主細(xì)胞中進(jìn)行擴(kuò)增，形成大量的子代分子基因作圖：對(duì)DNA分子中基因的相對(duì)位置和距離進(jìn)行確定的過程美國國家生物技術(shù)信息中心所提供的在線資源檢索器：該資源將GenBank序列與原始文獻(xiàn)出處鏈接在一起。啟動(dòng)子：DNA中被RNA聚合酶結(jié)合并從此起始轉(zhuǎn)錄的位點(diǎn)。全基因組鳥槍法：首先把從細(xì)胞核中分離出來的DNA中每條染色體，用超聲波分為6000萬片極小的片段，每片含200010000個(gè)堿基。然后把每一片段自動(dòng)輸入一臺(tái)計(jì)算機(jī)進(jìn)行高速解碼，完成后將結(jié)果通過電子郵件傳送給超級(jí)計(jì)算機(jī)，由其把每一片段重新組裝成人體的23對(duì)染色體。簡(jiǎn)單地說，想把一部幾十卷的百科全書剪成紙條，再重新組合起來一樣。實(shí)踐已證明只要采樣無誤、計(jì)算能力足夠強(qiáng)大，其正確率不亞于傳統(tǒng)方法。這也是人類基因組計(jì)劃16個(gè)成員中有相當(dāng)部分也采用了這一方法的原因。染色體和染色質(zhì)：染色質(zhì)的基本結(jié)構(gòu)是由一系列核小體相互連接而成的念珠狀。核小體是染色體包裝的基本單位。二者是同一物質(zhì)在不同的細(xì)胞周期中存在的不同形式，都是由DNA、RNA、組蛋白、非組蛋白構(gòu)成的核酸蛋白質(zhì)復(fù)合物。調(diào)控區(qū)或調(diào)控序列：控制基因表達(dá)的DNA堿基序列。微衛(wèi)星DNA：由16bp組成的串聯(lián)重復(fù)序列，由于其重復(fù)單位短小，又叫簡(jiǎn)單序列DNA,或叫短串聯(lián)重復(fù)序列，其中最常見的是雙核苷酸重復(fù)，即（CA）n和（TG）n，n可為1060個(gè)。人類共51045105個(gè)（CA）n型微衛(wèi)星，占10%，即平均6kb60kbDNA就有一個(gè)。多位基因非編碼區(qū)，在編碼序列及外顯子中也有。其高度多態(tài)性主要來源于串聯(lián)數(shù)目的不同。產(chǎn)生的機(jī)制是DNA復(fù)制或修復(fù)過程中堿基錯(cuò)配，導(dǎo)致一個(gè)或幾個(gè)重復(fù)單位的缺失或插入。物理圖譜：不考慮遺傳，DNA中可識(shí)別的界標(biāo)的位置圖。界標(biāo)之間的距離用堿基對(duì)度量。對(duì)人類基因組而言，最低分辨率的物理圖譜是染色體上的條帶圖譜；最高分辨率的物理圖譜是染色體中完整的核苷酸序列。細(xì)胞周期：細(xì)胞分裂是繁殖的基礎(chǔ)。包括從一次細(xì)胞分裂結(jié)束到下一個(gè)細(xì)胞分裂開始的全過程。此過程中，細(xì)胞內(nèi)的遺傳物質(zhì)復(fù)制然后平均分配到兩個(gè)子細(xì)胞。不同生物細(xì)胞的細(xì)胞周期時(shí)間差異很大，同樣生物的不同組織之間也不同。大部分動(dòng)物體細(xì)胞周期為1824h。遺傳密碼：以三聯(lián)體密碼子形成編碼于mRNA中的核苷酸序列，決定著所合成的蛋白質(zhì)中的氨基酸序列。遺傳圖譜：又稱連鎖圖譜或遺傳連鎖圖譜是指人類基因組內(nèi)基因以及專一的多態(tài)性DNA標(biāo)記相對(duì)位置的圖譜，它通過計(jì)算連鎖的遺傳標(biāo)志之間的重組頻率，確定它們的相對(duì)距離，一般用厘摩表示。1cM即每次減數(shù)分裂的重組頻率為1%。重組率的大小代表了兩基因間的距離，距離越近，兩個(gè)基因連鎖越緊密，重組率越小。這一相對(duì)距離為遺傳距離。人類基因組平均遺傳長(zhǎng)度為3300cM，而DNA的平均物理長(zhǎng)度為30億個(gè)堿基對(duì)，因此1cM約等于1000000堿基對(duì)的物理長(zhǎng)度。轉(zhuǎn)錄作用：以DNA為模板合成RNA的過程。sex chromosome：包括序列搜索，結(jié)構(gòu)比較，結(jié)構(gòu)預(yù)測(cè)，蛋白質(zhì)域，模體，測(cè)序，發(fā)育與進(jìn)化分析，雙向電泳成像分析，質(zhì)譜蛋白鑒定，三維蛋白結(jié)構(gòu)模建與成像，基因組圖譜比較，基因預(yù)測(cè)，非編碼區(qū)功能位點(diǎn)識(shí)別，基因組重疊群集裝，后基因組功能分析，結(jié)構(gòu)基因組學(xué)以及藥物基因組學(xué)等。感知器：具有一層神經(jīng)元，采用閾值激活函數(shù)的前向網(wǎng)絡(luò)。再勵(lì)學(xué)習(xí)：他把學(xué)習(xí)看作為試探評(píng)價(jià)過程，學(xué)習(xí)系統(tǒng)選擇一個(gè)動(dòng)作作用于環(huán)境之后，使環(huán)境的狀態(tài)改變，并產(chǎn)生一個(gè)再勵(lì)信號(hào)反饋至學(xué)習(xí)系統(tǒng)，學(xué)習(xí)系統(tǒng)依據(jù)再勵(lì)信號(hào)與環(huán)境當(dāng)前的狀態(tài)，再選擇下一動(dòng)作作用于環(huán)境，選擇原則，是使受到獎(jiǎng)勵(lì)的可能性增大。權(quán)重：矩陣元表示堿基在某一特定位置上出現(xiàn)的頻率。DNA序列分析：隨著測(cè)序技術(shù)的迅速發(fā)展與普及，越來越多的DNA序列已被測(cè)定并存儲(chǔ)在各種分子數(shù)據(jù)庫中，對(duì)這些序列進(jìn)行著各種相關(guān)分析，如基因預(yù)測(cè)，酶切位點(diǎn)預(yù)測(cè)，序列比對(duì)等。序列比對(duì)：Alignment,又叫序列聯(lián)配，其意義在于從核酸、氨基酸的層次分析序列的相似性，推測(cè)其結(jié)構(gòu)功能及進(jìn)化上的聯(lián)系，是基因識(shí)別是、分子進(jìn)化、生命起源研究的基礎(chǔ)。基本問題是比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性或不相似性。人工神經(jīng)網(wǎng)絡(luò)：(Artificial Neural Networks,ANN),簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò)，是對(duì)人類大腦特性的一種描述。簡(jiǎn)單地講，它是一個(gè)數(shù)字模型，可以用電子線路來實(shí)現(xiàn)，也可以用計(jì)算機(jī)程序來模擬，是人工智能研究的一種方法?；蛩幬铮菏侵苯右訢NA或RNA為靶標(biāo)的藥物或以DNA或RNA自身作為藥物。基因工程：通常稱為重組DNA技術(shù)，又稱為基因克隆或分子克隆，是用人工方法將外源基因與DNA載體結(jié)合形成重組DNA，然后引入某一受體細(xì)胞中，命使外源基因復(fù)制并產(chǎn)生相應(yīng)的基因產(chǎn)物，從而獲得生物新品種后種嶄新育種技術(shù)?；蚣?jí)文庫（genomic library）含有某種生物體全部基因的隨機(jī)片斷的重組DNA克隆群體，構(gòu)建基因組文庫時(shí)，先將原核或真核細(xì)胞染色體相連接，經(jīng)體外包裝，轉(zhuǎn)染細(xì)菌，得到一組含有不同DNA片段的重組噬菌體顆粒。此文庫將含有基因組內(nèi)全部基因片段，它象一個(gè)貯存有基因組全部序列的信息庫，故稱為基因組文庫。一級(jí)數(shù)據(jù)庫：數(shù)據(jù)庫中的數(shù)據(jù)直接來源于試驗(yàn)獲得的原始數(shù)據(jù)，只經(jīng)過簡(jiǎn)單的歸類整理和注釋。二級(jí)數(shù)據(jù)庫：根據(jù)生命科學(xué)不同研究領(lǐng)域的實(shí)際需要，對(duì)基因組圖譜、核酸和蛋白質(zhì)序列、蛋白質(zhì)結(jié)構(gòu)以及文獻(xiàn)等數(shù)據(jù)進(jìn)行分析、整理、歸納、注釋，構(gòu)建具有特殊生物學(xué)意義和專門用途的二次數(shù)據(jù)庫。直系同源：是指來自于不同物種的由垂直家系（物種形成）進(jìn)化而來基因，并且典型的保留與原始基因有相同的功能旁系同源：指同一基因組（或同系物種的基因組）中，由于始祖基因的加倍而橫向產(chǎn)生的幾個(gè)同源基因，可能會(huì)進(jìn)化出新的與原來有關(guān)的功能。分子鐘：某一種蛋白質(zhì)在不同物種間的取代數(shù)與所研究的物種間的分歧時(shí)間接近正線性關(guān)系，從而將分子水平的這種恒速變異稱為“分子鐘”。1、人工神經(jīng)網(wǎng)絡(luò)是一類仿生物神經(jīng)網(wǎng)絡(luò)原理的信息處理系統(tǒng)，它與傳統(tǒng)的信息處理系統(tǒng)有著本質(zhì)的不同，以并行性，非線性，容錯(cuò)性和自學(xué)性為主要特點(diǎn)。2、在每個(gè)神經(jīng)元之間的連接上有一個(gè)加權(quán)系數(shù)，他可以加強(qiáng)或減弱上一個(gè)神經(jīng)元的輸出對(duì)下一個(gè)神經(jīng)元的刺激。3、突觸是神經(jīng)細(xì)胞間傳遞信息的結(jié)構(gòu)，突觸有三部分組成：突觸前成分，后成分，突觸間隙。4、識(shí)別基因的兩個(gè)途徑：基因組DNA的外顯子識(shí)別?；贓ST策略的基因鑒定。5、生物信息學(xué)的核心是基因組信息學(xué)。6、生物芯片主要特點(diǎn)是高通量，微型化和自動(dòng)化。7、目前國際上按檢測(cè)目標(biāo)分類，將生物芯片主要分為基因芯片，蛋白芯片和芯片實(shí)驗(yàn)室。8、用于基因治療的病毒載體應(yīng)具備以下3個(gè)基本條件：攜帶外源基因并能包裝成病毒顆粒，介導(dǎo)外源基因的轉(zhuǎn)移和表達(dá)，對(duì)機(jī)體不致病。9、DNA序列分析：基因預(yù)測(cè)，酶切位點(diǎn)分析，序列比對(duì)等。10、在進(jìn)行序列兩兩比對(duì)時(shí)，有兩方面問題直接影響相似性分值：取代矩陣和空位罰分。11、人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方式可分為三種：有導(dǎo)師的學(xué)習(xí)，無導(dǎo)師的學(xué)習(xí)，再勵(lì)學(xué)習(xí)。12、尋找藥物作用靶標(biāo)的方法主要包括：表達(dá)序列標(biāo)簽數(shù)據(jù)庫搜尋，綜合分子特征方法，結(jié)構(gòu)生物方法。13、三維結(jié)構(gòu)搜尋的藥物分子設(shè)計(jì)中三維結(jié)構(gòu)搜尋過程一般包括四步：定義提問結(jié)構(gòu)，解釋提問結(jié)構(gòu)，對(duì)數(shù)據(jù)庫進(jìn)行二維及三維關(guān)鍵部位篩選對(duì)初篩合格的結(jié)構(gòu)，應(yīng)用三維限制條件進(jìn)行逐個(gè)原子印證。14、蛋白質(zhì)組研究的三大關(guān)鍵核心技術(shù)是：雙向凝膠電電泳技術(shù)，質(zhì)譜鑒定技術(shù)，計(jì)算機(jī)圖像數(shù)據(jù)處理與蛋白質(zhì)組數(shù)據(jù)庫。15、蛋白質(zhì)序列分析包括：親疏水性分析，磷酸化位點(diǎn)，序列比對(duì)生物信息數(shù)據(jù)庫的四個(gè)類型：即基因組數(shù)據(jù)庫、核酸和蛋白質(zhì)一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫、生物大分子（主要是蛋白質(zhì)）三維空間結(jié)構(gòu)數(shù)據(jù)庫、以上3類數(shù)據(jù)庫和文獻(xiàn)資料為基礎(chǔ)構(gòu)建的二次數(shù)據(jù)庫。國際上主要的三大核酸數(shù)據(jù)庫：EMBL、GenBank和DDBJ。EMBL是由歐洲分子生物學(xué)實(shí)驗(yàn)室于1982年創(chuàng)建的，其名稱也由此而來，目前由歐洲生物信息學(xué)研究所負(fù)責(zé)管理。美國國家健康研究院（簡(jiǎn)稱NIH）也于80年代初委托洛斯阿拉莫斯國家實(shí)驗(yàn)室建立GenBank，后移交給國家生物技術(shù)信息中心NCBI，隸屬于NIH下設(shè)的國家醫(yī)學(xué)圖書館（簡(jiǎn)稱NLM）。DDBJ是DNA Data Base of Japan的簡(jiǎn)稱，創(chuàng)建于1986年，由日本國家遺傳學(xué)研究所負(fù)責(zé)管理。1988年，EMBL、GenBank與DDBJ共同成立了國際核酸序列聯(lián)合數(shù)據(jù)庫中心，建立了合作關(guān)系。根據(jù)協(xié)議，這三個(gè)數(shù)據(jù)中心各自搜集世界各國有關(guān)實(shí)驗(yàn)室和測(cè)序機(jī)構(gòu)所發(fā)布的序列數(shù)據(jù)，并通過計(jì)算機(jī)網(wǎng)絡(luò)每天都將新發(fā)現(xiàn)或更新過的數(shù)據(jù)進(jìn)行交換，以保證這三個(gè)數(shù)據(jù)庫序列信息的完整度。相似性和同源性的區(qū)別和聯(lián)系：相似性：是指序列比對(duì)過程中檢測(cè)序列和目標(biāo)序列之間相同堿基或氨基酸殘基序列所占比例的大小。同源性：進(jìn)化過程中源于同一祖先的分支之間的關(guān)系，是嚴(yán)格定義的進(jìn)行學(xué)詞匯，即在進(jìn)化上起源同一。序列比對(duì)的數(shù)學(xué)模型：序列比對(duì)的數(shù)學(xué)模型大體可以分為兩類，一類從全長(zhǎng)序列出發(fā)，考慮序列的整體相似性，即整體比對(duì)；第二類考慮序列部分區(qū)域的相似性，即局部比對(duì)。局部相似性比對(duì)的生物學(xué)基礎(chǔ)是蛋白質(zhì)功能位點(diǎn)往往是由較短的序列片段組成的，這些部位的序列具有相當(dāng)大的保守性，盡管在序列的其它部位可能插入、刪除或突變。此時(shí)，局部相似性比對(duì)往往比整體比對(duì)具有更高的靈敏度，其結(jié)果更具生物學(xué)意義。舉例簡(jiǎn)述BLAST程序包含的幾個(gè)子程序：1、blastp是蛋白質(zhì)序列到蛋白質(zhì)質(zhì)庫中的一種查詢。庫中存在的每條已知序列將逐一地同每條查詢序列作一對(duì)一的序列對(duì)比。2、blastx是核酸序列到蛋白庫中的一種查詢。現(xiàn)將核苷酸序列翻譯成蛋白質(zhì)序列（一條核苷酸序列可能會(huì)被翻譯成六條蛋白質(zhì)），再對(duì)每一條做一對(duì)一的蛋白序列比較。3、blastn是核酸到核酸庫中一種查詢。庫中存在的每條已知序列都將同所查序列作一對(duì)一的核酸序列比較。4、tblastn是蛋白序列到核酸庫中的一種查詢。與blastx相反，它是將庫中的核酸序列翻譯成蛋白序列，再同所查詢序列做蛋白對(duì)蛋白的對(duì)比。5、tblastx是核酸序列到核酸庫中的一種查詢。此種查詢將庫中的核酸序列和所查的核酸序列都翻譯成蛋白（每條核酸序列產(chǎn)生六條可能蛋白序列）,這樣每次對(duì)比都會(huì)產(chǎn)生36中對(duì)比陣列。E值：衡量序列之間相似性是否顯著的期望值。E值大小說明了可以找到與查詢序列（query）相匹配的隨機(jī)或無關(guān)序列的概率，E值越接近零，越不可能找到其他匹配序列，E值越小意味著序列的相似性偶然發(fā)生的機(jī)會(huì)越小，也即相似性越能反映真實(shí)的生物學(xué)意義。序列分析的算法有哪些：點(diǎn)陣法、半經(jīng)驗(yàn)的直觀算法、動(dòng)態(tài)規(guī)劃算法、啟發(fā)式算法、并行算法、神經(jīng)網(wǎng)絡(luò)和隱藏馬爾可夫模型等人工神經(jīng)網(wǎng)絡(luò)的定義：人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸連接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。由大量節(jié)點(diǎn)（神經(jīng)元）和之間的相互聯(lián)接構(gòu)成。每個(gè)節(jié)點(diǎn)代表一種特定輸出函數(shù)，稱為激勵(lì)函數(shù)。每?jī)蓚€(gè)節(jié)點(diǎn)的連接都代表一個(gè)對(duì)通過該連接信號(hào)的加權(quán)值，稱之為權(quán)重，這相當(dāng)于人工神經(jīng)網(wǎng)絡(luò)的記憶。網(wǎng)絡(luò)的輸出則依網(wǎng)絡(luò)的連接方式，權(quán)重值和激勵(lì)函數(shù)的不同而不同。而網(wǎng)絡(luò)自身通常都是對(duì)自然界某種算法或者函數(shù)值的逼近，也可能是對(duì)一種邏輯策略的表達(dá)。簡(jiǎn)述神經(jīng)網(wǎng)絡(luò)的基本特征1、非線性。非線性關(guān)系是自然界的普遍特性。大腦的智慧就是一種非線性現(xiàn)象。人工神經(jīng)元處于激活或抑制二種不同的狀態(tài)，這種行為在數(shù)學(xué)上表現(xiàn)為一種非線性關(guān)系。具有闕值的神經(jīng)元構(gòu)成的網(wǎng)路具有更好的性能，可以提高容錯(cuò)性和存儲(chǔ)容量。2、非局限性。一個(gè)神經(jīng)網(wǎng)絡(luò)通常由多個(gè)神經(jīng)元廣泛連接而成。一個(gè)系統(tǒng)的整體行為不僅取決于單個(gè)神經(jīng)元的特征，而且可能主要由單元之間的相互作用、相互連接所決定。通過單元之間的大量連接模擬大腦的非局限性。聯(lián)想記憶是非局限性的典型例子。3、非常定性。人工神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)、自組織、自學(xué)習(xí)能力。神經(jīng)網(wǎng)絡(luò)不但處理的信息可以有各種變化，而且在處理信息的同時(shí)，非線性動(dòng)力系統(tǒng)本身也在不斷變化。經(jīng)常采用迭式過程描寫動(dòng)力系統(tǒng)的演化過程。4、非凸性。一個(gè)系統(tǒng)的演化方向，在一定條件下將取決于某個(gè)特定的狀態(tài)函數(shù)。例如能量函數(shù)，它的極值相應(yīng)于系統(tǒng)比較穩(wěn)定的狀態(tài)。非凸性是指這種函數(shù)有多個(gè)極值，故系統(tǒng)具有多個(gè)較穩(wěn)定的平衡態(tài)，這將導(dǎo)致系統(tǒng)演化的多樣性。人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)：1、高度的并行性；2、高度的非線性全局作用；3、良好的容錯(cuò)性和聯(lián)想記憶能力；4、很強(qiáng)的自適性和自學(xué)能力。三種構(gòu)建進(jìn)化樹的方法并簡(jiǎn)述之：三種主要的建樹方法分別是距離、最大節(jié)約和最大似然。距離法考察數(shù)據(jù)組中所有序列的兩兩對(duì)比結(jié)果，通過序列兩兩之間的差異決定進(jìn)化樹結(jié)構(gòu)和樹枝長(zhǎng)度。最大節(jié)約方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果，優(yōu)化出進(jìn)化樹能夠利用最少的離散步驟去解釋多重比對(duì)中的堿基差異。最大似然方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果，優(yōu)化出擁有一定拓?fù)浣Y(jié)構(gòu)和樹枝長(zhǎng)度的進(jìn)化樹，這個(gè)進(jìn)化樹能夠以最大的概率導(dǎo)致考察的多重比對(duì)結(jié)果。利用生物信息學(xué)方法進(jìn)行基因識(shí)別的兩種途徑：1、基于基因組DNA的外顯子識(shí)別；2、基于EST策略的基因鑒定。數(shù)據(jù)庫查詢和數(shù)據(jù)庫搜索：數(shù)據(jù)庫查詢：是指對(duì)序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)庫中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。數(shù)據(jù)庫搜索：是指通過特定的序列相似性比對(duì)算法，找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫中與檢測(cè)序列具有一定程度相似性的序列。蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)方法：1、統(tǒng)計(jì)/經(jīng)驗(yàn)算法，如基于經(jīng)驗(yàn)統(tǒng)計(jì)規(guī)則的Chou-Fasman方法及基于信息論算法的GOR方法；2、物理-化學(xué)方法，基于對(duì)于蛋白質(zhì)結(jié)構(gòu)的物理及化學(xué)原理的預(yù)測(cè)，如Lim方法；3、機(jī)器學(xué)習(xí)方法，如神經(jīng)網(wǎng)絡(luò)方法。蛋白質(zhì)三級(jí)結(jié)構(gòu)預(yù)測(cè)的理論預(yù)測(cè)方法：1、同源建模法：對(duì)于一個(gè)未知結(jié)構(gòu)的蛋白質(zhì)，找到一個(gè)已知結(jié)構(gòu)的同源蛋白質(zhì)，以蛋白質(zhì)的結(jié)構(gòu)為模板，為未知結(jié)構(gòu)的蛋白質(zhì)建立結(jié)構(gòu)模型，序列相似性低于30%的蛋白質(zhì)難以得到理想的結(jié)構(gòu)模型；2、反向折疊法：在已知模板的序列抑制率低于25%時(shí)，使用反向折疊方法進(jìn)行預(yù)測(cè)。它可以運(yùn)用到?jīng)]有同源結(jié)構(gòu)的情況中，且不需預(yù)測(cè)二級(jí)結(jié)構(gòu)，即直接預(yù)測(cè)三級(jí)結(jié)構(gòu)，從而可以繞過現(xiàn)階段二級(jí)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性不超過65%的限度，是一種有潛力的預(yù)測(cè)方法。主要原理是把未知蛋白質(zhì)的序列和已知的結(jié)構(gòu)進(jìn)行匹配，找出一種或幾種匹配最好的結(jié)構(gòu)作為未知蛋白質(zhì)的預(yù)測(cè)結(jié)構(gòu)。其實(shí)現(xiàn)過程是總結(jié)出已知的獨(dú)立蛋白質(zhì)結(jié)構(gòu)模式作為未知結(jié)構(gòu)進(jìn)行匹配的模板，然后經(jīng)過對(duì)現(xiàn)有的數(shù)據(jù)庫的學(xué)習(xí)總結(jié)，得出可以區(qū)分正誤結(jié)構(gòu)的平均勢(shì)函數(shù)（meanforcefield），以此判別標(biāo)準(zhǔn)來選擇最佳的匹配方式。這種方法的局限性在于它假設(shè)蛋白質(zhì)折疊類型是有限的，所以只有未知蛋白質(zhì)和已知蛋白質(zhì)結(jié)構(gòu)相似的時(shí)候，才有可能預(yù)測(cè)出未知的蛋白質(zhì)結(jié)構(gòu)，如未知蛋白質(zhì)結(jié)構(gòu)是現(xiàn)在還沒有出現(xiàn)的結(jié)構(gòu)類型時(shí)，則不能應(yīng)用這種方法。3、從頭預(yù)測(cè)法：在找不到已知結(jié)構(gòu)的蛋白質(zhì)模板時(shí)使用從頭預(yù)測(cè)的方法。從理論上說，從頭預(yù)測(cè)法是最為理想的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法。它要求方法本身可以只根據(jù)蛋白質(zhì)的氨基酸序列來預(yù)測(cè)蛋白質(zhì)的二級(jí)結(jié)構(gòu)和高級(jí)結(jié)構(gòu)，但現(xiàn)在還不能完全達(dá)到這個(gè)要求。從頭預(yù)測(cè)可以細(xì)分為，二級(jí)結(jié)構(gòu)預(yù)測(cè)、超二級(jí)結(jié)構(gòu)預(yù)測(cè)、蛋白質(zhì)結(jié)構(gòu)類型預(yù)測(cè)、蛋白質(zhì)折疊模式預(yù)測(cè)、詳細(xì)的三維結(jié)構(gòu)直接預(yù)測(cè)等。同源建模的基本步驟1、目標(biāo)序列與模板序列的匹配；2、根據(jù)同源蛋白質(zhì)的多重序列匹配結(jié)果，確定同源蛋白質(zhì)的結(jié)構(gòu)保守區(qū)以及相應(yīng)的框架結(jié)構(gòu)；3、目標(biāo)蛋白質(zhì)結(jié)構(gòu)保守區(qū)的主鏈建模；4、目標(biāo)蛋白質(zhì)結(jié)構(gòu)變異區(qū)的主鏈建模；5、側(cè)鏈的安裝和優(yōu)化；6、對(duì)模建結(jié)構(gòu)進(jìn)行優(yōu)化和評(píng)估。當(dāng)前生物信息學(xué)在基因組研究中當(dāng)前的主要研究?jī)?nèi)容是什么？1人與各種生物的完整基因組的獲取和信息分析2新基因和新的單核苷酸多態(tài)性（SNP）的發(fā)現(xiàn)與鑒定：a，基因的電子克??；b，從基因組DNA序列中預(yù)測(cè)新基因：發(fā)現(xiàn)SNP；3基因組中非編碼區(qū)信息結(jié)構(gòu)分析；4遺傳密碼起源與生物進(jìn)化的研究；5完整基因組的比較研究；6大規(guī)?；蚬δ鼙磉_(dá)譜的獲取與分析；7蛋白質(zhì)結(jié)構(gòu)模擬與藥物設(shè)計(jì)；8生物信息學(xué)的應(yīng)用與發(fā)展研究：a，疾病相關(guān)的基因信息及相關(guān)算法和軟件開發(fā)；b，建立與動(dòng)植物良種繁殖相關(guān)的基因組數(shù)據(jù)庫，發(fā)展分子標(biāo)記輔助育種技術(shù)；c，研究與發(fā)展藥物設(shè)計(jì)軟件和基于生物信息的分子生物學(xué)技術(shù)。簡(jiǎn)述生物信息學(xué)的研究目標(biāo)1、生物信息學(xué)的研究目標(biāo)：認(rèn)識(shí)生命的起源、進(jìn)化、遺傳和發(fā)育的本質(zhì)，破譯隱藏在DNA序列中的遺傳語言，揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”，揭示人體生理和病理過程的分子基礎(chǔ)，為人類疾病的診斷、預(yù)防和治療提供最合理而有效的方法和途徑。2、近期任務(wù)：大規(guī)模基因組測(cè)序中的信息分析，新基因和新單核苷酸多怸（SNPs）的發(fā)現(xiàn)與鑒定，完整基因的比較研究，大規(guī)?；蚬δ鼙磉_(dá)譜的分析，生物大分子的結(jié)構(gòu)模擬與藥物設(shè)計(jì)，生物信息分析的技術(shù)與方法研究3、遠(yuǎn)期任務(wù):遺傳密碼起源和生物進(jìn)化的研究，非編編碼區(qū)的信息結(jié)構(gòu)分析。生物信息學(xué)在基因組研究中的發(fā)展趨勢(shì)：1高度自動(dòng)化的實(shí)驗(yàn)數(shù)據(jù)獲得、加工和整理；2序列片段拼接；3基因區(qū)域的預(yù)測(cè)；4蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)；5分子進(jìn)化研究等。什么是“后基因組計(jì)劃”？“后基因組時(shí)代”生物學(xué)的主要任務(wù)是什么：“后基因組計(jì)劃”基因組全序列完全測(cè)定完成后，對(duì)基因組的結(jié)構(gòu)、表達(dá)、修復(fù)、功能等進(jìn)行研究的計(jì)劃.包括功能基因組、結(jié)構(gòu)基因組和蛋白質(zhì)組等研究的國際合作計(jì)劃?！昂蠡蚪M時(shí)代”生物學(xué)的主要任務(wù)：揭示基因組及其所包含的全部基因功能，并在此基礎(chǔ)上闡明遺傳、發(fā)育、進(jìn)化、功能調(diào)控等生物學(xué)基本問題，以及人類健康和疾病相關(guān)的生物醫(yī)學(xué)問題。其核心科學(xué)問題主要包括：基因組多樣性，基因的表達(dá)調(diào)控和蛋白質(zhì)產(chǎn)物的功能，以及模式生物基因組研究等。蛋白質(zhì)組研究的技術(shù)路線:1蛋白質(zhì)樣品制備；2蛋白質(zhì)的雙向聚丙烯酰胺凝膠電泳（2-DE）；3蛋白質(zhì)染色；4凝膠圖像分析；5蛋白質(zhì)特異點(diǎn)的鑒定。隊(duì)特意蛋白質(zhì)點(diǎn)進(jìn)行：a，氨基酸組成分析；b，氨基酸序列分析；c，質(zhì)譜分析等；6蛋白質(zhì)數(shù)據(jù)庫配比分析。蛋白質(zhì)工程：（1）運(yùn)用蛋白質(zhì)結(jié)構(gòu)的詳細(xì)信息、重組DNA技術(shù)，對(duì)蛋白質(zhì)分子進(jìn)行重新設(shè)計(jì)，從而定向地改造蛋白質(zhì)的性質(zhì)，使其具有人們希望的優(yōu)良性質(zhì)，甚至創(chuàng)造自然界不存在的蛋白質(zhì)。主要目的是通過改造編碼蛋白質(zhì)基因中的DNA順序，或設(shè)計(jì)合成新的基因，經(jīng)過宿主細(xì)胞的表達(dá)獲得被改造了的新的蛋白質(zhì)。（2）蛋白質(zhì)工程分子設(shè)計(jì)是從分子乃至原子水平對(duì)天然蛋白質(zhì)的一級(jí)結(jié)構(gòu)序列、三級(jí)結(jié)構(gòu)空間構(gòu)象一級(jí)生物功能進(jìn)行全面分析，在此基礎(chǔ)上提出設(shè)計(jì)方案，或改變某些部位的氨基酸殘基，或進(jìn)行結(jié)構(gòu)域的拼接，以期改善天然蛋白質(zhì)的性能或得到具有新功能的蛋白質(zhì)。簡(jiǎn)述蛋白質(zhì)組研究的理論基礎(chǔ)1、從mRNA表達(dá)水平并不能預(yù)測(cè)蛋白表達(dá)水平。有人研究了mRNA和蛋白質(zhì)表達(dá)的關(guān)系，以處于對(duì)數(shù)生長(zhǎng)期的啤酒酵母為研究對(duì)象，mRNA的表達(dá)由SAGE頻率表指示，同位素標(biāo)記酵母蛋白，共選擇80個(gè)基因，結(jié)果沒有發(fā)現(xiàn)翻譯和轉(zhuǎn)錄豐度有明顯相關(guān)。2、蛋白質(zhì)的動(dòng)態(tài)修飾和加工并非必須來自基因序列。在mRNA水平上有許多細(xì)胞調(diào)節(jié)過程是難以觀察到的，因?yàn)樵S多調(diào)節(jié)是在蛋白質(zhì)的結(jié)構(gòu)域中發(fā)生的。許多蛋白只有與其它分子結(jié)合后才有功能，蛋白的這種修飾是動(dòng)態(tài)的、可可逆的，這種蛋白修飾的種類和部位通常有能由基因序列決定。3、蛋白質(zhì)組是動(dòng)態(tài)反映生物系統(tǒng)所處。細(xì)胞周期的特定時(shí)期、分化的不同階段、對(duì)應(yīng)的生長(zhǎng)和營養(yǎng)狀況、溫度、應(yīng)激和病理狀態(tài)所對(duì)應(yīng)的蛋白質(zhì)組是有差異的。蛋白質(zhì)組學(xué)的研究可望提供精確、詳細(xì)的有關(guān)細(xì)胞或組織狀況的分子描述。因?yàn)橹T如蛋白質(zhì)合成、降解、加工、修飾的調(diào)控過程，只有通過蛋白質(zhì)的直接分析才能提示。簡(jiǎn)述隱馬可夫模型與“Profile”的異同與標(biāo)準(zhǔn)的Profile相比，Profile HMM有正規(guī)的概率做基礎(chǔ)，對(duì)于序列的刪除和插入狀態(tài)的記分也有較為可靠的理論依據(jù)。而標(biāo)準(zhǔn)的Profile純粹是一種啟發(fā)式方式的方法。HMM用統(tǒng)計(jì)方法估計(jì)序列某一位點(diǎn)核甘酸殘基出現(xiàn)的正真概率，而標(biāo)準(zhǔn)的Profile卻是用自身的觀察頻率給核苷酸殘基指派分?jǐn)?shù)。這就意味著用Profile HMM方法從10至20個(gè)核苷酸序列構(gòu)成的隊(duì)列中提取的信息，相當(dāng)于用標(biāo)準(zhǔn)的Profile從40至50個(gè)核苷酸序列構(gòu)成的隊(duì)列中提取的信息。簡(jiǎn)述隱馬可夫模型的三個(gè)基本問題1，可能性的評(píng)估問題：對(duì)于給定模型，如何評(píng)估某個(gè)觀察值序列符合這個(gè)模型的可能性，也就是說這個(gè)觀察值序列在多大程度上符合給定的模型。2，解碼問題：對(duì)于給定的模型和觀察值序列，求可能性最大的狀態(tài)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《生物信息學(xué)》復(fù)習(xí)資料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《生物信息學(xué)》復(fù)習(xí)資料

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔