國科大陳潤生生物信息學開卷考試總結_第1頁
國科大陳潤生生物信息學開卷考試總結_第2頁
國科大陳潤生生物信息學開卷考試總結_第3頁
國科大陳潤生生物信息學開卷考試總結_第4頁
國科大陳潤生生物信息學開卷考試總結_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、 bowung 2010/12/16一什么是生物信息學?Genome informatics is a scientific discipline that encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation. ( 它是一個學科領域,包含著基因組信息的獲取、處理、存儲、分配 、分析和解釋的所有方面。) (The U.S. Human Genome Project: The First Five Year

2、s FY 1991-1995, by NIH and DOE) 生物信息學是把基因組DNA序列信息分析作為源頭,破譯隱藏在DNA序列中的遺傳語言,特別是非編碼區(qū)的實質;同時在發(fā)現(xiàn)了新基因信息之后進行蛋白質空間結構模擬和預測。生物信息學的研究目標是揭示“基因組信息結構的復雜性及遺傳語言的根本規(guī)律”。它是本世紀自然科學和技術科學領域中“基因組、“信息結構”和“復雜性”這三個重大科學問題的有機結合。二、生物學研究內容(一)經(jīng)典的研究內容-大規(guī)?;蚪M測序中的信息分析-拼接和注釋大規(guī)模測序是基因組研究的最基本任務,它的每一個環(huán)節(jié)都與信息分析緊密相關。從測序儀的光密度采樣與分析、堿基讀出、載體標識與去除

3、、拼接與組裝、填補序列間隙、到重復序列標識、讀框預測和基因標注的每一步都是緊密依賴基因組信息學的軟件和數(shù)據(jù)庫的。 1How to find the coding regions in rude DNA sequence?By signals or By contents 基于信號或堿基組成By signals 作為參考信息Among the types of functional sites in genomic DNA that researchers have sought to recognize are splice sites, start and stop codons, bran

4、ch points, promoters and terminators of transcription, polyadenylation sites, ribosomal binding sites, topoisomerase II binding sites, topoisomerase I cleavage sites, and various transcription factor binding sites. Local sites such as these are called signals and methods for detecting them may be ca

5、lled signal sensors.第一、序列長度短,重復性大,假的比真的多百千倍,因而單獨使用無法真正達到檢測的目的。第二、信號模式不是唯一不變的,而是用概率來表示的。By content 更多依賴于I. Statistical method and Sequence Alignment Method eneven positional base frequence (D value)編碼區(qū)是三聯(lián)體,將密碼子翻譯與天然蛋白的氨基酸序列進行比較(天然的蛋白質有固定的氨基酸比例)。這種方法產生三種可能的氨基酸序列,若其中有一個非常像氨基酸序列,則另外兩個都非常不像,則非常像的那個便是;若三個

6、都模糊像,則都不是。與數(shù)據(jù)庫進行比對,這種方法發(fā)現(xiàn)不了新蛋白。II. Sequence Analysis Pairwise Alignment 雙序列比對經(jīng)典的雙序列比對運用動態(tài)規(guī)劃(DP)的形式,通過緩存亞問題的解決和重利用而不是重計算他們而解決一個最佳問題,運動DP的尋找兩個長度為N的序列最佳排列將產生N2的亞問題。準確,但耗費計算機的資源。上述方法在序列很長時計算速度太慢,因此人們將之簡化,發(fā)展處Heuristic schemes的方法。比較成熟的有FASTA和BLAST。這種方法搜尋短序列不插入間隔。(序列比對(alignment):為確定兩個或多個序列之間的相似性以至于同源性,而將它

7、們按照一定的規(guī)律排列。 將兩個或多個序列排列在一起,標明其相似之處。序列中可以插入間隔(通常用短橫線“-”表示)。對應的相同或相似的符號(在核酸中是A, T(或U), C, G,在蛋白質中是氨基酸殘基的單字母表示)排列在同一列上。)III. Neural network-神經(jīng)網(wǎng)絡-predicting the splicing sitesAGCT硬件和軟件構成的神經(jīng)元系統(tǒng),并構建標準數(shù)據(jù)底(標準非編碼序列,標準的三聯(lián)體密碼序列)一個個試,調節(jié)系統(tǒng)能準確輸出序列。任意挑出一個非編碼序列能輸出0。神經(jīng)網(wǎng)絡包括輸入層,中間層和輸出層。輸入層為非線性慣性,每個位置只能有五個值,四種堿基或空。輸出層代表

8、輸入序列是否為編碼序列,對應中間的堿基像不像。IV. Fractal dimension of exons and introns 分維值轉彎越多,值越大。將任一序列投影到堿基坐標,計算分維值,非編碼和編碼序列的分維值不同,可比較0 0.5 1 1.5 2 2.5 3 3.5 07654321Intron Seq.Exon Seq.Random Seq.End-to-end RangeMain RangeGeometric RangelnN分維小,像編碼序列V. Complexity analysis-復雜度分析How many different patterns are there in

9、the area of the different DNA sequence?我們的結果發(fā)現(xiàn)外顯子的復雜度比內含子和5以及3側翼序列要高。什么是復雜度?任意取一個字符,花樣出現(xiàn)多少次?若一段序列出現(xiàn)四種堿基就比出現(xiàn)三種堿基要復雜。窗口:將一段序列分成幾個一組,18個一個窗口。VI. Method and Techniques in Cryptology-密碼分析學的方法-Coincident Indexs,重合指數(shù)認定,將密碼進行過濾,找出重合指數(shù)高的片段,再結合進行變異。Unicity Distance ,單一距離。VII. Sequence Analysis Multiple Alignm

10、ent-多序列比對雙序列比對是序列比對的一種特殊形式,多序列比對能總結得到比對序列家族,估計一個新序列歸屬于一個已知序列的可能性,序列家族內的比對。雙序列比較是不能給出兩者的同源關系的,需要兩個序列以上進行比較,給出這些序列代表物種間的同源序列,沒有精確解,只有相似解。多種方法一起使用,看結果,但也無法知道基因的嚴格位置,準確報出基因的結構(從算法本質上不同的算法進行比較來確定準確性,準確性較高)。2問題與挑戰(zhàn)1)散在重復序列:花樣類似但是分散在不同的位置。Alu2) 由于RNA編輯,可變剪接,一個基因產生許多蛋白3四個例子1)理論研究:騰沖耐熱菌的測序和其耐熱性的研究研究代謝途徑,測出未知功

11、能的基因方法,將所有FA合成的路徑圖全畫出,將其編碼的2800多個蛋白與圖上所需酶進行比對,所有酶都對上就是這個途徑。親緣關系(和枯草桿菌60%的親緣性,不耐熱) 代謝(脂肪酸,核酸)有什么特殊的pathway 重復片段300bp,280次,是轉錄的起始位點 將耐熱與不耐熱的細菌基因組進行比較,得出耐熱所需的蛋白 一般來說,耐熱菌的G-C含量較高(其實不然),耐熱菌的G-C大部分小于50%,但是不耐熱菌G-C含量變化更大,多以細菌基因組G-C含量與耐熱無關,但與mRNA, rRNA的G-C含量有關,G-C含量高,耐熱性上升。2)疾病研究:細菌性痢疾 測序發(fā)現(xiàn),引起細菌性痢疾細菌的基因組和Eco

12、liK12 , Ecoli157很近。比較引起痢疾和不引起痢疾細菌,發(fā)現(xiàn)了痢疾引起的細菌含有毒力島和黑洞(痢疾沒有,不痢疾的有,保護機制的喪失)。3)工業(yè)生產:維生素C生產菌株氧化葡萄酸桿菌基因組測序和組裝4)SARS簡介 The capped and poly-adenylated genome is the largest of the RNA viruses and has a unique method of replication. These viruses have the ability to genetically recombine with other members o

13、f the coronavirus family. The genome encodes 3 or 4 different structural proteins. Human Coronavirus-OC43 encodes for hemagglutinin-esterase (HE) whereas HCV-229E does not. This protein causes red blood cells to clump together, and can be used to determine how much virus is in a sample. HE can also

14、initiate binding. Human Torovirus also encodes for HE. All coronaviruses encode for a nucleocapsid protein (N). This protein binds to RNA and forms a helical nucleocapsid. It may be involved in the regulation of RNA synthesis. The membrane glycoprotein (M) is involved with envelope formation. The sp

15、ike protein (S) is also responsible for binding to cells. The corona cycle link to the left explains the involvement of these proteins in each step of the dynamic phase. (二)新基因和新SNPs的發(fā)現(xiàn)與鑒定大部分新基因是靠理論方法預測出來的。比如啤酒酵母完整基因組 (約1300萬bp) 所包含的 6千多個基因,大約 60 是通過信息分析得到的。a) 、利用 EST( Expression Sequence Tag) 數(shù)據(jù)庫 (

16、dbEST) 發(fā)現(xiàn)新基因和新SNPs 國際上現(xiàn)已出現(xiàn)了幾個基于EST的基因索引如UniGene, Merck-Gene, GenExpress-index,這些基因索引數(shù)據(jù)庫(即二次數(shù)據(jù)庫)構建了基因框架,極大地方便了相關研究者。 超大規(guī)模計算 方法:建立實驗方法,讓一小段真正的編碼區(qū)標簽表達,企圖發(fā)現(xiàn)整個編碼序列,幾百個堿基序列一個標簽,其數(shù)據(jù)庫集中全世界所有的標簽,進行拼接和組裝,得到編碼序列,同樣將相同片段進行比較能發(fā)現(xiàn)SNPs,也可以發(fā)現(xiàn)非編碼序列b)、從基因組 DNA序列中預測新ORF兩者區(qū)別:前者是利用EST數(shù)據(jù)庫進行片段的拼接與組裝,而后者是利用基因組數(shù)據(jù)庫的基因序列進行識別、預

17、測,c基因電腦克隆基因電腦克隆的實質: 以一個序列片段為線索, 通過它和整個數(shù)據(jù)庫的比較, 還原出全序列原貌。原理:當測序獲得一條EST序列時,它來自哪一個基因的哪個區(qū)域是未知的(隨機的),所以屬于同一個基因的不同EST序列之間常有交疊的區(qū)域。根據(jù)這種“交疊”現(xiàn)象,就能找出屬于同一個基因的所有EST序列,進而將它們拼接成和完整基因相對應的全長cDNA序列。可行性:到目前為止, 公共EST數(shù)據(jù)庫(dbEST)中已經(jīng)收集到約800萬條的人的EST序列。估計這些序列已覆蓋了人類全部基因的95%以上,平均起來每個基因有10倍以上的覆蓋率。 嵌合體cDNA是指來源于不同基因的序列,由于偶然因素被組裝在一

18、起形成的Contig。我們構建的神經(jīng)網(wǎng)絡能探測組裝過程形成的嵌合體。d.不同的實施方案和計算量n 將數(shù)據(jù)庫中的所有序列進行兩兩比較, 將他們分成一組組(一組內的序列都屬于同個基因), 最后再拼接成一條條完整的cDNA序列。對于人的EST庫(5百萬條序列),需要進行的序列比對次數(shù)為: l 0.5*(5*106)2=1.25*1013。n 以一組感興趣的(如表達于某種組織的)序列作為”種子”序列(N條),將它們和整個庫比較,以找到它們所屬的完整cDNA序列。這種方案需要進行的序列比對次數(shù)為:u N*5*106。4 EST 利用 EST( Expression Sequence Tag) 數(shù)據(jù)庫 (

19、dbEST) 發(fā)現(xiàn)新基因和新SNPs EST數(shù)據(jù)庫質量相對較低,就象許多文獻報道,發(fā)現(xiàn)了許多內含子,克隆載體,多酶切點,ALU以及3、5非翻譯序列(統(tǒng)稱污染序列,也稱載體序列或非insert序列)被包含在EST數(shù)據(jù)庫中,這使得EST序列分析復雜化。因此在進行Contig電腦組裝之前,需要探測并去除EST數(shù)據(jù)庫中的污染序列。為探測并去除EST數(shù)據(jù)庫中的污染序列,必須建立載體庫,對種子庫和人EST庫中的每條序列掃描其前端和尾部檢查上述非Insert序列,并去除。全長cDNA標注涉及到mRNA的5端即轉錄起始位點區(qū)、第一個ATG、開讀框架、終止密碼子和3端的確認。目前國際上各種二次數(shù)據(jù)庫的建立和公布

20、,使得我們有可能利用現(xiàn)有的數(shù)據(jù)源,通過同源性比較來預測mRNA的5端,最常用的與轉錄起始位點相關的數(shù)據(jù)庫是真核啟動子數(shù)據(jù)庫(The TRADAT Project , Eukaryotic Promoter Database, EPD. http:/www.epd.unil.ch/ )。 開讀框架(Open Reading Frame: ORF)的預測常與第一個ATG和終止密碼子的確定相關,但由于EST序列相對較低的測序質量,在測序過程中出現(xiàn)的堿基刪除或插入錯誤(稱為indel錯誤)將引起讀框移動,甚至出現(xiàn)假終止密碼子,所以,僅憑第一個ATG和終止密碼子是不足以確定ORF的。我們結合下述幾種方法

21、對Contigs進行標注,先用復合人工神經(jīng)網(wǎng)絡系統(tǒng)預測Contig編碼蛋白的可能性,然后采用NCBI的ORF預測軟件 ( ORF finder: /gorf/orfig.cgi )初步判斷ORF的可能范圍。第一個ATG的確定則依據(jù)Kozak規(guī)則和信號肽分析軟件(SignalP http:/www.cbs.dtu.dk/services/signalP )的結果。所謂Kozak規(guī)則,即第一個ATG側翼序列的堿基分布所滿足的統(tǒng)計規(guī)律,若將第一個ATG中的堿基A,T,G分別標為1,2,3位,則Kozak規(guī)則可描述如下:(1)第4位的偏好堿基為G;(

22、2)ATG的5端約15bp范圍的側翼序列內不含堿基T;(3)在-3,-6和-9位置,G是偏好堿基;(4)除-3,-6和-9位,在整個側翼序列區(qū),C是偏好堿基。Kozak規(guī)則是基于已知數(shù)據(jù)的統(tǒng)計結果,為獲得高可信度的結果,我們把預測過程中證實含完整mRNA 5端的Contig翻譯為蛋白序列,然后用SignalP軟件對前50個氨基酸序列(從第一個ATG對應的甲硫氨酸Met開始)進行評估,如果SignalP分析給出正面結果,則測試序列有可能為信號肽,假如在該測試序列的第一個Met 5端存在終止密碼子,該序列為信號肽的可能性更大。3端的確認主要根據(jù)Poly(A)尾序列,若測試Contig不含Poly(

23、A)序列,則根據(jù)加尾信號序列“AATAAA”和BLAST同源性比較結果共同判斷。 嵌合體cDNA是指來源于不同基因的序列,由于偶然因素被組裝在一起形成的Contig。我們構建的神經(jīng)網(wǎng)絡能探測組裝過程形成的嵌合體。 EST數(shù)據(jù)也可用來幫助研究基因的可變剪接和發(fā)現(xiàn)非編碼RNA。5 完整基因組的比較研究是一個新方向研究生命是從哪里起源的?生命是如何進化的?遺傳密碼是如何起源的?估計最小獨立生活的生物至少需要多少基因,這些基因是如何使它們活起來的?比如,鼠和人的基因組大小相似,都含有約三十億堿基對,基因的數(shù)目也類似??墒鞘蠛腿瞬町惔_如此之大,這是為什么?同樣,有的科學家估計不同人種間基因組的差別僅為

24、0.1%;人猿間差別約為1%。但他們表型間的差異十分顯著。 這又為什么?完整基因組序列的比較研究是解決這些問題的重要途徑。The distribution of mouse homology genes in the human chromosome 鼠的1號染色體分布人的.8.13.18號染色體上,waston, crick第一次來中國時說腫瘤的發(fā)生也可能因為基因的換位,改變基因表達水平。所以不同編排方式使得基因表達存在很大差別。HOX基因是看家基因,脊椎動物的HOX基因是果蠅的四倍,果蠅到人基因組很可能是經(jīng)過了兩次的加倍。六基于序列數(shù)據(jù)的生物進化研究當前面臨的問題自1859年

25、 Darwin 的物種起源 (Origin of Species) 發(fā)表以來,進化論成為對人類自然科學和自然哲學發(fā)展的最重大貢獻之一。 進化論研究的核心是描述生物進化的歷史(系統(tǒng)進化樹)和探索進化過程的機制。自本世紀中葉以來,隨著分子生物學的不斷發(fā)展,進化論的研究也進入了分子水平。當前分子進化的研究已是進化論研究的重要手段,并建立了一套依賴于核酸、蛋白質序列信息的理論方法。2、用進化樹分析序列的進化 序列相似性比較。就是將待研究序列與DNA或蛋白質序列庫進行比較,用于確定該序列的生物屬性,也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有B

26、LAST、FASTA等;序列同源性分析。是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;構建系統(tǒng)進化樹。根據(jù)序列同源性分析的結果,重建反映物種間進化關系的進化樹。為完成這一工作已發(fā)展了多種軟件包,象PYLIP、MEGA等;穩(wěn)定性檢驗。為了檢驗構建好的進化樹的可靠性,需要進行統(tǒng)計可靠性檢驗,通常構建過程要隨機地進行成百上千次,只有以大概率(70以上)出現(xiàn)的分支點才是可靠的。通用的方法使用 Bootstrap算法,相應的軟件已包括在構

27、建系統(tǒng)進化樹所用的軟件包當中。為便于使用者查找表三給出了進化分析相關軟件的因特網(wǎng)地址。3、基因的橫向遷移 生物同一狀態(tài)下,出于不同進化程度的物種間的基因橫向轉移不是進化來的,而是在同一時代橫向遷移來的,人基因中的223基因是細菌的,而線蟲,果蠅和酵母中沒有,說明是垂直進化來。 More and more LGT(Lateral Gene Transfer ) were discovered and reported. Some people guess 1.5%14.5% of genes in a genome are related with LGT, even rRNA molecule

28、s are involved in LGT;As more and more whole genome sequence and the related data become available, it is possible to re-consider the phylogeny and clustering properties of species in more broad measurements, even in level of whole genome.怎樣在考慮LGT的基礎上進行進化樹分析構建數(shù)據(jù)庫COG歸屬于genebank去掉LGT基于實驗基因組的方法,利用各種完整的

29、基因組,可以不考慮LGTQ:怎么比不同SIZE的基因組(人與支原體) 用(CISA:Complete Information Set Analysis)抽提每個基因組的特殊,如一個支原體400kb,抽提特殊序列,除以400,人基因組為30億,提取其特殊,再除以30億,再進行比較。Phylogeny Based on Whole Genome as inferred from Complete Information Set Analysis (CISA) we present a new method based on information theory to calculate the p

30、hylogenic distance between biological sequences, including 16s Ribosomal RNA, which is used for method proof-test, 24 completely sequenced genomes, as well as all predicted ORF products of them, creating Phylogeny of genome and proteome using neighboring-joining algorithm. Scientists have already be

31、en conscious of that no other biological sequence can bring more phylogenetic information than the genome. However, previous algorithms dont have the ability to handle such megabase level nucleic acid or amino acid sequences, whose length sizes are in most cases unequal. The Composition of Proteins

32、with different functions(COG)in a Whole Proteome Reveals the Organisms Phylogeny and Clustering PropertiesWe took the 17 functional classes of COGs (Clusters of Orthologous Groups) as the basic classes of protein functions and constructed a 17-D protein_vector to describe the potential functions of

33、the protein. By summing up all protein_vectors belonging to the proteome and then normalizing it, we got a 17-D “Proteome_Vector” reflecting the composition of proteins of different functions in the proteome. By regarding this kind of 17-D Proteome_Vectors as “characteristic vectors” of the organism

34、s, we investigated the clustering properties and phylogeny relationships of the 36 species (8 Archaea、 24 Bacteria and 4 Eukarya) whose genome sequences and related annotations are available at that time七2000年基因組研究的三個突出方面1. 干細胞作為基因組研究的重要選材Celera Genomics And Geron Corporation Announce Collaboration

35、For Human Pluripotent Stem Cell (Genomics June 12, 2000) The objective of the collaboration is to identify and assign function to genes important in early human development, and to utilize the information to develop small molecule pharmaceuticals, protein therapeutics, cell and gene therapies, diagn

36、ostics, and tools for use in drug discovery and testing. 2. SNP研究的國際大協(xié)作The SNP Consortium Ltd. is a non-profit foundation organized for the purpose of providing public genomic data. Its mission is to develop up to 300,000 SNPs distributed evenly throughout the human genome and to make the informatio

37、n related to these SNPs available to the public without intellectual property restrictions. 856,666 mapped SNPs,is now available.(July 11, 2000)Human Genome Project and SNP Consortium Announce Collaboration The explanations may reside in the cumulative (累積的)effect of a small number of differences in

38、 DNA base sequence called single-nucleotide polymorphisms (SNPs), which underlie individual responses to environment, disease, and medical treatments. SNPs are the most common type of sequence variation. SNP研究是基因組領域理論成果走向應用的關鍵步驟。是聯(lián)系基因型和表現(xiàn)型之間關系的橋梁。SNP研究是人類基因組計劃走向應用的重要步驟。SNP研究有很多優(yōu)點:首先是SNP在基因組中分布相當廣泛,近

39、來的研究表明在人類基因組中每300bp就出現(xiàn)一次。但在已知SNP中,僅有不到1的SNP造成蛋白的變化。大量存在的SNP位點,使人們有機會發(fā)現(xiàn)與各種疾病,包括腫瘤相關的基因組突變;從實驗操作來看通過SNP發(fā)現(xiàn)疾病相關基因突變要比通過家系來得容易;有些SNP并不直接導致疾病基因的表達,但由于它與某些疾病基因相鄰,而成為重要的標記。這樣的標記有助于發(fā)現(xiàn)疾病基因;SNP在基礎研究中也發(fā)揮了巨大的作用,比如,近年來對Y染色體SNP的分析,使得在人類進化、人類種群的演化和遷徙領域取得了一系列重要成果。 Y染色體遷移:找人的Y染色體(演化慢,伴性)找基因與人類繁衍有關,8萬個堿基,測不同人的這個基因,八大地

40、區(qū),不同種族,挑了非洲的隔離人群(從未離開),大猩猩,黑猩猩總共100例,在基因上得到1點,可將上面分成兩個部分:隔離人群,大猩猩,黑猩猩一組,其余一組。得出的結論是:I. 古老人群出現(xiàn)在非洲,古老人群從未離開過非洲II. 現(xiàn)在人從非洲走向世界III. 堿基突變需要20-30萬年亞洲人為第六路大軍,先遷到南方。8 大規(guī)模基因功能表達譜的分析隨著人類基因組測序逐漸接近完成,人們自然會提出如下的問題:即使我們已經(jīng)獲得了人的完整基因圖譜,那我們對人的生命活動能說明到什么程度呢?人們進一步提出了一系列由上述數(shù)據(jù)所不能說明的問題,例如:基因表達的產物是否出現(xiàn)與何時出現(xiàn);基因表達產物的量是多少;是否存在翻

41、譯后的修飾過程,若存在是如何修飾的;基因敲除(knock-out)或基因過度表達的影響是什么;多基因差異表達與表現(xiàn)型關系如何等等。概括這些問題,其實質應該是:知道了核酸序列和基因,我們依然不知道它們是如何發(fā)揮功能的,或者說它們是如何按照特定的時間、空間進行基因表達的,表達量有多少。 基因芯片Microarray:An arrayed series of thousands of tiny DNA oligonucleotide samples imprinted on a small chip.mRNAs can be hybridized to microarrays to asseess

42、the amount and level of gene expression.(GENES' X)通常芯片數(shù)據(jù)分析有如下的一些步驟,它們的每一步都與生物信息學相關:Scanning(掃描):讀取芯片上的光密度。因為芯片上的點都是被熒光染料標記的(一般有紅、綠兩種顏色),熒光強度就代表了基因的表達量;Gridding(網(wǎng)格化):確定芯片每一個雜交點的位置。具體說來,它要做三件事情,即:發(fā)現(xiàn)每一個雜交點;按照信號的強弱等級分割信號和背景的邊界;分別讀取信號和背景的光強度。Normalization(標準化):對所有信號進行標準化,使光密度值能正確代表基因表達量。這是芯片數(shù)據(jù)分析中非常重要

43、的一步。為什么要對數(shù)據(jù)進行標準化呢?這是因為很多因素都可影響芯片上的光密度,如:載體(象玻璃)表面不干凈、染料不純、空氣中的灰塵污染;背景光的照射方式;光點大小以及對不同的雜交點熒光效率不同等;Clustering(聚類):將具有相同特征(如:相同功能、相同表達趨勢)的基因聚集在一起。這只是芯片分析方法的一個代表,不同的方法還有很多。常用的方法有:Clustering 方法,也稱聚類方法,它是無監(jiān)管的學習方法。這是芯片分析中使用最廣泛的方法 30,31 ,它比較適合分析具有某種共同表達特征的數(shù)據(jù),象,由共同細胞類型產生的芯片數(shù)據(jù),例如:對照和樣品來自同一組織; Classification方法

44、,也稱分類方法,它是有監(jiān)管的學習方法 32。它非常適用于基因按其生物學功能分類的情況,例如:腫瘤的分類 33 ;多變量統(tǒng)計也是芯片數(shù)據(jù)的常用分析方法 34 。其中單組分分析和多維標度可有效地減低系統(tǒng)的維數(shù)。這種方法常用于分析信號貧乏的數(shù)據(jù)集 35 來探測特定基因的表達概率 36 。盡管發(fā)展了很多方法,但基因表達模式的研究才剛剛開始,大量的問題尚未解決,例如:目前的分析還只能停留在一類基因或一組基因上,還不能有效地區(qū)分它們之間的關聯(lián),同時也很難獲取非常重要也很有興趣的若干低表達基因象,轉錄因子以及受體的信息。為此,將基因表達數(shù)據(jù)與序列數(shù)據(jù)、pathway數(shù)據(jù)以及生物醫(yī)學實驗數(shù)據(jù)結合起來共同分析可

45、能是未來的發(fā)展趨勢。用于基因芯片分析的重要軟件有:TIGR(The Institute for Genomic Research)芯片數(shù)據(jù)分析軟件包 41 :它由三個軟件組成。MultipleExperimentViewer (TMEV)是用Java語言設計的。用于對芯片數(shù)據(jù)標準化及進行聚類和距離代數(shù)的分析。本軟件還有圖形顯示界面。但要運行此軟件必須Sun JRE 和 J3D 1.2版本以上的系統(tǒng); ArrayViewer是一個簡化的芯片數(shù)據(jù)分析軟件,用于設備條件不允許使用TMEV時;Spotfinder是用于芯片信號收集和圖象處理的。它是用C和C+寫成在 PC Windows NT/98環(huán)境

46、下運行的。這些軟件是可以下載的。 盡管芯片技術有極為廣泛的前景,但對海量芯片數(shù)據(jù)的分析依然存在很多尚未解決的問題。如:(1)芯片上光密度數(shù)據(jù)標準化的理論方法研究。 為了保證芯片上每一個雜交點的光密度值都能正確地代表基因產物的表達量,需要在整個芯片范圍內同時對所有點的光密度值進行標準化。這是一個多點非線性的擬合問題,當前雖有很大進展,但仍需發(fā)展新的理論方法。(2) 含有大量無定義元的大規(guī)模矩陣數(shù)據(jù)處理的方法研究:當根據(jù)信噪比對芯片數(shù)據(jù)進行篩選時,可能有約60%雜交點的數(shù)值不可靠,要舍去,這樣就導致大量矩陣元無定義。如何處理這種數(shù)據(jù)也要發(fā)展新方法。(3)大規(guī)?;蚬δ鼙磉_譜數(shù)據(jù)挖掘和知識發(fā)現(xiàn):這是

47、表達譜研究成功與否的關鍵。只有找到成百上千個表達水平發(fā)生變化基因之間在實現(xiàn)生物功能上的關聯(lián),才能充分揭示基因功能表達譜數(shù)據(jù)蘊含的豐富信息。 功能基因組信息分析的進一步工作必然是獲取基因調節(jié)網(wǎng)絡的知識。這在腫瘤研究中尤其重要,因為腫瘤往往是多基因病,只有了解了這些基因的內在關系后,才能對其病理有根本的認識,也才能有好的診斷、治療方案。在基因調節(jié)網(wǎng)絡這一領域已有了一些探索。 下一步,隨著多層次、多類型的海量信息的增加,功能基因組研究將朝著復雜系統(tǒng)的方向發(fā)展,即:探討生物系統(tǒng)中各部分、各層次的相互作用,從而進入系統(tǒng)生物學的領域。 蛋白質芯片與蛋白質組技術 二維電泳技術與質譜測序技術?研究蛋白與蛋白以

48、及蛋白與配體(藥物)的相互作用,最大困難時得到數(shù)以萬計純樣品并保持天然構象,知道功能基因的表達情況,也能知道從基因到蛋白質發(fā)生了那些變化。蛋白質組學技術:二維電泳技術:粗分蛋白 測序質譜技術:細分蛋白兩者聯(lián)合使用,知道哪些蛋白表達。蛋白質芯片的概念雖然在上一世紀八十年代就已提出,但進展較為緩慢。它主要研究蛋白與蛋白以及蛋白與配體(藥物)的相互作用。近年來有了一定進展,哈佛大學的一個研究組已實現(xiàn)了包括一萬多個蛋白樣品的玻璃載體芯片。蛋白芯片研制的最大困難是同時得到數(shù)以萬記的純樣品并保持它們的天然構象。Protein Identification: HPLC-MS-MS蛋白樣品用已知酶進行酶切,再

49、用HPLC將片段根據(jù)質量排好隊,再進行質譜:進來的小片段加了電荷排好隊,加上電壓跑起來,先到的質量少,根據(jù)時間可知核質比。再將蛋白質片段打碎進行測序,然后通過恢復碎片來測序。蛋白質組學技術和基因芯片技術一樣是功能基因組的研究手段,與基因芯片不同的是,它是在蛋白質水平獲取基因功能表達譜。由于它使用二維凝膠電泳和測序質譜,所以在分析軟件和數(shù)據(jù)庫的使用上與基因芯片有所不同。按照蛋白質組的研究過程,使用的分析軟件和數(shù)據(jù)庫有:1.二維凝膠電泳分析,用于從膠圖上鑒定蛋白位點;2.蛋白識別,用于從質譜相關數(shù)據(jù),象,電荷數(shù)、分子量、氨基酸組分、序列標識和MS指紋圖確定蛋白;3.DNA和蛋白質序列相互轉換,包括

50、通過EST的序列延長;4.序列相似性比較;5.特定模式的發(fā)現(xiàn),象:預測信號肽、糖基化位點、磷酸化位點、酶切位點等;6.序列物理化學性質分析,象,PI、消光系數(shù)、疏水性等;7.二級結構預測;8.空間結構預測;9.膜蛋白過膜區(qū)預測;10.蛋白質亞細胞定位;11.蛋白代謝Pathway;12.蛋白相互作用等。相關網(wǎng)站有:http:/www.expasy.ch/melanie/;http:/www.expasy.ch/tools/; /ucsfhtml3.4/msfit.htm; http:/psort.nibb.ac.jp/; http:/ecocy

51、; http:/www.ebi.ac.uk/proteome/; 等。用二級質譜打出的離子種類有a1,b1,c1,x2,y2,z2,但我們只需選出一種如b系列就可以測序了,知道b2,用b2-b1就能得到b1的序列。電荷相同的情況下,核質比只與質量有關。困難:需要獲得完整的資料;找到第一個b。得到譜系后,把database中所有的蛋白用水解酶水解成小片段,理論上選出圖譜,組成database,根據(jù)已知圖譜,將待測圖譜與已知database進行比較,相近的那個就是蛋白。不足:1。無用的計算太多(理論譜中大多都是無用的) 2理論譜兩個參數(shù)中只有一個,算法中兩個參數(shù)有一個是認為給定的帶有偏差

52、 3發(fā)現(xiàn)不了新的蛋白(發(fā)現(xiàn)新的,denova)蛋白質組鳥槍法策略用不同的酶水解同一蛋白得到不同的片斷用De Novo方法測出蛋白質的片斷將這些片斷進行拼接給出較長(甚或全長)的蛋白序列。從而做到真正的database-independed蛋白測序。蛋白質鳥槍法策略可行性:我們目前得到最大的正確片斷是8個氨基酸肽段。至少也能得到4個氨基酸肽段。氨基酸有20種,在序列拼接中我們可以只利用23個氨基酸的信息。因此序列是可以延長的。9 干細胞研究進展的權威評述 "Celera's agreement with Geron is important because we will be

53、 using human pluripotent stem cells-the most basic form of human cells that contain a diverse set of genes not expressed in high abundance in other cells-as a source to better understand the human genome," said J. Craig Venter, Ph.D., Celera's president and chief scientific officer. "B

54、y combining Celera's high-throughput sequencing facility, computational power, and bioinformatics expertise with Geron's human pluripotent stem cell technology, our goal is to enable the development of new approaches to prevent, diagnose and treat some of our most devastating diseases such a

55、s heart disease, Parkinson's disease, and cancer." 干細胞是功能基因組研究的最佳選材 1. 是各種不同組織和細胞類型的共同的源; 2. 可代表個體發(fā)育的各個階段; 3. 是人體材料但很少涉及倫理學和法律學問題; 4. 具有重要的應用價值。 干細胞:A stem cell is a cell from the embryo, fetus, or adult that has, under certain conditions, the ability to reproduce itself for long periods or

56、, in the case of adult stem cells, throughout the life of the organism. It also can give rise to specialized cells that make up the tissues and organs of the body.干細胞是具有無限期產生各種分化細胞能力的細胞。它是各種干細胞的統(tǒng)稱。通常認為干細胞有幾個主要特征:它們是未分化的,但具有分化成各種特定細胞的能力;它們可無限地分裂產生大量后裔;其子細胞有兩種命運,保持為干細胞或分化為特定細胞。干細胞的種類Totipotent stem ce

57、ll: 全能干細胞, 如受精卵pluripotent stem cell: 多能干細胞,如囊胚中的內囊細胞multipotent stem cell: 專能干細胞,如造血干細胞 以上都屬于天然的干細胞,還有一種誘導的干細胞-已分化的細胞也能轉化為干細胞人體干細胞的研究:1998年美國有兩個小組分別培養(yǎng)出了人多能( pluripotent )干細胞:2008年日本和美國的小組培養(yǎng)出人的誘導干細胞James A. Thomson在 Wisconsin大學領導一個研究小組從人胚胎組織中培養(yǎng)出了干細胞株。他們使用的方法是:人卵體外受精后,將胚胎培育到囊胚階段,提取 inner cell mass細胞,建立細胞株。經(jīng)測試這些細胞株的細胞表面 marker 和酶活性,證實它們就是胚胎干細胞。用這種方法,每個胚胎可取得1520個細胞用于培養(yǎng)。John D. Gearhart在 Johns Hopkins大學領導另一個研究小組也從人胚胎組織中建立了干細胞株。他們的方法是:從受精后59周人工流產的胚胎中提

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論