




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
行者【轉(zhuǎn)載】生物信息學(xué)名詞解釋----這個(gè)比較全什么是\o"查看高通量測序中的全部文章"高通量測序?\o"查看高通量測序中的全部文章"高通量測序技術(shù)(High-throughputsequencing,HTS)是對傳統(tǒng)Sanger測序(稱為一代測序技術(shù))革命性的改變,一次對幾十萬到幾百萬條核酸分子進(jìn)行序列測定,因此在有些文獻(xiàn)中稱其為下一代測序技術(shù)(nextgenerationsequencing,NGS)足見其劃時(shí)代的改變,同時(shí)\o"查看高通量測序中的全部文章"高通量測序使得對一個(gè)物種的轉(zhuǎn)錄組和基因組進(jìn)行細(xì)致全貌的分析成為可能,所以又被稱為深度測序(Deepsequencing)。什么是Sanger法測序(一代測序)Sanger法測序利用一種DNA聚合酶來延伸結(jié)合在待定序列模板上的引物。直到摻入一種鏈終止核苷酸為止。每一次序列測定由一套四個(gè)單獨(dú)的反應(yīng)構(gòu)成,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP),并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基團(tuán),使延長的寡聚核苷酸選擇性地在G、A、T或C處終止。終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫氧而定。每一種dNTPs和ddNTPs的相對濃度可以調(diào)整,使反應(yīng)得到一組長幾百至幾千堿基的鏈終止產(chǎn)物。它們具有共同的起始點(diǎn),但終止在不同的的核苷酸上,可通過高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測。什么是基因組重測序(GenomeRe-sequencing)全基因組重測序是對基因組序列已知的個(gè)體進(jìn)行基因組測序,并在個(gè)體或群體水平上進(jìn)行差異性分析的方法。隨著基因組測序成本的不斷降低,人類疾病的致病突變研究由外顯子區(qū)域擴(kuò)大到全基因組范圍。通過構(gòu)建不同長度的插入片段文庫和短序列、雙末端測序相結(jié)合的策略進(jìn)行\(zhòng)o"查看高通量測序中的全部文章"高通量測序,實(shí)現(xiàn)在全基因組水平上檢測疾病關(guān)聯(lián)的常見、低頻、甚至是罕見的突變位點(diǎn),以及結(jié)構(gòu)變異等,具有重大的科研和產(chǎn)業(yè)價(jià)值。什么是denovo測序denovo測序也稱為從頭測序:其不需要任何現(xiàn)有的序列資料就可以對某個(gè)物種進(jìn)行測序,利用生物信息學(xué)分析手段對序列進(jìn)行拼接,組裝,從而獲得該物種的基因組圖譜。獲得一個(gè)物種的全基因組序列是加快對此物種了解的重要捷徑。隨著新一代測序技術(shù)的飛速發(fā)展,基因組測序所需的成本和時(shí)間較傳統(tǒng)技術(shù)都大大降低,大規(guī)?;蚪M測序漸入佳境,基因組學(xué)研究也迎來新的發(fā)展契機(jī)和革命性突破。利用新一代高通量、高效率測序技術(shù)以及強(qiáng)大的生物信息分析能力,可以高效、低成本地測定并分析所有生物的基因組序列。什么是外顯子測序(wholeexonsequencing)外顯子組測序是指利用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進(jìn)行\(zhòng)o"查看高通量測序中的全部文章"高通量測序的基因組分析方法。外顯子測序相對于基因組重測序成本較低,對研究已知基因的SNP、Indel等具有較大的優(yōu)勢,但無法研究基因組結(jié)構(gòu)變異如染色體斷裂重組等。什么是mRNA測序(RNA-seq)轉(zhuǎn)錄組學(xué)(transcriptomics)是在基因組學(xué)后新興的一門學(xué)科,即研究特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA(包括mRNA和非編碼RNA)的類型與拷貝數(shù)。Illumina提供的mRNA測序技術(shù)可在整個(gè)mRNA領(lǐng)域進(jìn)行各種相關(guān)研究和新的發(fā)現(xiàn)。mRNA測序不對引物或探針進(jìn)行設(shè)計(jì),可自由提供關(guān)于轉(zhuǎn)錄的客觀和權(quán)威信息。研究人員僅需要一次試驗(yàn)即可快速生成完整的poly-A尾的RNA完整序列信息,并分析基因表達(dá)、cSNP、全新的轉(zhuǎn)錄、全新異構(gòu)體、剪接位點(diǎn)、等位基因特異性表達(dá)和罕見轉(zhuǎn)錄等最全面的轉(zhuǎn)錄組信息。簡單的樣品制備和數(shù)據(jù)分析軟件支持在所有物種中的mRNA測序研究。什么是smallRNA測序SmallRNA(microRNAs、siRNAs和piRNAs)是生命活動重要的調(diào)控因子,在基因表達(dá)調(diào)控、生物個(gè)體發(fā)育、代謝及疾病的發(fā)生等生理過程中起著重要的作用。Illumina能夠?qū)?xì)胞或者組織中的全部SmallRNA進(jìn)行深度測序及定量分析等研究。實(shí)驗(yàn)時(shí)首先將18-30nt范圍的SmallRNA從總RNA中分離出來,兩端分別加上特定接頭后體外反轉(zhuǎn)錄做成cDNA再做進(jìn)一步處理后,利用測序儀對DNA片段進(jìn)行單向末端直接測序。通過Illumina對SmallRNA大規(guī)模測序分析,可以從中獲得物種全基因組水平的miRNA圖譜,實(shí)現(xiàn)包括新miRNA分子的挖掘,其作用靶基因的預(yù)測和鑒定、樣品間差異表達(dá)分析、miRNAs聚類和表達(dá)譜分析等科學(xué)應(yīng)用。什么是miRNA測序成熟的microRNA(miRNA)是17~24nt的單鏈非編碼RNA分子,通過與mRNA相互作用影響目標(biāo)mRNA的穩(wěn)定性及翻譯,最終誘導(dǎo)基因沉默,調(diào)控著基因表達(dá)、細(xì)胞生長、發(fā)育等生物學(xué)過程?;诘诙鷾y序技術(shù)的microRNA測序,可以一次性獲得數(shù)百萬條microRNA序列,能夠快速鑒定出不同組織、不同發(fā)育階段、不同疾病狀態(tài)下已知和未知的microRNA及其表達(dá)差異,為研究microRNA對細(xì)胞進(jìn)程的作用及其生物學(xué)影響提供了有力工具。什么是Chip-seq染色質(zhì)免疫共沉淀技術(shù)(ChromatinImmunoprecipitation,ChIP)也稱結(jié)合位點(diǎn)分析法,是研究體內(nèi)蛋白質(zhì)與DNA相互作用的有力工具,通常用于轉(zhuǎn)錄因子結(jié)合位點(diǎn)或組蛋白特異性修飾位點(diǎn)的研究。將ChIP與第二代測序技術(shù)相結(jié)合的ChIP-Seq技術(shù),能夠高效地在全基因組范圍內(nèi)檢測與組蛋白、轉(zhuǎn)錄因子等互作的DNA區(qū)段。ChIP-Seq的原理是:首先通過染色質(zhì)免疫共沉淀技術(shù)(ChIP)特異性地富集目的蛋白結(jié)合的DNA片段,并對其進(jìn)行純化與文庫構(gòu)建;然后對富集得到的DNA片段進(jìn)行\(zhòng)o"查看高通量測序中的全部文章"高通量測序。
高通量測序時(shí),在芯片上的每個(gè)反應(yīng),會讀出一條序列,是比較短的,叫read,它們是原始數(shù)據(jù);有很多reads通過片段重疊,能夠組裝成一個(gè)更大的片段,稱為contig;多個(gè)contigs通過片段重疊,組成一個(gè)更長的scaffold;一個(gè)contig被組成出來之后,鑒定發(fā)現(xiàn)它是編碼蛋白質(zhì)的基因,就叫singleton;多個(gè)contigs組裝成scaffold之后,鑒定發(fā)現(xiàn)它編碼蛋白質(zhì)的基因,叫unigene。一個(gè)UniGene不一定代表一個(gè)contig,一個(gè)UniGene可有多個(gè)contig。UniGene(Unique
GeneSequenceCollection)UniGene是以自動化的方式,對于每一個(gè)新進(jìn)入到GeneBank的序列,進(jìn)行序列相似性分析,如果可以找到可能是來自于同一個(gè)基因的基因組(cluster),則將次序列歸入到這一個(gè)基因組,如果找不到,則成立一個(gè)新的基因組。據(jù)估計(jì),人類的基因約有八萬到十萬個(gè)左右,而在UniGenes中的所有人類序列中,經(jīng)過上述方式加以分組之后,在1998您6月,已得到的超過四萬三千個(gè)獨(dú)特的基因組(uniquegeneclusters),其中大約六千余個(gè)具有已知的基因。
什么是soft-clippedreads當(dāng)基因組發(fā)生某一段的缺失,或轉(zhuǎn)錄組的剪接,在測序過程中,橫跨缺失位點(diǎn)及剪接位點(diǎn)的reads回帖到基因組時(shí),一條reads被切成兩段,匹配到不同的區(qū)域,這樣的reads叫做soft-clippedreads,這些reads對于鑒定染色體結(jié)構(gòu)變異及外源序列整合具有重要作用。什么是multi-hitsreads由于大部分測序得到的reads較短,一個(gè)reads能夠匹配到基因組多個(gè)位置,無法區(qū)分其真實(shí)來源的位置。一些工具根據(jù)統(tǒng)計(jì)模型,如將這類reads分配給reads較多的區(qū)域。
什么是Scaffold基因組denovo測序,通過reads拼接獲得Contigs后,往往還需要構(gòu)建454Paired-end庫或IlluminaMate-pair庫,以獲得一定大小片段(如3Kb、6Kb、10Kb、20Kb)兩端的序列?;谶@些序列,可以確定一些Contig之間的順序關(guān)系,這些先后順序已知的Contigs組成Scaffold。什么是ContigN50Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加,能獲得一個(gè)Contig總長度。然后將所有的Contigs按照從長到短進(jìn)行排序,如獲得Contig1,Contig2,Contig3...………Contig25。將Contig按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Contig總長度的一半時(shí),最后一個(gè)加上的Contig長度即為ContigN50。舉例:Contig1+Contig2+Contig3+Contig4=Contig總長度*1/2時(shí),Contig4的長度即為ContigN50。ContigN50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。什么是ScaffoldN50ScaffoldN50與ContigN50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加,能獲得一個(gè)Scaffold總長度。然后將所有的Scaffolds按照從長到短進(jìn)行排序,如獲得Scaffold1,Scaffold2,Scaffold3...………Scaffold25。將Scaffold按照這個(gè)順序依次相加,當(dāng)相加的長度達(dá)到Scaffold總長度的一半時(shí),最后一個(gè)加上的Scaffold長度即為ScaffoldN50。舉例:Scaffold1+Scaffold2+Scaffold3+Scaffold4+Scaffold5=Scaffold總長度*1/2時(shí),Scaffold5的長度即為ScaffoldN50。ScaffoldN50可以作為基因組拼接的結(jié)果好壞的一個(gè)判斷標(biāo)準(zhǔn)。什么是測序深度和覆蓋度測序深度(SequencingDepth):測序得到的堿基總量(bp)與基因組大?。℅enome)的比值,它是評價(jià)測序量的指標(biāo)之一。測序深度與基因組覆蓋度之間是一個(gè)正相關(guān)的關(guān)系,測序帶來的錯(cuò)誤率或假陽性結(jié)果會隨著測序深度的提升而下降。重測序的個(gè)體,如果采用的是雙末端或Mate-Pair方案,當(dāng)測序深度在10~15X以上時(shí),基因組覆蓋度和測序錯(cuò)誤率控制均得以保證。假設(shè)一個(gè)基因大小為2M,測序深度為10X,那么獲得的總數(shù)據(jù)量為20M。覆蓋度是指測序獲得的序列占整個(gè)基因組的比例。由于基因組中的高GC、重復(fù)序列等復(fù)雜結(jié)構(gòu)的存在,測序最終拼接組裝獲得的序列往往無法覆蓋有所的區(qū)域,這部分沒有獲得的區(qū)域就稱為Gap。例如一個(gè)細(xì)菌基因組測序,覆蓋度是98%,那么還有2%的序列區(qū)域是沒有通過測序獲得的。
denovo字面意思是全新,專業(yè)一點(diǎn)就是從頭測序。詳細(xì)點(diǎn)就是對未知基因組序列進(jìn)行測序,利用生物信息學(xué)分析手段,對序列進(jìn)行拼接、組裝,從而獲得其基因組的圖譜。測序的覆蓋度(coverage)和測序的深度(depth)。對于coverage,由于大片段拼接的gap(空白或者缺口)、測序讀長有限、重復(fù)序列等問題的存在,測序分析后組裝得到的基因組序列通常無法完全覆蓋所有區(qū)域,覆蓋度就是最終得到的結(jié)果占整個(gè)基因組的比例。例如一個(gè)人的基因組測序,覆蓋度為98.5%,那么說明該基因組還有1.5%的區(qū)域通過我們的組裝和分析無法得到;對于depth,就是被測基因組上單個(gè)堿基被測序的平均次數(shù),比如某樣本的測序深度為30X,那么就是說該樣本的基因組上每一個(gè)單堿基平均被測序(或者說讀?。┝?0次,注意,是平均。當(dāng)然了,depth也有最大和最小值,這個(gè)都可以由信息分析得到。其實(shí)也就是為了提高準(zhǔn)確率什么的,一般15X就差不多了。什么是DeBruijn圖Kautz和DeBruijn圖由于其在大型計(jì)算機(jī)互聯(lián)網(wǎng)上的應(yīng)用而被人們廣泛的研究,互聯(lián)網(wǎng)的一個(gè)重要的參數(shù)是它的等周數(shù).Deplormc和TiⅡich運(yùn)用特征值技術(shù)發(fā)現(xiàn)了Kautz和De-Bruijn圖等周數(shù)的一個(gè)上界.Buherman給出了一個(gè)構(gòu)造性的方法改進(jìn)了DeBruijn圖等周數(shù)的上).我們運(yùn)用該構(gòu)造方法得到了Kautz圖的一個(gè)新的上界.
什么是RPKM、FPKM
RPKM,ReadsPerKilobaseofexonmodelperMillionmappedreads,isdefinedinthisway[Mortazavietal.,2008]:每1百萬個(gè)map上的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。是將map到基因的read數(shù)除以map到genome的所有read數(shù)(以million為單位)與RNA的長度(以KB為單位)。
RNA-seq是透過次世代定序的技術(shù)來偵測基因表現(xiàn)量的方法,在衡量基因表現(xiàn)量時(shí),若是單純以map到的read數(shù)來計(jì)算基因的表現(xiàn)量,在統(tǒng)計(jì)上是一件相當(dāng)不合理事,因?yàn)樵陔S機(jī)抽樣的情況下,序列較長的基因被抽到的機(jī)率本來就會比序列短的基因較高,如此一來,序列長的基因永遠(yuǎn)會被認(rèn)為表現(xiàn)量較高,而錯(cuò)估基因真正的表現(xiàn)量,所以AliMortazavi等人在2008年提出以RPKM在估計(jì)基因的表現(xiàn)量
舉例:比如對應(yīng)到該基因的read有1000個(gè),總reads個(gè)數(shù)有100萬,而該基因的外顯子總長為5kb,那么它的RPKM為:10^9*1000(reads個(gè)數(shù))/10^6(總reads個(gè)數(shù))*5000(外顯子長度)=200或者:1000(reads個(gè)數(shù))/1(百萬)*5(K)=200這個(gè)值反映基因的表達(dá)水平。FPKM(fragmentsperkilobaseofexonpermillionfragmentsmapped).每1百萬個(gè)map上j的reads中map到外顯子的每1K個(gè)堿基上的reads個(gè)數(shù)。
FPKM與RPKM計(jì)算方法基本一致。不同點(diǎn)就是FPKM計(jì)算的是fragments,而RPKM計(jì)算的是reads。Fragment比read的含義更廣,因此FPKM包含的意義也更廣,可以是pair-end的一個(gè)fragment,也可以是一個(gè)read。
什么是轉(zhuǎn)錄本重構(gòu)用測序的數(shù)據(jù)組裝成轉(zhuǎn)錄本。有兩種組裝方式:1,de-novo構(gòu)建;2,有參考基因組重構(gòu)。其中de-novo組裝是指在不依賴參考基因組的情況下,將有overlap的reads連接成一個(gè)更長的序列,經(jīng)過不斷的延伸,拼成一個(gè)個(gè)的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有參考基因組重構(gòu),是指先將read貼回到基因組上,然后在基因組通過reads覆蓋度,junction位點(diǎn)的信息等得到轉(zhuǎn)錄本,常用工具包括scripture、cufflinks。什么是genefusion將基因組位置不同的兩個(gè)基因中的一部分或全部整合到一起,形成新的基因,稱作融合基因,或嵌合體基因。該基因有可能翻譯出融合或嵌合體蛋白。什么是表達(dá)譜基因表達(dá)譜(geneexpressionprofile):指通過構(gòu)建處于某一特定狀態(tài)下的細(xì)胞或組織的非偏性cDNA文庫,大規(guī)模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細(xì)胞或組織在特定狀態(tài)下的基因表達(dá)種類和豐度信息,這樣編制成的數(shù)據(jù)表就稱為基因表達(dá)譜什么是功能基因組學(xué)功能基因組學(xué)(Functuionalgenomics)又往往被稱為后基因組學(xué)(Postgenomics),它利用結(jié)構(gòu)基因組所提供的信息和產(chǎn)物,發(fā)展和應(yīng)用新的實(shí)驗(yàn)手段,通過在基因組或系統(tǒng)水平上全面分析基因的功能,使得生物學(xué)研究從對單一基因或蛋白質(zhì)得研究轉(zhuǎn)向多個(gè)基因或蛋白質(zhì)同時(shí)進(jìn)行系統(tǒng)的研究。這是在基因組靜態(tài)的堿基序列弄清楚之后轉(zhuǎn)入對基因組動態(tài)的生物學(xué)功能學(xué)研究。研究內(nèi)容包括基因功能發(fā)現(xiàn)、基因表達(dá)分析及突變檢測?;虻墓δ馨ǎ荷飳W(xué)功能,如作為蛋白質(zhì)激酶對特異蛋白質(zhì)進(jìn)行磷酸化修飾;細(xì)胞學(xué)功能,如參與細(xì)胞間和細(xì)胞內(nèi)信號傳遞途徑;發(fā)育上功能,如參與形態(tài)建成等。采用的手段包括經(jīng)典的減法雜交,差示篩選,cDNA代表差異分析以及mRNA差異顯示等,但這些技術(shù)不能對基因進(jìn)行全面系統(tǒng)的分析,新的技術(shù)應(yīng)運(yùn)而生,包括基因表達(dá)的系統(tǒng)分析(serialanalysisofgeneexpression,SAGE),cDNA微陣列(cDNAmicroarray),DNA芯片(DNAchip)和序列標(biāo)志片段顯示(sequencetaggedfragmentsdisplay。什么是比較基因組學(xué)比較基因組學(xué)(ComparativeGenomics)是基于基因組圖譜和測序基礎(chǔ)上,對已知的基因和基因組結(jié)構(gòu)進(jìn)行比較,來了解基因的功能、表達(dá)機(jī)理和物種進(jìn)化的學(xué)科。利用模式生物基因組與人類基因組之間編碼順序上和結(jié)構(gòu)上的同源性,克隆人類疾病基因,揭示基因功能和疾病分子機(jī)制,闡明物種進(jìn)化關(guān)系,及基因組的內(nèi)在結(jié)構(gòu)。什么是表觀遺傳學(xué)表觀遺傳學(xué)是研究基因的核苷酸序列不發(fā)生改變的情況下,基因表達(dá)了可遺傳的變化的一門遺傳學(xué)分支學(xué)科。表觀遺傳的現(xiàn)象很多,已知的有DNA甲基化(DNAmethylation),基因組印記(genomicimpriting),母體效應(yīng)(maternaleffects),基因沉默(genesilencing),核仁顯性,休眠轉(zhuǎn)座子激活和RNA編輯(RNAediting)等。什么是計(jì)算生物學(xué)計(jì)算生物學(xué)是指開發(fā)和應(yīng)用數(shù)據(jù)分析及理論的方法、數(shù)學(xué)建模、計(jì)算機(jī)仿真技術(shù)等。當(dāng)前,生物學(xué)數(shù)據(jù)量和復(fù)雜性不斷增長,每14個(gè)月基因研究產(chǎn)生的數(shù)據(jù)就會翻一番,單單依靠觀察和實(shí)驗(yàn)已難以應(yīng)付。因此,必須依靠大規(guī)模計(jì)算模擬技術(shù),從海量信息中提取最有用的數(shù)據(jù)。什么是基因組印記基因組印記(又稱遺傳印記)是指基因根據(jù)親代的不同而有不同的表達(dá)。印記基因的存在能導(dǎo)致細(xì)胞中兩個(gè)等位基因的一個(gè)表達(dá)而另一個(gè)不表達(dá)。基因組印記是一正常過程,此現(xiàn)象在一些低等動物和植物中已發(fā)現(xiàn)多年。印記的基因只占人類基因組中的少數(shù),可能不超過5%,但在胎兒的生長和行為發(fā)育中起著至關(guān)重要的作用。基因組印記病主要表現(xiàn)為過度生長、生長遲緩、智力障礙、行為異常。目前在腫瘤的研究中認(rèn)為印記缺失是引起腫瘤最常見的遺傳學(xué)因素之一。什么是基因組學(xué)基因組學(xué)(英文genomics),研究生物基因組和如何利用基因的一門學(xué)問。用于概括涉及基因作圖、測序和整個(gè)基因組功能分析的遺傳學(xué)分支。該學(xué)科提供基因組信息以及相關(guān)數(shù)據(jù)系統(tǒng)利用,試圖解決生物,醫(yī)學(xué),和工業(yè)領(lǐng)域的重大問題。什么是DNA甲基化CpG島,英文名稱:CpGisland定義:位于多種脊椎動物已知基因轉(zhuǎn)錄起始位點(diǎn)周圍、由胞嘧啶(C)和鳥嘧啶(G)組成的串聯(lián)重復(fù)序列。CpG島(CpGisland):CpG雙核苷酸在人類基因組中的分布很不均一,而在基因組的某些區(qū)段,CpG保持或高于正常概率,這些區(qū)段被稱作CpG島DNA甲基化是指在DNA甲基化轉(zhuǎn)移酶的作用下,在基因組CpG二核苷酸的胞嘧啶5'碳位共價(jià)鍵結(jié)合一個(gè)甲基基團(tuán)。正常情況下,人類基因組“垃圾”序列的CpG二核苷酸相對稀少,并且總是處于甲基化狀態(tài),與之相反,人類基因組中大小為100—1000bp左右且富含CpG二核苷酸的CpG島則總是處于未甲基化狀態(tài),并且與56%的人類基因組編碼基因相關(guān)。人類基因組序列草圖分析結(jié)果表明,人類基因組CpG島約為28890個(gè),大部分染色體每1Mb就有5—15個(gè)CpG島,平均值為每Mb含10.5個(gè)CpG島,CpG島的數(shù)目與基因密度有良好的對應(yīng)關(guān)系[9]。由于DNA甲基化與人類發(fā)育和腫瘤疾病的密切關(guān)系,特別是CpG島甲基化所致抑癌基因轉(zhuǎn)錄失活問題,DNA甲基化已經(jīng)成為表觀遺傳學(xué)和表觀基因組學(xué)的重要研究內(nèi)容。什么是基因組注釋基因組注釋(Genomeannotation)是利用生物信息學(xué)方法和工具,對基因組所有基因的生物學(xué)功能進(jìn)行高通量注釋,是當(dāng)前功能基因組學(xué)研究的一個(gè)熱點(diǎn)。基因組注釋的研究內(nèi)容包括基因識別和基因功能注釋兩個(gè)方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。以上轉(zhuǎn)自/2012/11/21/4810.html,稍加修改。no-redudantprotein(非冗余蛋白質(zhì))像ncbi里邊,因?yàn)椴扇〉脑瓌t是100%identical的才merge到一起去,所以它的database里邊那種nrnucleotide/protein,其實(shí)有很多都是REDUNDANT的,需要你自己manuallycurate./seqanal/db.htmlE-value
EXPECTE期望值(E-value)這個(gè)數(shù)值表示你僅僅因?yàn)殡S機(jī)性造成獲得這一alignment結(jié)果的可能次數(shù)。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。從搜索的角度看,E值越小,alignment結(jié)果越顯著。你可能會想為搜索設(shè)定一個(gè)期望值閥值(EXPECT),例如Defaults值設(shè)為10。這一設(shè)置則表示聯(lián)配結(jié)果中將有10個(gè)匹配序列是由隨機(jī)產(chǎn)生,如果聯(lián)配的統(tǒng)計(jì)顯著性值(E值)小于該值(10),則該alignment將被檢出,換句話說,比較低的閥值將使搜索的匹配要求更嚴(yán)格,結(jié)果報(bào)告中隨機(jī)產(chǎn)生的匹配序列減少。E=kmne^(-λs)RNAIntegrityNumber(RIN)TheRNAintegritynumber(RIN)isasoftwaretooldesignedtohelpscientistsestimatetheintegrityoftotalRNAsamplesTRS、DRS、SSR
根據(jù)重復(fù)序列在基因組中的分布形式可將其分為串聯(lián)重復(fù)序列(TandemRepeatsSequence,TRS)和散布重復(fù)序列(DispersedRepeatsSequence,DRS)。其中,串聯(lián)重復(fù)序列是由相關(guān)的重復(fù)單位首尾相連、成串排列而成的。發(fā)現(xiàn)的串聯(lián)重復(fù)序列主要有兩類:一類是由功能基因組成的(如rRNA和組蛋白基因);另一類是由無功能的序列組成的。
根據(jù)重復(fù)序列的重復(fù)單位的長度,可將串聯(lián)重復(fù)序列分為衛(wèi)星DNA、微衛(wèi)星DNA、小衛(wèi)星DNA等。微衛(wèi)星DNA又叫簡單重復(fù)序列(SimpleSequenceRepeat,SSR),指的是基因組中由1-6個(gè)核苷酸組成的基本單位重復(fù)多次構(gòu)成的一段DNA,廣泛分布于基因組的不同位置,長度一般在200bp以下。
簡單重復(fù)序(SSR)也稱微衛(wèi)星DNA,其串聯(lián)重復(fù)的核心序列為1一6bp,其中最常見是雙核苷酸重復(fù),即(CA)n和(TG)n每個(gè)微衛(wèi)星DNA的核心序列結(jié)構(gòu)相同,重復(fù)單位數(shù)目10一60個(gè),其高度多態(tài)性主要來源于串聯(lián)數(shù)目的不同。根據(jù)SSR核心序列排列方式的不同,可分為3種類型:完全型(perfect)。指核心序列以不間斷的重復(fù)方式首尾相連構(gòu)成的DNA。如:ATATATATATATATATATATATATATATATATAT不完全型(imperfect)。指在SSR的核心序列之間有3個(gè)以下的非重復(fù)堿基,但兩端的連續(xù)重復(fù)核心序列重復(fù)數(shù)大于3。如:ATATATATGGATATATATATCGATATATATATATATATGGATATATATAT復(fù)合型(compound)。指2個(gè)或2個(gè)以上的串聯(lián)核心序列由3個(gè)或3個(gè)以上的連續(xù)的非重復(fù)堿基分隔開,但這種連續(xù)性的核心序列重復(fù)數(shù)不少于5。如:ATATATATATATATGGGATATATATATATA3種類型中完全型是SSR標(biāo)記中應(yīng)用較多的一種類型。Domain保守域
Conservedstructuralentitieswithdistinctivesecondarystructurecontentandanhydrophobiccore.Insmalldisulphide-richandZn2+-bindingorCa2+-bindingdomainsthehydrophobiccoremaybeprovidedbycystinesandmetalions,respectively.Homologousdomainswithcommonfunctionsusuallyshowsequencesimilarities.結(jié)構(gòu)域(structuredomain)是在蛋白質(zhì)三級結(jié)構(gòu)中介于二級和三級結(jié)構(gòu)之間的可以明顯區(qū)分但又相對獨(dú)立的折疊單元,每個(gè)結(jié)構(gòu)域自身形成緊實(shí)的三維結(jié)構(gòu),可以獨(dú)立存在或折疊,但結(jié)構(gòu)域與結(jié)構(gòu)域之間關(guān)系較為松散。結(jié)構(gòu)功能域通常由25~300個(gè)氨基酸殘基組成,不同蛋白質(zhì)分子中結(jié)構(gòu)域的數(shù)目不同,同一個(gè)蛋白質(zhì)分子中的幾個(gè)結(jié)構(gòu)域彼此相似或者不盡相同。結(jié)構(gòu)域是蛋白質(zhì)的功能、結(jié)構(gòu)和進(jìn)化單位,結(jié)構(gòu)功能域分析對于蛋白質(zhì)結(jié)構(gòu)的分類和預(yù)測有著重要的作用。Bitsscores
AlignmentscoresarereportedbyHMMerandBLASTasbitsscores.Thelikelihoodthatthequerysequenceisabonafidehomologueofthedatabasesequenceiscomparedtothelikelihoodthatthesequencewasinsteadgeneratedbya“random”model.Takingthelogarithm(tobase2)ofthislikelihoodratiogivesthebitsscore.
P-value
Thisrepresentsaprobabilitythat,givenadatabaseofaparticularsize,randomsequencesscorehigherthanavalueX.P-valuesaregeneratedbytheBLASTalgorithmthathasbeenintegratedintoSMART.
E-value
Thisrepresentsthenumberofsequenceswithascoregreater-than,orequalto,X,expectedabsolutelybychance.TheE-valueconnectsthescore(“X”)ofanalignmentbetweenauser-suppliedsequenceandadatabasesequence,generatedbyanyalgorithm,withhowmanyalignmentswithsimilarorgreaterscoresthatwouldbeexpectedfromasearchofarandomsequencedatabaseofequivalentsize.Sinceversion2.0E-valuesarecalculatedusingHiddenMarkovModels,leadingtomoreaccurateestimatesthanbefore.
Motif模體
Sequencemotifsareshortconservedregionsofpolypeptides.Setsofsequencemotifsneednotn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年分離鉗行業(yè)深度研究分析報(bào)告
- 合同種類選擇(共6篇)
- Module 2 Unit 1課時(shí)二教學(xué)設(shè)計(jì)-海南???024-2025學(xué)年九年級上學(xué)期英語
- Starter Unit 3 Welcome!(教學(xué)設(shè)計(jì))2024-2025學(xué)年人教版(2024)七年級英語上冊
- 2025至2030年廳堂柜項(xiàng)目投資價(jià)值分析報(bào)告
- 《角的分類》第三課時(shí)(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教版數(shù)學(xué)四年級上冊
- 2025年陶瓷晶體諧振器項(xiàng)目可行性研究報(bào)告
- 2025年銅頭項(xiàng)目可行性研究報(bào)告
- 環(huán)保鐳射商標(biāo)行業(yè)行業(yè)發(fā)展趨勢及投資戰(zhàn)略研究分析報(bào)告
- 8大家的“朋友”(教學(xué)設(shè)計(jì))-統(tǒng)編版道德與法治三年級下冊
- 成人住院患者跌倒風(fēng)險(xiǎn)評估及預(yù)防,中華護(hù)理學(xué)會團(tuán)體標(biāo)準(zhǔn)
- 陰式子宮全切術(shù)-手術(shù)室護(hù)理查房
- 職業(yè)健康檢查流程圖
- 提高電費(fèi)回收率(QC)
- EIM Book 1 Unit 7 Learning languages單元知識要點(diǎn)
- 呼吸系統(tǒng)疾病與麻醉(薛張剛)
- WOMAC骨性關(guān)節(jié)炎指數(shù)評分表
- CRPS電源設(shè)計(jì)向?qū)?CRPS Design Guide r-2017
- SH/T 1627.1-1996工業(yè)用乙腈
- GB/T 5534-2008動植物油脂皂化值的測定
- GB/T 30797-2014食品用洗滌劑試驗(yàn)方法總砷的測定
評論
0/150
提交評論