生物信息學(xué)課件 2、數(shù)據(jù)庫(kù)1_第1頁(yè)
生物信息學(xué)課件 2、數(shù)據(jù)庫(kù)1_第2頁(yè)
生物信息學(xué)課件 2、數(shù)據(jù)庫(kù)1_第3頁(yè)
生物信息學(xué)課件 2、數(shù)據(jù)庫(kù)1_第4頁(yè)
生物信息學(xué)課件 2、數(shù)據(jù)庫(kù)1_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

核酸、蛋白質(zhì)在線數(shù)據(jù)庫(kù)資源俞海

Chapter

1Introduction

of

Database生物信息學(xué)自誕生之日起,計(jì)算機(jī)似乎就注定要成為其核心工具。飛速發(fā)展的電子計(jì)算機(jī)技術(shù)仍然趕不上生物學(xué)科海量信息的快速積累的腳步,光計(jì)算機(jī),量子計(jì)算機(jī)和生物計(jì)算機(jī)學(xué)科成為計(jì)算機(jī)技術(shù)新的發(fā)展方向?;ヂ?lián)網(wǎng)匯總著人類的文明,并成為人們生活的主題。計(jì)算機(jī)幾乎應(yīng)用在所有學(xué)科上,尤其是研究生物大分子的分子生物學(xué)和以量化生物為目的的生物信息學(xué)。計(jì)算機(jī)硬件計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)環(huán)境數(shù)據(jù)庫(kù)技術(shù)計(jì)算機(jī)語(yǔ)言生物信息學(xué)中的計(jì)算機(jī)知識(shí)CPU:體系架構(gòu)、主頻、摩爾定律、多線程、多核心…內(nèi)存:容量、運(yùn)行頻率、多通道…顯卡:運(yùn)行頻率、位寬、架構(gòu)、功率…內(nèi)置存儲(chǔ)(硬盤(pán)):介質(zhì)、容量、接口…外置存儲(chǔ):軟盤(pán)、光盤(pán)、優(yōu)盤(pán)、藍(lán)光光盤(pán)計(jì)算機(jī)硬件的發(fā)展國(guó)際互聯(lián)網(wǎng)域名系統(tǒng)(gov,edu,org,com…)TCP/IP協(xié)議HTTP、FTP、Pop3、SMTP、IMAP和BitTorrentTelnet和SSH計(jì)算機(jī)網(wǎng)絡(luò)大型機(jī),中型機(jī),小型機(jī)和微機(jī)。Server,Workstation,PC,Laptop,mobileUNIX操作系統(tǒng)以其穩(wěn)定的計(jì)算環(huán)境和良好的多用戶支持成為企業(yè)內(nèi)部和研究所采用的平臺(tái);MacOS/iOS:早期的Macintosh機(jī)由于具有優(yōu)良的圖像支持能力的圖形界面環(huán)境而廣泛應(yīng)用于圖形計(jì)算等領(lǐng)域;Windows95/98/NT/2000/XP/Vista/7/8:Microsoft的Windows操作系統(tǒng)成為PC上的主流操作系統(tǒng);Linux:源代碼開(kāi)放的完全免費(fèi)的UNIX兼容系統(tǒng),在生物信息學(xué)分析已經(jīng)顯示出巨大的生命力,并成為發(fā)展的趨勢(shì)。從事生物信息學(xué)分析的用戶一般會(huì)同時(shí)安裝Linux和Windows系統(tǒng)以滿足更深入的分析任務(wù),Linux具有很好的兼容性。Android:基于Linux深度開(kāi)發(fā)的操作系統(tǒng)(Google),最初目的用于支持手機(jī)等移動(dòng)設(shè)備,逐漸擴(kuò)展到平板電腦、電視、數(shù)碼相機(jī)和游戲機(jī)等設(shè)備。2012年占據(jù)了全球智能手機(jī)操作系統(tǒng)市場(chǎng)76%的份額。平臺(tái)開(kāi)發(fā)的開(kāi)放性是Android的首要優(yōu)勢(shì),開(kāi)發(fā)者和用戶迅速增加。計(jì)算機(jī)系統(tǒng)環(huán)境數(shù)據(jù)庫(kù)技術(shù)數(shù)據(jù)庫(kù)(DataBase,DB)是一個(gè)按數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)和管理數(shù)據(jù)的計(jì)算機(jī)軟件系統(tǒng)。數(shù)據(jù)庫(kù)方法與文件方法相比,具有以下兩個(gè)特征。1)數(shù)據(jù)庫(kù)中的數(shù)據(jù)具有數(shù)據(jù)整體性。2)數(shù)據(jù)庫(kù)中的數(shù)據(jù)具有數(shù)據(jù)共享性。①不同的用戶可以按各自的用法使用數(shù)據(jù)庫(kù)中的數(shù)據(jù)。②多個(gè)用戶可以同時(shí)共享數(shù)據(jù)庫(kù)中的數(shù)據(jù)資源。一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)由計(jì)算機(jī)硬件、數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)和數(shù)據(jù)庫(kù)管理員五部分構(gòu)成。數(shù)據(jù)庫(kù)的發(fā)展:第一代的網(wǎng)狀、層次數(shù)據(jù)庫(kù)系統(tǒng);第二代的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng);第三代的以面向?qū)ο竽P蜑橹饕卣鞯臄?shù)據(jù)庫(kù)系統(tǒng)。第三代數(shù)據(jù)庫(kù)支持多種數(shù)據(jù)模型(比如關(guān)系模型和面向?qū)ο蟮哪P停⒑椭T多新技術(shù)相結(jié)合(比如分布處理技術(shù)、并行計(jì)算技術(shù)、人工智能技術(shù)、多媒體技術(shù)、模糊技術(shù)),廣泛應(yīng)用于多個(gè)領(lǐng)域(商業(yè)管理、GIS、計(jì)劃統(tǒng)計(jì)等),由此也衍生出多種新的數(shù)據(jù)庫(kù)技術(shù)。e.g.學(xué)籍信息、庫(kù)房管理、電子商務(wù)…數(shù)據(jù)庫(kù)的基本概念-SQL簡(jiǎn)介SQL是關(guān)系數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)語(yǔ)言,對(duì)關(guān)系模型的發(fā)展和商用DBMS的研制起著重要的作用。SQL語(yǔ)言是介乎于關(guān)系代數(shù)和元組演算之間的一種語(yǔ)言。SQL語(yǔ)言:即結(jié)構(gòu)化查詢語(yǔ)言,是基于關(guān)系代數(shù)運(yùn)算的一種關(guān)系數(shù)據(jù)查詢語(yǔ)言。(SELECT*FROMSequenceTableWHEREvirustype=‘HBV’)SQL語(yǔ)言的特點(diǎn):⑴SQL是一種通用的、功能較強(qiáng)的數(shù)據(jù)庫(kù)語(yǔ)言;⑵面向集合的操作方式;⑶SQL具有兩種使用方式,一種是自含語(yǔ)言,另一種是宿主語(yǔ)言;⑷SQL語(yǔ)言簡(jiǎn)潔、易學(xué)。計(jì)算機(jī)語(yǔ)言機(jī)器語(yǔ)言匯編語(yǔ)言高級(jí)語(yǔ)言C,C++,C#,VB.Net,Pascal,JAVAPython,PerlObject-C…Composition

ofBiological

Database數(shù)據(jù)庫(kù)記錄通常包括兩部分:原始數(shù)據(jù)對(duì)這些數(shù)據(jù)進(jìn)行的生物學(xué)意義的注釋通常情況下,一個(gè)數(shù)據(jù)庫(kù)常關(guān)聯(lián)許多數(shù)據(jù)庫(kù)。Database一級(jí)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋。二級(jí)數(shù)據(jù)庫(kù)對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。Chapter2BiologicalDatabases

The

NAR

online

Molecular

Biology

Database

Collection,

hasbeen

updated

and

currently

lists

1512

online

databases.Biological

Databases生物信息數(shù)據(jù)庫(kù)種類繁多,歸納起來(lái)大體可以分為4個(gè)大類一.核酸序列數(shù)據(jù)庫(kù)二.蛋白質(zhì)序列數(shù)據(jù)庫(kù)三.結(jié)構(gòu)數(shù)據(jù)庫(kù)四.基因組數(shù)據(jù)庫(kù)其他分類一.核酸序列數(shù)據(jù)庫(kù)GenBank

(美國(guó)國(guó)家生物技術(shù)信息中心NCBI)/Genbank/ENA

(歐洲分子生物學(xué)實(shí)驗(yàn)室EMBL

)http://www.ebi.ac.uk/ena/homeDDBJ

(日本國(guó)立遺傳研究所)http://www.ddbj.nig.ac.jp/searches-e.html這三個(gè)大型數(shù)據(jù)庫(kù)于1982年達(dá)成協(xié)議,組成合作聯(lián)合體。每天交換信息

Accession

number,序列數(shù)據(jù)和注解相同NationalCenterforBiotechnologyInformationNCBI是美國(guó)國(guó)立衛(wèi)生研究院(NIH)的美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館(NLM)的一個(gè)分支。1988年國(guó)立生物技術(shù)信息中心(NCBI)成立。What

does

NCBI

do?conductsresearchincomputationalbiology,developssoftwaretoolsforanalyzinggenomedata,anddisseminatesbiomedicalinformation-allforthebetterunderstandingofmolecularprocessesaffectinghumanhealthanddisease.NCBI

綜合檢索平臺(tái)(Entrez)GenBankGenBank數(shù)據(jù)庫(kù)中有部分蛋白質(zhì)序列數(shù)據(jù)每天更新,每年發(fā)行release)六版GenBank的數(shù)據(jù)來(lái)源于約380,000多個(gè)物種,包含了所有已知的核酸序列和蛋白質(zhì)序列,以及與它們相關(guān)的文獻(xiàn)著作和生物學(xué)注釋。GenBank的數(shù)據(jù)完全公開(kāi),也接受世界各國(guó)實(shí)驗(yàn)室送交的核酸序列數(shù)據(jù)要大批下載GenBank的數(shù)據(jù),可用匿名FTP的方式進(jìn)入:

;要獲取少量數(shù)據(jù),可進(jìn)入NCBI網(wǎng)站,使用EntrezGenBank數(shù)據(jù)來(lái)源GenBank數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源有三種:1、直接來(lái)源于測(cè)序工作者提交的序列;2、與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù);3、美國(guó)專利局提供的專利數(shù)據(jù)。特殊標(biāo)志符的格式

(核酸序列)

Accession

number

(GenBank/EMBL/DDBJ序列接受號(hào))1個(gè)字母+5個(gè)阿拉伯?dāng)?shù)字2個(gè)字母+6個(gè)阿拉伯?dāng)?shù)字其他格式

GI(GenInfo

identifier)一串阿拉伯?dāng)?shù)字

RefSeq(Reference

Sequence)序列接受號(hào):mRNA記錄(NM_*):NM_000492基因組DNA重疊群(NT_*):

NT_000347完整的基因組或染色體(NC_*):

NC_000907基因組的局部區(qū)域(NG_*):

NG_000019從人類基因組序列注釋、加工得到的序列模型記錄(XM,XP,orXR_*):XM_000483

AF392820Case

Study若檢索與細(xì)胞凋亡有關(guān)的自噬基因“autophagy”的核酸序列進(jìn)入NCBI主頁(yè)Search“autophagy”for“Nucleotide”

點(diǎn)擊“go”開(kāi)始查詢Search

results:輔助功能

各種輔助功能:包括限定查詢范圍(Limits)、保存查詢結(jié)果(Save

search)、高級(jí)查詢(Advanced

search)和幫助(Help)等,以提高查詢效率。

點(diǎn)擊”Limits”按鈕,可以將輸入的關(guān)鍵詞的查詢范圍限制在某個(gè)范圍內(nèi),如分子類型、數(shù)據(jù)庫(kù)來(lái)源、提交日期等。

Limited

to:Gene

Location搜索結(jié)果減少為8912GenBank

FlatfileGenBank

flatfile(GBFF):GenBank數(shù)據(jù)庫(kù)的基本信息單位,也是最廣泛地用以表示生物序列的格式之一。GBFF可以分成三個(gè)部分:?頭部包含關(guān)于整個(gè)記錄的信息(描述符)?第二部分包含了注釋這一記錄的特性?第三部分是核苷酸序列自身。所有的核苷酸數(shù)據(jù)庫(kù)記錄(DDBJ/EMBL/GenBank)都在最后一行以//結(jié)尾。NM_001142673字段含義解釋LOCUSIdentifier序列名稱、性質(zhì)描述ACCESSIONAccessionnumber序列接受號(hào)DEFINITIONDescription序列定義KEYWORDSKeywords關(guān)鍵詞SOURCEOrganism(species)來(lái)源種屬ORGANISMOrganism(classification)來(lái)源分類REFERENCEReferencenumber參文條目AUTHORSReferenceauthors參文作者TITLEReferencetitle參文題目JOURNALReferencelocation參文出處COMMENTSDatabasecross-reference交叉索引MEDLINEMedlinenumberMEDLINE號(hào)FEATURESFeaturetableheaderdata序列性質(zhì)表頭數(shù)據(jù)BASECOUNT堿基數(shù)目ORIGIN序列開(kāi)始標(biāo)志//Terminationline序列終止標(biāo)志GenBank的主要字段及其含義常見(jiàn)的序列文件格式-Staden一個(gè)Staden格式的序列文件僅僅含有序列本身,用單字母表示核苷酸或氨基酸,每行60個(gè)字母。大多數(shù)程序都識(shí)別這個(gè)基本的格式。但是Staden格式的文件中不包含任何與序列有關(guān)的信息,信息必須通過(guò)一個(gè)鏈接保留在另外一個(gè)獨(dú)立的文件在中。常見(jiàn)的序列文件格式-GCGGCG格式中序列有關(guān)的信息放在序列正文前,用兩個(gè)點(diǎn)表示序列正文的開(kāi)始。GCG文件格式中有一個(gè)被稱為checksum(checknumber)的數(shù)值(按一定的算法計(jì)算)。該值由序列的組成和長(zhǎng)度計(jì)算而來(lái),以用來(lái)檢測(cè)GCG文件是否受損。因?yàn)楫?dāng)GCG序列被送入程序前,程序重新計(jì)算這個(gè)數(shù)值,并與文件中的check值比較,如果不符,序列被認(rèn)為受損,程序?qū)⒕芙^執(zhí)行。因此編輯序列時(shí),應(yīng)該用相關(guān)的序列編輯軟件,因?yàn)樗梢员WC序列的完整性。常見(jiàn)的序列文件格式-FASTA標(biāo)準(zhǔn)的FASTA文件格式,是以“>”開(kāi)頭的一行注釋行,第二行起為序列行,每序列行含核苷酸殘基數(shù)(nt)為50或60個(gè)。而FASTA文件(*.fas)基本上是各個(gè)生物信息學(xué)軟件均認(rèn)可的通用格式,包括向GenBank數(shù)據(jù)庫(kù)注冊(cè)序列。無(wú)特殊說(shuō)明,本文所述的“文件”均指核酸序列文件。>Protein1MRPRPILLLLLMFLPMLPAPPPGQPSGRRRGRRSGGSGGGFWGDRADSQPFAIPYIHPTNEHVIPSERLHYRNQGWRSVETSGVAEEEATSGLVMLCIHGSLVNSYTNTPYTGALGLLDF常見(jiàn)的序列文件格式-PRI/NBRF該文件格式有兩行注釋,第一行仍然以“>”開(kāi)頭。序列正文結(jié)束時(shí)以“*”結(jié)尾。常見(jiàn)的序列文件格式-GenBank除GCG和Staden文件格式外,F(xiàn)asta、PIR、GenBank格式可以在一個(gè)文件中保留多個(gè)序列。常見(jiàn)的序列文件格式-DNAStarCreated:2004年6月9日21:31^^ATGATAGCGCTTACCCTGTTTAACCTTGCTGACACCCTGCTAGGCGGTCTACCCACAGAATTGATTTCGTCGGAGGTGGACAGCTGTTCTACTCTCGTCCCGTTGTCTCGGCCAATGGCGAGCCGACTGTTAAGCTTTATACA2.

EMBL(European

Molecular

Biology

Laboratory)EBI

(European

Bioinformatics

Institute)管理主要是歐洲國(guó)家產(chǎn)生的DNA和RNA序列序列數(shù)據(jù)文檔格式與GenBank不同3.

DDBJ(DNA

Data

Bank

of

Japan)主要是日本產(chǎn)生的DNA和RNA序列發(fā)表文章要提供Accession

number上機(jī)操作登錄NCBI網(wǎng)站登錄EMBL網(wǎng)站登錄DDBJ網(wǎng)站按ID查找:AF111847按關(guān)鍵字查找:hepatitisbvirus打開(kāi)GenBank格式的核酸(蛋白)數(shù)據(jù)頁(yè)面打開(kāi)EMBL格式的核酸(蛋白)數(shù)據(jù)頁(yè)面下載FASTA格式的序列文件上機(jī)操作篩選:查找人的表皮生長(zhǎng)因子的全長(zhǎng)序列高級(jí)查詢:查找今年以來(lái)新報(bào)道的HBV(乙肝病毒)全基因組序列(((("2013/1/1"[PublicationDate]:"3000"[PublicationDate]))ANDhepatitisbvirus[Title])ANDcompletegenome[Title])Search(((

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論