第二講 文獻、核酸序列、蛋白質(zhì)序列查詢_第1頁
第二講 文獻、核酸序列、蛋白質(zhì)序列查詢_第2頁
第二講 文獻、核酸序列、蛋白質(zhì)序列查詢_第3頁
第二講 文獻、核酸序列、蛋白質(zhì)序列查詢_第4頁
第二講 文獻、核酸序列、蛋白質(zhì)序列查詢_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二講文獻、核酸序列、蛋白質(zhì)序列的搜索2014/9/13李永海副教授遺傳與基因工程教研室生命科學技術(shù)學院第一節(jié)文獻及核酸蛋白序列的搜索NIH?美國Department

of

Health

&

Human

Services

的下屬機構(gòu)?NIH=NationalInstitute

of

HealthNIH

Mark

O.

Hatfield

Clinical

Research

Center,

Bethesda,

Maryland,

USNIH?美國生物醫(yī)學界科研經(jīng)費的主要來源之一–2013年預算為308.6億美元–2013年NSF(NationalScience

Foundation)預算為73.73億美元–2012年國家自然基金委預算為124.8億元–2012年科技部預算為286.78億元(包括行政支出)–(124.8+286.78)/6.2=66.38億美元0

NIH?27個下屬機構(gòu),1200個PI,4000多個博士后Career

levelYears

of

experienceStipendPostdoctoral1234567

or

more$39,264$41,364$44,340$46,092$47,820$49,884$51,582$54,180NCBI?世界上最大,最全,最常用,也是最完備的生物信息數(shù)據(jù)庫?世界上生物醫(yī)學的文獻集中營?生物研究者最常用的網(wǎng)站利用NCBI進行文獻查詢?Non‐redundant?大致按照時間排序?條件寬松?舉例:查詢有關(guān)Methanosarcinaacetivorans(乙酸甲烷八疊球菌)的論文????常用使用技巧多添加關(guān)鍵詞可以減少搜出的文獻數(shù)量作者+關(guān)鍵詞是一種好辦法作者的名字:Ferry

JG使用好Advanced?郵件通知可以將某一個領(lǐng)域的新論文每天都發(fā)給你ISIWebofKnowledge?ThomsoScientific公司開發(fā)的信息檢索平臺,通過這個平臺用戶可以檢索關(guān)于自然科學、社會科學、藝術(shù)與人文學科的文獻信息,包括國際期刊、免費開放資源、圖書、專利、會議錄、網(wǎng)絡(luò)資源等,可以同時對多個數(shù)據(jù)庫(包括專業(yè)數(shù)據(jù)庫和多學科綜合數(shù)據(jù)庫)進行單庫或跨庫檢索,可以使用分析工具,可以利用書目信息管理軟件。?提供了精確的,無冗余的文獻搜索服務(wù)?更重要的,Web

of

knowledge提供了引用分析?Web

of

knowledge具有無可辯駁的權(quán)威性SCI?SCI=Science

Citation

Index?JCR=Journal

Citation

Report–每年六月份發(fā)布上一年的影響因子結(jié)果?什么叫做引用–自引–他引?影響因子:近兩年的總引用數(shù)除以近兩年的

總論文數(shù)影響因子的問題?領(lǐng)域之間不一致;?Open

access可以提高影響因子;?雜志的種類(review,綜合性等)影響很大;?編輯政策有很大影響;?以影響因子為綱很容易使得科研工作者急功近利.中科院分區(qū)?一區(qū):第一流雜志?二區(qū):主流雜志?三區(qū):灌水雜志?四區(qū):垃圾雜志h‐index?一個科研工作者的h-index意味著他發(fā)表過被引用h次以上的論文共h篇。?在物理學界–h=12:副教授–h=18:正教授–h=15‐20:美國物理學會的fellowship–h=45:美國院士ESI數(shù)據(jù)庫是一個衡量科學研究績效、跟蹤科學發(fā)展趨勢的基本分析評價工具,是基于ISI引文索引數(shù)據(jù)庫ScienceCitationIndex(簡稱SCI)和SocialScienceCitationIndex(簡稱SSCI)所收錄的全球8500多種學術(shù)期刊的900萬多條文獻紀錄而建立的計量分析數(shù)據(jù)庫。ESI在農(nóng)學、生物學、化學等22個專業(yè)領(lǐng)域內(nèi)分別對國家、研究機構(gòu)、期刊、論文、科學家進行統(tǒng)計分析和排序,幫助用戶了解在一定排名范圍內(nèi)的科學家、研究機構(gòu)(大學)、國家(城市)和學術(shù)期刊在某一學科領(lǐng)域的發(fā)展和影響力。ESIESI?按照工作的重要性對人/單位/論文排名?重要性的主要評價標準是總引用次數(shù)和平均引用率?????Google

scholar不但可以搜索論文,而且可以搜索專利。絕無漏網(wǎng)之魚;可以搜索全文;按照相關(guān)性排序;查找“最相關(guān)”論文的時候有用;?搜索很寬松;?不適合用來做“l(fā)iterature

survey”

新鄉(xiāng)醫(yī)學院圖書館資源學術(shù)搜索與全文遞送系統(tǒng)

Pubmed檢索平臺

Ovid-Medline醫(yī)學文獻庫

Ovid-LWW醫(yī)學期刊全文數(shù)據(jù)庫

SpringLINK全文數(shù)據(jù)庫

新鄉(xiāng)醫(yī)學院館藏外文期刊全文數(shù)據(jù)庫

外文博碩士論文服務(wù)系統(tǒng)(FDTS)

NSTL外文回溯期刊全文數(shù)據(jù)庫

NSTL國外網(wǎng)絡(luò)版期刊跨庫檢索平臺

CNPLINKER中圖在線

OpenAccessLibrary開放存取資源ScienceDirect數(shù)據(jù)庫

DIALOG國際聯(lián)機檢索系統(tǒng)

中國科學文獻服務(wù)系統(tǒng)

萬方數(shù)據(jù)知識服務(wù)平臺

萬方醫(yī)學網(wǎng)中國期刊全文數(shù)據(jù)庫(本地)

中國知識資源總庫(本地)

中國專利全文數(shù)據(jù)庫

中文科技期刊數(shù)據(jù)庫

維普期刊資源整合服務(wù)平臺

中國生物醫(yī)學文獻服務(wù)系統(tǒng)

TIGR數(shù)據(jù)庫?TIGR數(shù)據(jù)庫是Craig

Venter

Institute建立并

維護的微生物數(shù)據(jù)庫。?TIGR數(shù)據(jù)庫比NCBI數(shù)據(jù)庫注釋更加精確,也

更加易于查詢相應(yīng)基因上下游的情況?三天兩頭罷工特定基因的上下游序列?利用各數(shù)據(jù)庫均可以查詢?各數(shù)據(jù)庫之間均可互相印證?舉例:Trichoderma

reesei

的tmk3基因的上

下游基因基因的預測?整體上來說,基因預測目前并不十分準確?基因預測的必要性不大?可以利用GENSCAN來預測基因?/GENSCAN.html利用NCBI對蛋白質(zhì)的查詢?利用NCBI對蛋白質(zhì)的查詢和對基因的查詢類似?蛋白質(zhì)也有相似的Accession

No.和GI

number?注意蛋白質(zhì)和核酸的序列并不是一一對應(yīng)的。?FASTA格式通過NCBI鑒定蛋白質(zhì)的結(jié)構(gòu)域進行序列相似性搜索:blast和FASTA第二節(jié)基于blast的序列搜索數(shù)據(jù)庫搜索的基礎(chǔ)是序列的相似性比對及雙序列對比。實際工作中我們經(jīng)常遇到的兩種情況開始序列已知嗎?數(shù)據(jù)庫搜索Y數(shù)據(jù)庫檢索(SRS/Entrez)N數(shù)據(jù)庫中有與之相似的序列嗎?

數(shù)據(jù)庫查詢?yōu)樯飳W研究提供了一個重要工具,在實際工作中經(jīng)常使用。然而,在分子生物學研究中,對于新測定的堿基序列或由此翻譯得到的氨基酸序列,往往需要通過數(shù)據(jù)庫搜索,找出具有一定相似性的同源序列,以推測該未知序列可能屬于哪個基因家族,具有哪些生物學功能。對于氨基酸序列來說,有可能找到已知三維結(jié)構(gòu)的同源蛋白質(zhì)而推測其可能的空間結(jié)構(gòu)。因此,數(shù)據(jù)庫搜索與數(shù)據(jù)庫查詢一樣,是生物信息學研究中的一個重要工具。數(shù)據(jù)庫搜索的基礎(chǔ)是序列的相似性比對,即雙序列比對(pairwisealignment)。新測定的、希望通過數(shù)據(jù)庫搜索確定其性質(zhì)或功能的序列稱作檢測序列(probesequence);通過數(shù)據(jù)庫搜索得到的和檢測序列具有一定相似性的序列稱目標序列(subjectsequence)。為了確定檢測序列和一個已知基因家族之間的進化關(guān)系,在通過數(shù)據(jù)庫搜索得到某些相似序列后,還需要判斷其序列相似性程度。如果檢測序列和目標序列的相似性程度很低,還必須通過其它方法或?qū)嶒炇侄尾拍艽_定其是否屬于同一基因家族。對統(tǒng)計學意義的評價--E值(E-Value)P值(P-Value)(概率值)

BLAST程序中使用了E值而非P值,這主要是從直觀和便于理解的角度考慮。比如E值等于5和10,總比P值等于0.993和0.99995更直觀。但是當E<0.01時,P值與E值接近相同。E值就是S值可靠性的評價。它表明在隨機的情況下,其它序列與目標序列相似度要大于這條顯示的序列的可能性。所以它的分值越低越好。表6數(shù)據(jù)庫相似性搜索程序BLAST和FASTA程序清單注:n:核酸序列或核酸序列庫;p:蛋白質(zhì)序列或蛋白質(zhì)序列庫

FastA和BLAST程序是目前最常用的基于局部相似性的數(shù)據(jù)庫搜索程序,它們都基于查找完全匹配的短小序列片段,并將它們延伸得到較長的相似性匹配。它們的優(yōu)勢在于可以在普通的計算機系統(tǒng)上運行,而不必依賴計算機硬件系統(tǒng)而解決運行速度問題。

BLAST是目前常用的數(shù)據(jù)庫搜索程序,它是BasicLocalAlignmentSearchTool的縮寫,意為“基本局部相似性比對搜索工具”[Altschul,1990,1997]。國際著名生物信息中心都提供基于Web的BLAST服務(wù)器。BLAST程序之所以使用廣泛,主要因為其運行速度比FastA等其它數(shù)據(jù)庫搜索程序快,而改進后的BLAST程序允許空位的插入??梢栽L問NCBI的網(wǎng)站在線進行BLAST和FastA的搜索表7BLAST程序檢測序列和數(shù)據(jù)庫類型程序名檢測序列數(shù)據(jù)庫類型方法Blastp蛋白質(zhì)蛋白質(zhì)用檢測序列蛋白質(zhì)搜索蛋白質(zhì)序列數(shù)據(jù)庫Blastn核酸核酸用檢測序列核酸搜索核酸序列數(shù)據(jù)庫Blastx核酸蛋白質(zhì)將核酸序列按6條鏈翻譯成蛋白質(zhì)序列后搜索蛋白質(zhì)序列數(shù)據(jù)庫Tblastn蛋白質(zhì)核酸用檢測序列蛋白質(zhì)搜索由核酸序列數(shù)據(jù)庫按6條鏈翻譯成的蛋白質(zhì)序列數(shù)據(jù)庫Tblastx核酸核酸將核酸序列按6條鏈翻譯成蛋白質(zhì)序列后搜索由核酸序列數(shù)據(jù)庫按6條鏈翻譯成的蛋白質(zhì)序列數(shù)據(jù)庫

BLAST程序是免費軟件,可以從美國國家生物技術(shù)信息中心NCBI等文件下載服務(wù)器上獲得,安裝在本地計算機上,包括UNIX系統(tǒng)和WINDOWS系統(tǒng)的各種版本。但必須有BLAST格式的數(shù)據(jù)庫,可以從NCBI下載,也可以利用該系統(tǒng)提供的格式轉(zhuǎn)換工具由其它格式的核酸或蛋白質(zhì)序列數(shù)據(jù)庫經(jīng)轉(zhuǎn)換后得到。對核酸序列數(shù)據(jù)庫而言,不論用哪種方式,都需要很大的磁盤空間;而程序運行時,需要有較大的內(nèi)存和較快的運算速度,因此必須使用高性能的服務(wù)器。

歐洲生物信息研究所BLAST服務(wù)器的用戶界面(圖4)比較簡潔,提供的數(shù)據(jù)庫和參數(shù)很多,用戶可以根據(jù)不同要求,選擇不同的數(shù)據(jù)庫和各種參數(shù)。一般情況下,可以先按照系統(tǒng)給定的缺省參數(shù)進行初步搜索,對結(jié)果進行分析后再適當調(diào)整參數(shù),如改變相似性矩陣、增加或減少空位罰分值、調(diào)節(jié)檢測序列滑動窗口大小等。對于核酸序列數(shù)據(jù)庫,一般選擇重復序列屏蔽功能,而對于蛋白質(zhì)序列,特別是球蛋白,通常不必選擇重復序列屏蔽功能。圖4歐洲生物信息學研究所的BLAST服務(wù)器的用戶界面BLAST結(jié)果的評價比對好壞的評價:Bit分值;考慮了比對中相同和相似基團、gap、替代矩陣,并經(jīng)過標化;

Bit分值越高,比對越好;比對統(tǒng)計學意義的評價:E值(E-value)

E值越低,則比對就更有可能具有顯著性;其他:比對的長度也是一個關(guān)鍵因素。BLAST程序的選擇蛋白:BLASTP-tBLASTN核酸:blastn-blastx-tblastx數(shù)據(jù)庫的選擇:nr最為常用;month跟蹤每個月新增數(shù)據(jù);Swissprot蛋白庫注釋詳盡。比對結(jié)果是否有意義的判定統(tǒng)計學顯著性;一致性:蛋白序列>25%,核酸序列>70%(參考);長度。BasicLocalAlignmentSearchTool,BLAST

(基本的局部比對搜索工具)UsingNCBI-BLAST1.ChoosingtheBLASTProgram2.EnteringtheQuerySequenceTherearethreeoptionsforthis:pasteinthebaresequence,pasteinafileinFASTAformat,orenteravalidNCBIidentifier.>gi|11611818|gb|AF287139.1|AF287139LatimeriachalumnaeHoxa-11gene,partialcdsTACTTGCCAAGTTGCACCTACTACGTTTCGGGTCCCGATTTCTCCAGCCTCCCTTCTTTTTTGCCCCAGACCCCGTCTTCTCGCCCCATGACATACTCCTATTCGTCTAATCTACCCCAAGTTCAACCTGTGAGAGAAGTTACCTTCAGGGACTATGCCATTGATACATCCAATAAATGGCATCCCAGAAGCAATTTACCCCATTGCTACTCAACAGAGGAGATTCTGCACAGGGACTGCCTAGCAACCACCACCGCTTCAAGCATAGGAGAAATCTTTGGGAAAGGCAACGCTAACGTCTACCATCCTGGCTCCAGCACCTCTTCTAATTTCTATAACACAGTGGGTAGAAACGGGGTCCTACCGCAAGCCTTTGACCAGTTTTTCGAGACGGCTTATGGCACAACAGAAAACCACTCTTCTGACTACTCTGCAGACAAGAATTCCGACAAAATACCTTCGGCAGCAACTTCAAGGTCGGAGACTTGCAGGGAGACAGACGAGAAGGAGAGACGGGAAGAAAGCAGTAGCCCAGAGTCTTCTTCCGGCAACAATGAGGAGAAATCAAGCAGTTCCAGTGGTCAACGTACAAGGAAGAAGAGGTGC

3.ChoosingtheDatabasetoSearchDatabases:Proteindatabases(1)nonredundant(非冗余數(shù)據(jù)庫)Theproteindatabaseisconstructedfrom:-SwissProt,-SwissProtupdates,-SwissProtsplicevariants,-TrEMBL,-TrEMBLupdates,-TrEMBLsplicevariants,-Genpept,-Genpeptupdates,-andasmallsubsectionofPIRcontainingsequencesnotintheotherdatabases(usuallyforgoodreasons).Updatedweekly,usuallyonweekends.Databases:Proteindatabases(2)SwissProt

ThemostrecentfullreleaseofSwissProt.Doesincludeweeklyupdatesandsplicevariants.SwissProt/TrEMBL/TrEMBL_NEW

AcombinationofSwissProtandTrEMBL(includingupdatesandsplicevariantsbutnotREM-TrEMBL).ThisdatabasecontainsallconsolidatedproteinsandORFs(updatedweekly).TrEMBL/TrEMBL_NEW

Sameasabove,butwithoutSwissProt.Databases:Proteindatabases(3)GenPept(由GenBank編碼序列自動翻譯而成的數(shù)據(jù)庫)

ThemostrecentreleaseofGenPeptfile.Doesnotincludeupdates(updatedweekly).GenPeptupdates

ThemostrecentGenPeptupdatefile.Usefulforlimitingthesearchtonewsequences(updatedweekly).Databases:Proteindatabases(4)Worm(C.elegans)TheproteindatabasecontainsallannotatedC.elegansORFs(updatedoccasionally).Yeast(S.cerevisiae)TheproteindatabasecontainsallannotatedyeastORFs(updatedoccasionally).Non-redundant3DstructureAnon-redundantdatabaseofallthesequencesfoundinPDB(updatedoccasionally).Allmicrobialgenomes

Acollectionofallavailablemicrobial(archaeandeubacteria)genomesfromtheHAMAPproject(updatedweekly).Databases:DNAdatabases(1)EMBLisnowprovidedinthedifferentsubdivisions(Updatedweekly,usuallyonweekends.):Bacteriophage(phg)Fungi(fun)GSS(gss)STS(sts)HTG(htg)Human(hum)Invertebrate(inv)Organelles(org)OtherMammals(mam)OtherVertegrates(vrt)Patents(patent)Plants(pln)Prokaryotes(pro)Rodents(rod)Synthetic(syn)Other(unclassified)(unc)Viruses(vrl)YoucanselectthemostrecentfullreleaseoftheEMBLdatabasesorthecumulativeweeklyupdates(updatedweekly).

DoesnotcontaintheESTsections.Databases:DNAdatabases(2)dbESTisnowprovidedinsubdivisions(updatedweekly):Human(est_hum)Mouse(est_mus)Rat(est_rat)Rodent(est_rod)Cow(est_cow)Plants(est_pln)OtherMammals(est_mam)Zebrafish(est_dan)OtherVertebrates(est_vrt)Arabidopsis(est_ara)Drosophila(est_dro)Invertebrates(est_inv)Fungi(est_fun)Prokaryotes(est_pro)4.ChoosingtheParametersofthe

Search/Blast.cgi?PROGRAM=blastn&BLAST_PROGRAMS=megaBlast&PAGE_TYPE=BlastSearch&SHOW_DEFAULTS=on&LINK_LOC=blasthome5.SubmittingtheSearch6.ViewingtheResults7.ChoosingtheFormatHeaderofaBLASTreportThebody:graphicaloverviewThebody:one-linedescriptionsThebody:al

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論