生物信息學(xué)第二講癌癥相關(guān)數(shù)據(jù)庫_第1頁
生物信息學(xué)第二講癌癥相關(guān)數(shù)據(jù)庫_第2頁
生物信息學(xué)第二講癌癥相關(guān)數(shù)據(jù)庫_第3頁
生物信息學(xué)第二講癌癥相關(guān)數(shù)據(jù)庫_第4頁
生物信息學(xué)第二講癌癥相關(guān)數(shù)據(jù)庫_第5頁
已閱讀5頁,還剩63頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

癌癥相關(guān)數(shù)據(jù)庫廖

奇寧波大學(xué)醫(yī)學(xué)院http://2016./Team:NJU-China/Background癌癥在中國的情況http://2016./Team:NJU-China/Background癌癥相關(guān)數(shù)據(jù)庫Nucleic

AcidsResearch雜志中列出癌癥相關(guān)的數(shù)據(jù)庫列表:/nar/database/subcat/8/33基因組變異數(shù)據(jù)庫(突變、SNP、插入、缺失、拷貝)癌癥相關(guān)基因數(shù)據(jù)庫(促癌、抑癌基因、轉(zhuǎn)移相關(guān)基因)癌癥基因表達數(shù)據(jù)庫(利用基因芯片、測序檢測等技術(shù)檢測基因在各癌癥的表達情況、差異表達分析)癌癥表觀遺傳修飾數(shù)據(jù)庫(DNA甲基化、表觀遺傳修飾)非編碼RNA(癌癥相關(guān)miRNAs,circRNAs,lncRNAs等)

癌癥調(diào)節(jié)網(wǎng)絡(luò)關(guān)系數(shù)據(jù)庫(癌癥基因間的調(diào)節(jié)關(guān)系)癌癥大規(guī)模數(shù)據(jù)儲存、分析平臺(癌癥相關(guān)高通量數(shù)據(jù)的查詢、訪問及分析)癌癥基因組變異數(shù)據(jù)庫COSMIC:

人類癌癥體細胞突變數(shù)據(jù)庫,

最大、最全面,https://cancer.sanger.ac.uk/cosmic,包含4個子數(shù)據(jù)庫,

分別為:COSMIC,COSMIC核心

,專業(yè)審核過的體細胞突變Cell

Lines

Project,超過1000個癌癥細胞系的突變譜COSMIC-3D,三維結(jié)構(gòu)下動態(tài)展示癌癥的突變Cancer

Gene

Census,癌癥突變基因HGMD:實驗驗證的人類基因突變數(shù)據(jù)庫http://www.hgmd.cf.ac.uk/ac/index.phpClinVar

a

public

archive

of

reports

of

the

relationships

among

human

variations

and

phenotypes

(包含癌癥)https:///clinvar/OMIM

:人類基因和遺傳紊亂的數(shù)據(jù)庫(包含癌癥)/DriverDBv2:主要來自外顯子測序的人類腫瘤driver基因/突變數(shù)據(jù)庫:.tw/driverdbIntOGen:腫瘤driver/突變基因數(shù)據(jù)庫,https://TCGA

:癌癥基因組突變數(shù)據(jù)庫,

/CaSNP

SNP芯片來源的基因拷貝數(shù)據(jù)庫.

/CaSNP/癌癥基因相關(guān)數(shù)據(jù)庫CCGD:

基于鼠遺傳篩選來源的癌癥基因數(shù)據(jù)庫,http://ccgd-

/about.phpTumorAssociatedGene:利用Pubmed數(shù)據(jù)庫的文本挖掘方法鑒定的腫瘤相關(guān)基因,.tw/TAG/GeneDoc.phpTissGDB:癌癥中組織特異基因數(shù)據(jù)庫,

/TissGDB/index.htmlHCMDB:

癌癥轉(zhuǎn)移相關(guān)基因數(shù)據(jù)庫,/index癌癥基因表達數(shù)據(jù)庫Cancer

RNA-seqNexus:來自GEO數(shù)據(jù)庫和TCGA數(shù)據(jù)庫中癌癥相關(guān)RNA-seq處理的差異表達基因,

.tw/Expression

Atlas:不同條件下(包括癌癥)基因表達情況數(shù)據(jù)庫,

https://www.ebi.ac.uk/gxa/homeOncomine:大型腫瘤基因芯片數(shù)據(jù)庫,提供基因在癌癥的表達信息、差異分析和工標的分析,GEPIA:基因在癌癥的表達信息、生存分析(

TCGA來源的數(shù)據(jù)),/非編碼RNA相關(guān)miRCancer:癌癥相關(guān)miRNAs數(shù)據(jù)庫,/OncomiRDB:癌癥相關(guān)miRNAs數(shù)據(jù)庫,

/member/jgu/oncomirdb/lnc2Cancer:癌癥相關(guān)lncRNAs數(shù)據(jù)庫,

/lnc2cancer/Lnc2Catlas:癌癥相關(guān)lncRNAs數(shù)據(jù)庫,

/LncRNA-Cancergene

co-expressionnetwork:

癌癥基因與lncRNAs共表達關(guān)系數(shù)據(jù)庫,/癌癥調(diào)節(jié)關(guān)系數(shù)據(jù)庫NCG5.0:

癌癥基因相互作用,如蛋白蛋白相互作用,miRNA調(diào)節(jié)關(guān)系,也提供表達等相關(guān)信息,http://ncg.kcl.ac.uk/index.phpCistrome

cancer:

癌癥中轉(zhuǎn)錄因子調(diào)節(jié)關(guān)系數(shù)據(jù)庫,/CistromeCancer/starBase:

包含非編碼RNAs調(diào)節(jié)關(guān)系(miRNA-target,ceRNA等)在癌癥的表達相關(guān)性分析,/index.php癌癥表觀遺傳修飾數(shù)據(jù)庫MethHC:來自TCGA

的癌癥DNA甲基化譜,.tw/php/index.phpMethyCancer:癌癥DNA甲基化基因數(shù)據(jù)庫,/PubMeth:癌癥DNA甲基化基因數(shù)據(jù)庫,http://matrix.ugent.be/pubmeth/癌癥數(shù)據(jù)平臺cBioPortal:

展示、分析和下載大規(guī)模癌癥基因組數(shù)據(jù)的平臺,/臨床資料相關(guān)數(shù)據(jù)庫SEER:

提供的臨床數(shù)據(jù),數(shù)據(jù)記錄中包括患者的注冊編號、個人信息、原發(fā)病灶部位、腫瘤尺寸、腫瘤編碼、治療方案、死亡原因等信息,

/data/單個腫瘤基因數(shù)據(jù)庫Cervical

cancer:

/raghava/ccdb/Breast

cancer:

/ermb/bcgd/bcgd.htmlColorectal

cancer:

Gastriccancer:

/dbgc/index.doThe

CancerGenomeAtlas

(TCGA)起始于2005,由NationalCancer

Institute

(NCI)和National

Human

GenomeResearch

Institute

(NHGRI)共同負責,預(yù)計2006~2009年花費1.1

億美元獲取癌癥基因組的遺傳變異。美國政府投入5億美元,預(yù)計再接下來的5年內(nèi)(2010~2015)獲得20~30種癌癥的基因組變異。目的:利用大規(guī)模基因組測序技術(shù),挖掘癌癥的基因組圖譜,加快我們對癌癥分子基礎(chǔ)的理解,提高我們對癌癥的診斷、治療和預(yù)防能力。目前TCGA項目涉及33種癌癥,11328個病人,樣本包含癌癥組織、癌旁組織,血液等,總數(shù)據(jù)大小為2.5

petabytes

。數(shù)據(jù)類型Tumorcharacteristics:DNA

mutationCopy-number

variationGene

expressionDNA

methylationMicroRNA

activityCellular

proteinactivityClinical

dataDNA

sequencingWhole

genome

sequencesWhole

exome

sequencesSequence

tracesMutations,including

coding,

splice

site,

germline

and

noncoding

somatic

variantsRNA

sequencingmiRNAsequences

(calculated

expressionper

miRNA

andisoform)mRNAsequences

(calculated

expressionper

gene,

exon,splice

junction,

isoform)TotalRNA

sequences

(calculated

expression

per

gene,

exon,splice

junction,

isoform)Expressionsignals

per

gene,

exon,splice

junction,

miRNA,and

isoformCopy

numberArrays

(raw,

unnormalized,

normalized)Low-passDNAsequencing

(wholegenomessequences,

variants,

coverage)Array-based

expressionGene

expression(raw,

normalized,

calls)Exon

expression

(raw,

normalized,

calls)miRNA

expression(raw,

normalized,

calls)DNA

methylationBisulfitesequencing

(wholegenome

sequence,methylation

andmutation

calls)Array-based

methylation

(raw

signal

intensity,

calculated

beta

values)OtherProtein

expression

(high-resolution

imagesof

protein

arrays,

raw

signals,

normalized

expression)Microsatelliteinstability

(markers,classifications)Clinical

information

about

participants

(e.g.,

sex,

race,

ethnicity,

drugs

taken,

and

response

to

treatment);Information

about

the

samples

(e.g.,

the

weight

of

a

sample

portion,

days

to

collect,

and

time

of

freezing);

andImages

of

the

tumors

(allows

estimation

of

number

of

proliferating

cells,

how

many

cells

have

died,

how

many

immune

cells

are

present,

etc.)數(shù)據(jù)水平TCGA提供不同水平的處理數(shù)據(jù):Level

1: 原始數(shù)據(jù),被控制訪問(controlled),如fastq、fasta文件。Level

2:處理的數(shù)據(jù),被控制訪問(controlled),如read比對基因組的bam文件。Level

3:被分割或解釋的數(shù)據(jù),公開(open),如標準化后的最終基因表達值。Level4:感興趣的區(qū)域或概要信息,基于兩個或多個數(shù)據(jù)的關(guān)聯(lián),公開(open)。利用TCGA數(shù)據(jù)發(fā)表的文獻GCCs:TheGenomeCharacterization

centers

used

several

technologiestoanalyzegenomicchangesinvolvedin

cancerincluding

geneexpression

levelsand

structural

rearrangementsof

the

genome.數(shù)據(jù)訪問和下載(Data

Portal)/鼠標放置每種癌癥類型上面,可以顯示該癌癥的case數(shù)目以及文件數(shù)目。舉例:搜索colorectal數(shù)據(jù)的選擇、過濾和篩選數(shù)據(jù)的呈現(xiàn)直腸相關(guān)的case注意:并不是只有一種癌癥類型或只有一套數(shù)據(jù)集病人的ID項目ID(通常為一種腫瘤)腫瘤來源部位突變的基因突變位點Case的分布情況Seq:高通量測序的底層處理數(shù)據(jù),通常為bam格式的比對文件。Exp:測序數(shù)據(jù)處理過的表達譜,可以包括基因表達譜和miRNA表達譜、有count、FPKM類型的表達值SNV:

SimpleNucleotide

Variation,包括MAF和VCF格式的文件,其中體細胞突變的結(jié)果(MAF格式文件)公開。CNV:

CopyNumber

Variation,DNA拷貝變異數(shù)據(jù),txt格式,公開。Meth:甲基化數(shù)據(jù),txt格式,公開Clinical:臨床資料信息,包括病人的臨床特征、手術(shù)處理、藥物處理、隨訪資料等信息。Bio:關(guān)于生物樣品的信息按突變頻率排序的基因生存曲線每個基因的具體描述所有癌癥中出現(xiàn)突變的百分比突變位點信息點擊Survival圖標突變和未突變病人的生存曲線比較突變的影響數(shù)據(jù)分析:對所保存的數(shù)據(jù)集做交集或并集分析對所保存的數(shù)據(jù)集進行生存分析以及性別、存活情況、年齡的分布數(shù)據(jù)分析:1.

建立數(shù)據(jù)集分別選中COAD和READ種突變頻率最高的top

100個基因。2.

保存數(shù)據(jù)集3.點擊Analysis,選擇數(shù)據(jù)集選中所要分析的數(shù)據(jù)集生存分析性別分布存活情況分布年齡分布檢索基因和變異:以MYC基因為例Cases在癌癥部位、項目種類、疾病類型、性別、存活情況的分布對Mutation

的過濾和篩選舉例:檢索所有l(wèi)ncRNA突變頻率較高的lncRNAsTCGA數(shù)據(jù)在線分析工具:GEPIAGEPIA:

查看基因在各腫瘤的表達情況,生存分析及共表達的基因;查看各腫瘤差異表達的基因,與生存相關(guān)的基因。http://gepia.cancer-pk/打開主頁,輸入基因名以基因為單位進行查詢腫瘤和正常組織中的表達情況,顏色深淺表示表達高低。其他數(shù)據(jù)庫的鏈接LINC01578在各癌癥的差異表達情況LINC01578在各癌癥的差異表達情況LINC01578

top相關(guān)的共表達基因查看在具體某個癌癥的表達情況選擇所關(guān)心的癌癥(可選擇多個)如果選擇TCGA和GTEx,表示正常樣本加上GTEx數(shù)據(jù)庫的正常樣本如果選擇只是TCGA,表示正常樣本只來自TCGA。Expression

DIY

Boxplot可知該基因在腸腺瘤中低表達。查看在某癌癥不同期的表達情況Expression

DIY

Stage選擇所關(guān)心的癌癥(可選擇多個)1LINC01578在腸腺瘤各癌癥階段的表達情況Major

stage

Sub

stage生存分析Survival

Survival

Plots選擇高低表達的分組選擇生存時間單位選擇所關(guān)心的癌癥(可選擇多個)盡管LINC01578在COAD中低表達,但其表達量越低,生存時間反而卻越長。尋找共表達的基因選擇要計算的表達譜顯示top

20個共表達的基因顯示2個基因的表達散點圖選擇要計算的表達譜輸入要顯示的2個基因名或ID注意:Top

基因相關(guān)系數(shù)高,不一定有好的散點圖RP11-1299A16.1反而排序較后的可能有較好的散點圖癌癥差異表達分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論