周四下午-聚類_第1頁(yè)
周四下午-聚類_第2頁(yè)
周四下午-聚類_第3頁(yè)
周四下午-聚類_第4頁(yè)
周四下午-聚類_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類、富集分析原理與實(shí)踐2013年12月1數(shù)據(jù)2OUTLINE1.Cluster聚類1.距離計(jì)算2.聚類方法3.

R語(yǔ)言實(shí)現(xiàn)2.Enrient富集1.正態(tài)分布2.超幾何分布3.富集工具3聚類分析-1.1距離算法A.PEARSON

CORRELATIONIf

you

were

to

make

a

scatterplot

of

the

values

of

x

against

y

(pairing

x1

with

y1,x2

withy2,etc),then

r

reportshow

well

you

can

fit

a

line

to

thevalues.反應(yīng)了變量間的線性相關(guān)程度的大?。ㄚ厔?shì))identicalcomple y

uncorrelated10-1

perfect

oppositeD=1-rD=1-

|r|45聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURESSpearman

rank

correlationKendall’s

τ為了使用Pearson線性相關(guān)系數(shù),必須假設(shè)數(shù)據(jù)是成對(duì)地從正態(tài)分布中取得的(服從二維正太分布)These

methods

are

more

robust

against

outliers聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Spearman

rank

correlation6聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Kendall

tau

correlation7聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Kendall

tau

correlation8聚類分析-1.1距離算法B.NON-PARAMETRIC

DISTANCEMEASURES-Kendall

tau

correlation9聚類分析-1.1距離算法B.Euclidean

distanceUnlike

thecorrelation-based

distancemeasures,

the

Euclidean

distance

takes

themagnitude

of

changes

in

t

eexpression

levels

into

account,It

shouldtherefore

only

be

used

for

expression

datathat

are

suitably

normalized.1011聚類分析-1.2聚類方法A.HIERARCHICAL

CLUSTERINGHierarchical

clustering

methods

organizes

genesor/and

samples

in

a

tree

structure,

based

on

theirsimilarity.The

basic

idea

is

to

assemble

a

set

of

items

(genesor

arrays)

into

a

tree,

where

items

are

joined

byvery

short

branches

if

they

are

very

similar

to

each

other,

and

by

increasingly

longer

branches

astheir

similarity

decreases.聚類分析-1.2聚類方法A.HIERARCHICAL

CLUSTERING1213聚類分析-1.2聚類方法B.K-MEANS

CLUSTERINGChoose

k

initial

center

points

randomlyCluster

data

using

Euclidean

distance

(or

other

distancemetric)Calculate

new

center

points

for

each

cluster

using

only

pointswithin

the

clusterRe-Cluster

all

data

using

the

new

center

pointsRepeat

steps

3

&

4

for

defined

times聚類分析-1.3

R語(yǔ)言實(shí)現(xiàn)union_for_cluster.txtclustering.r14聚類分析-1.3其它方法15OUTLINE1.Cluster聚類1.距離計(jì)算2.聚類方法3.

R語(yǔ)言實(shí)現(xiàn)2.Enrient富集1.正態(tài)分布2.超幾何分布3.富集工具16富集分析17富集分析-2.1正態(tài)分布一(mu),尺度參數(shù)為σ(sigma)若隨

量X服從的概率分布,且其量,正態(tài)隨量服從的分布就稱則這個(gè)隨

量就稱為正態(tài)隨為正態(tài)分布。記作X~N(μ,σ2)18富集分析-2.1正態(tài)分布量的疊加結(jié)果,那么這量都可以用正態(tài)分布表示或一個(gè)變量如果是由大量微小的、獨(dú)立的隨個(gè)變量就服從正態(tài)分布。因此許多隨近似描述。表達(dá)量例子:microarray考試成績(jī)身高19富集分析-2.1正態(tài)分布在一個(gè)假設(shè)檢驗(yàn)問題中原假設(shè)H0所需的最小顯著性水平稱為檢驗(yàn)的p值20富集分析-2.2超幾何分布在一個(gè)口袋中裝有60個(gè)球,其中有10個(gè)白球,其余為黑球。

者一次從中摸出8個(gè)球。摸到5個(gè)白球的概率是多少?摸到x個(gè)白球的概率呢?a.排列組合的解法>choose()>factorial()>(choose(10,5)*choose(50,3))/choose(60,8)[1]

0.001930415b.超幾何分布分布律與分布函數(shù)dhyper(5,10,50,8)[1]

0.0019304151-phyper(4,10,50,8)[1]

0.00203332phyper(4,10,50,8,

lower.tail=FALSE)[1]

0.0020333221富集分析-2.2超幾何分布在一個(gè)口袋中裝有60個(gè)球,其中有10個(gè)白球,其余為黑球。

者一次從中摸出8個(gè)球。摸到5個(gè)白球的概率是多少?摸到x個(gè)白球的概率呢?列聯(lián)表(contingency

table)抽中未抽中合計(jì)白色5510黑色34750合計(jì)85260counts<-matrix(c(5,3,5,47),

nrow=2,ncol=2)counts[,1]

[,2][1,]

5

5[2,] 3

47fisher.test(counts)Fisher's

Exact

Test

for

Count

Datadata:

countsp-value

=

0.002033alternative

hypothesis:

true

odds

ratio

is

not

equalto

195

percent

confidence

interval:2.124677

123.487719sample

estimates:odds

ratio14.4213822富集分析-2.2超幾何分布GO

accession:

GO:0008283Desription:

cell

proliferationTerm

type:

biological_process差異差異背景背景中與該term相關(guān)的總數(shù):2545中與該term相關(guān)的總數(shù):18374數(shù):113數(shù):528Is

“cell

proliferation”

overrepresented

in

the

diffe

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論