


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、熒光交換標記法基因表達芯片的數(shù)據(jù)挖掘 08-10-23 14:03:00 編輯:studa20 作者:廖之君, 馬文麗, 梁爽, 劉華, 張海燕, 陳數(shù)珍, 鄭文嶺 【摘要】 目的 探討熒光染料交換標記設計的基因芯片數(shù)據(jù)挖掘方法,并對低劑量電離輻射影響人成纖維細胞基因表達譜數(shù)據(jù)進行分析。
2、 方法 應用GeneSifter在線軟件和Panther生物學信息數(shù)據(jù)庫,對下載于NCBI的GEO數(shù)據(jù)庫的8個樣品GSM(包含4個時間點),選擇正確的參數(shù)設置上載數(shù)據(jù),運用ANOVA方法進行數(shù)據(jù)挖掘,并對差異表達基因進行功能歸類分析。 結果 獲得203條差異表達基因,合并相同基因名后為176條基因。雙向聚類和主成分分析發(fā)現(xiàn),樣品的24 h時間點基因表達譜與前3個時間點有顯著差異,功能歸類分析提示,多個生物通路如細胞周期、核酸代謝、DNA代謝等被顯著激活。 結論 應用這種方法可以挖掘熒光交換標記的微陣列數(shù)據(jù),低劑量電離輻射對人成纖維細胞基因表達有時間累積效應,可能引起DNA損傷、細胞周期阻滯等變
3、化,誘導細胞凋亡。 【關鍵詞】 熒光; 成纖維細胞; 輻射,電離; 芯片分析技術; 自動數(shù)據(jù)處理ABSTRACT: Objective To explore the methodology in analysis of data from dyeswap labeled microarray, and to profile the gene expression spectrum in human diploid fibroblasts exposed to low dose ionizing radiation. Methods G
4、eneSifter suite and Panther database were used to analyze 8 GSM data (4 time points) downloaded from GEO data repository at NCBI. After parameter optimization, ANOVA was applied to perform data mining. Differentially expressed genes were also classified functionally. Results
5、A total of 203 differentially expressed genes were obtained. The number was reduced to 176 after pruning away the redundant gene names. Twoway clustering and principal component analysis showed that gene expression profile at 24hour time point differed significantly from 3 other time poi
6、nts. Functional classification of these genes showed that several biological processes such as cell cycle, nucleic acid metabolism and DNA metabolism, were significantly activated by irradiation. Conclusion This method can be applied to mine dyeswaplabeled microarray data. Lo
7、w dose ionizing radiation might exert timecumulative effects on gene expression profiles in human fibroblasts, implicating a mechanism by DNA damage, cell cycle arrest, and eventually apoptosis. KEY WORDS: fluorescence; fibroblasts; radiation, ionizing; gene expression profil
8、ing; microchip analytical procedures; automatic data processing上世紀90年代誕生基因芯片這一高新技術發(fā)展至今,在生命科學領域中應用越來越廣泛,探針密度越來越大,凸顯高通量、平行性的優(yōu)勢。芯片數(shù)據(jù)在數(shù)據(jù)庫(如GEO)中的積累呈指數(shù)性倍增,如何從這海量的數(shù)據(jù)庫中挖掘出蘊涵的生物學知識,即數(shù)據(jù)挖掘,已成為生物信息學的重要研究領域,其實,基因芯片的強大功能依賴于數(shù)據(jù)挖掘和統(tǒng)計工具的發(fā)展與應用1,二者相互促進。微陣列數(shù)據(jù)庫中,有一部分雙通道的基因表達譜數(shù)據(jù)是來自于熒光交換標記RNA的實驗,這一設計與基因芯片的高成本、紅綠熒光染料存在標記效率
9、、激發(fā)效率不同等因素有關。眾多研究表明,生物樣品重復來源的變異要遠遠大于基因芯片技術的波動,因此,需要至少3次獨立的生物學重復實驗,才能下一個重要的生物學結論。而雙通道的微陣列芯片實驗,為了消除由于熒光偏向性帶來的假陽性,減少染色誤差的影響,研究者通常采用熒光交換標記RNA。一般認為,有2種熒光交換標記方法,一是熒光染料Cy5和Cy3分別標記處理和非處理對照樣品RNA,重復實驗時Cy5和Cy3交換標記;二是所有對照來自于通用的公共RNA樣品,每一種處理組RNA與相應的公共RNA配對,分別用Cy5和Cy3標記,重復實驗時染料交換。很明顯,第二種方法更為靈活,便于不同微陣列之間比較,適用于多組樣品
10、,并且省錢省時,結果也具有重復性、可靠性。1 資料來源 熒光染料交換標記的cDNA微陣列芯片數(shù)據(jù)來自于NCBI的GEO數(shù)據(jù)庫,共有8個樣品文檔,即從GSM159951到GSM159958。這是用1.5 Gy低劑量的離子輻射處理正常人二倍體成纖維細胞NHF1hTERT,照射時間分為4組:sham(即未照射),2,6和24 h,每組用上述第二種熒光交換標記方法重復2次,與Agilent Human 1A(22K)芯片雜交后,用Agilent Feature Extraction v 7.1軟件獲取芯片掃描的文本文檔。2 數(shù)據(jù)挖掘
11、; 應用GeneSifter軟件()在線進行數(shù)據(jù)挖掘,再利用Panther生物學信息數(shù)據(jù)庫()挖掘差異表達基因的功能。2.1 數(shù)據(jù)上載 微陣列芯片掃描數(shù)據(jù)的文本文檔上載到GeneSifter時,由于陽性和陰性控制陣列會干擾后續(xù)分析,必需先濾過,并整理數(shù)據(jù)文件?;蜃R別符(Gene ID)設置選擇“Same Order”,數(shù)據(jù)分析時用比值(Ratios)而不用熒光強度(Intensities),Cy3和Cy5的質量值設置采用綠(紅)色平均信號強度與綠(紅)色背景平均信號強度的比值來計算,選擇“LOWESS”歸一化。由于重復實驗的熒光染料已發(fā)生交換,
12、計算熒光強度比值(Ratio)時不能統(tǒng)一用Cy5/Cy3,當Cy5標記公共RNA時,比值宜采用Cy3/Cy5,因而,計算比值時選取“Per file basis”(基于每個數(shù)據(jù)文檔),最后根據(jù)實驗設計不同選取比值(Cy5/Cy3或Cy3/Cy5),上載芯片數(shù)據(jù)。2.2 芯片數(shù)據(jù)挖掘 這個數(shù)據(jù)集包含了一個處理因素離子輻射(1.5 Gy),4個水平即時間點sham(即未照射),2,6和24 h,符合單因素完全隨機設計的方差分析(OneWay ANOVA),應用GeneSifter頁面控制板(Control Panel)數(shù)據(jù)分析項目下的“Projects”功能進行數(shù)據(jù)挖掘。&
13、#160; 參數(shù)設置如下:數(shù)據(jù)經對數(shù)(log2)轉化,濾過比值閾設為1.5(由于經過log2轉換,實際差異為21.5倍),質量閾值1.5,P值取0.001,統(tǒng)計方法為ANOVA。結果獲得203條差異表達基因,圖1為差異表達基因的雙向聚類圖,上方為樣品聚類,從左到右分別表示:0,2,6,24 h 4個時間點,右側為基因聚類??偟膩碚f,前3個時間點基因表達譜變化幅度不太大,但24 h時間點就有明顯變化,由此,大致可分為2大類基因表達模式:一是167條(82.3%)基因明顯下調,其中有pcna、cdk2基因,二是36條(17.7%)基因表達上調,其中有cdkn1a基因。但有些
14、基因的名稱和調節(jié)方向相同,合并這些基因后,得到176條差異表達基因,再對這些基因特征矩陣進行主成分分析(principal component analysis,PCA),可見24 h的特征向量明顯遠離另3個向量(圖2)。2.3 差異表達基因的功能分析 利用Panther生物學信息數(shù)據(jù)庫的實用工具,挖掘這176條差異表達基因的功能類別,其中150條基因可以找到明確的功能類別,26條基因不能歸類。表1按P值(表征兩組數(shù)據(jù)無顯著差異的幾率)取0.05水平列出受改變的生物通路,其中“差異基因中預計該通路基因數(shù)”欄是依據(jù)參照基因(取人類基因組共25 431條基因)中PANTHE
15、R分類相對應于查詢基因而計算出來的期望基因數(shù)(只列出P值達顯著性的相應預計基因數(shù)目);而P值為基于二項分布統(tǒng)計方法計算出各類別的隨機發(fā)生基因數(shù)的概率2。結果顯示細胞周期、核苷酸代謝、有絲分裂等生物通路受顯著影響,提示電離輻射與這些代謝通路緊密關聯(lián)。圖1 差異表達基因的雙向聚類圖(略)Fig 1 Twoway clustering heat maps of the 203 differentially expressed genesNHF1細胞24 h的特征向量水平向右指向,而另3個向量(0,2,6 h)指向左側,向量之間的距離較近,區(qū)分不明顯.24 h向量遠離這3個向量.圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 麗水預售合同范例公示
- 體系合同范例
- 中介工程協(xié)議合同范例
- 代理售卡合同范例
- 買賣土地流轉合同范例
- 上海租房合同范本里
- 公會線下合同范例
- 買方采購材料合同范例
- 健身房合作合同范例
- 基于大環(huán)芳烴超分子材料對芳香類污染物的吸附應用
- 2024年天翼云認證運維工程師考試復習題庫(含答案)
- 浙江省杭州市2024年中考英語真題(含答案)
- 中國水資源與水環(huán)境-王浩
- 生豬屠宰獸醫(yī)衛(wèi)生檢驗人員理論考試題庫及答案
- 《陸上風電場工程設計概算編制規(guī)定及費用標準》(NB-T 31011-2019)
- 高血壓臨床路徑
- 《新媒體營銷》全套教學教案
- 消防維修合同范本
- (完整版)質量目標細化分解方案-橋梁工程
- 用戶水表(水費)過戶協(xié)議
- 勾股定理求最短路徑問題
評論
0/150
提交評論