




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、中國(guó)地方雞種核酸數(shù)據(jù)庫(kù)建設(shè)與功能設(shè)計(jì),匯報(bào)人:白云峰 副研究員 單 位:江蘇省農(nóng)業(yè)科學(xué)院,匯 報(bào) 內(nèi) 容,研究意義與目的 中國(guó)地方雞種核酸序列數(shù)據(jù)庫(kù)初步建設(shè) 數(shù)據(jù)獲取 數(shù)據(jù)庫(kù)構(gòu)成 數(shù)據(jù)分析 系統(tǒng)功能設(shè)計(jì) 核酸序列特征一般分析 核酸序列相似性搜索 系統(tǒng)發(fā)生分析 系統(tǒng)演示 未來(lái)展望,研 究 意 義,中國(guó)是世界上生物多樣性最豐富國(guó)家之一,地方雞種是我國(guó)具有戰(zhàn)略意義的獨(dú)特資源。亟需構(gòu)建該領(lǐng)域擁有自身特色和自主知識(shí)產(chǎn)權(quán)的,與國(guó)際主流生物信息數(shù)據(jù)庫(kù)接軌的專(zhuān)業(yè)二級(jí)數(shù)據(jù)庫(kù)。 當(dāng)前,農(nóng)業(yè)生物信息數(shù)據(jù)庫(kù)主要集中在英、美、日等發(fā)達(dá)國(guó)家。我國(guó)大多生物學(xué)數(shù)據(jù)庫(kù)只能提供鏡像和索引服務(wù),無(wú)自主知識(shí)產(chǎn)權(quán),獨(dú)立開(kāi)發(fā)并能提供豐富
2、資源和工具的生物信息數(shù)據(jù)庫(kù)平臺(tái)仍很缺乏。 目前國(guó)內(nèi)關(guān)于醫(yī)療和制藥領(lǐng)域的生物信息數(shù)據(jù)庫(kù)較多,而高質(zhì)量的農(nóng)業(yè)生物信息數(shù)據(jù)庫(kù)數(shù)量較少,尚無(wú)我國(guó)專(zhuān)門(mén)化的地方雞種生物信息數(shù)據(jù)庫(kù)系統(tǒng)。 生物信息數(shù)據(jù)庫(kù)分布分散且格式不統(tǒng)一,將獨(dú)立的、分散的農(nóng)業(yè)生物信息數(shù)據(jù)庫(kù)信息整合,使農(nóng)業(yè)生物信息數(shù)據(jù)庫(kù)集成化和標(biāo)準(zhǔn)化,中國(guó)地方雞種核酸序列數(shù)據(jù)庫(kù)初步建設(shè),數(shù)據(jù)獲取方面 基于Agent智能代理本地化數(shù)據(jù)獲取程序; 863合作單位數(shù)據(jù)提供與數(shù)據(jù)校驗(yàn); 數(shù)據(jù)分析 數(shù)據(jù)完整性分析 數(shù)據(jù)特征特征值掃描 地方雞種數(shù)據(jù)篩選,中國(guó)地方雞種核酸序列數(shù)據(jù)庫(kù)初步建設(shè),數(shù)據(jù)標(biāo)準(zhǔn)化 基于XML中國(guó)地方雞種核酸序列元數(shù)據(jù)模型; 自定義中國(guó)地方雞種數(shù)據(jù)結(jié)
3、構(gòu); 數(shù)據(jù)轉(zhuǎn)導(dǎo) 與國(guó)際主流數(shù)據(jù)文件格式的兼容 完成中國(guó)地方雞種核酸序列數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì),系 統(tǒng) 功 能 設(shè) 計(jì),目標(biāo)序列分析(以白銀耳雞1條序列AF128321作為本系統(tǒng)分析處理結(jié)果示例) 功能設(shè)計(jì)3個(gè)層次: 序列組成統(tǒng)計(jì)特征分析; 本地化序列相似性搜索 系統(tǒng)發(fā)生分析,核酸序列組成統(tǒng)計(jì)特征分析,密碼子計(jì)數(shù) 核苷酸統(tǒng)計(jì) 轉(zhuǎn)換成互補(bǔ)序列 互補(bǔ)統(tǒng)計(jì) 核苷酸組成統(tǒng)計(jì)作圖 二聚體統(tǒng)計(jì) 密碼子使用偏性 CpG島 短序列匹配 繪制熱紅外分布圖 識(shí)別開(kāi)發(fā)閱讀框ORFs 翻譯成對(duì)應(yīng)氨基酸序列,待分析序列,ttgttctcaactacgggaacaattttattttttaacctaactcccctactaagtg
4、taccccccctttcccccccagggggggtatactatgcataatcgtgcatacatttatataccacatatattatggtaccggtaatatatactatatatgtactaaacccattatatgtatacgggcattaatctatattccacatttctcccaatgtccattctatgcatgatccaagacatactcattcaccctccccatagacagttctaaaccactatcaagccacctaactatgaatggttacaggacataaatctcactctcatgctctccccctaacaagtcacctaactatga
5、atggttacaggacatacatttaactaccatgttctaacccatttggttatgctcgccgtatcagatggatttattgatcgtccacctcacgagagatcagcaacccctgcctgtaatgtacttcatgaccagtctcaggcccattctttccccctacacccctcgccctacttgccttccaccg,密碼子計(jì)數(shù)結(jié)果,AAA: 1 AAC: 5 AAG: 0 AAT: 2 ACA: 7 ACC: 3 ACG: 1 ACT: 6 AGA: 2 AGC: 1 AGG: 1 AGT: 2 ATA: 4 ATC: 2 ATG: 4 AT
6、T: 5 CAA: 1 CAC: 5 CAG: 0 CAT: 8 CCA: 8 CCC: 10 CCG: 1 CCT: 1 CGA: 1 CGC: 1 CGG: 0 CGT: 1 CTA: 10 CTC: 2 CTG: 1 CTT: 2 GAA: 0 GAC: 0 GAG: 1 GAT: 1 GCA: 1 GCC: 3 GCG: 0 GCT: 2 GGA: 2 GGC: 1 GGG: 3 GGT: 2 GTA: 6 GTC: 2 GTG: 0 GTT: 2 TAA: 5 TAC: 4 TAG: 1 TAT: 9 TCA: 5 TCC: 3 TCG: 2 TCT: 6 TGA: 3 TGC: 2
7、 TGG: 1 TGT: 2 TTA: 3 TTC: 4 TTG: 1 TTT: 4,密碼子使用偏性,由于密碼子的簡(jiǎn)并性,每個(gè)氨基酸至少對(duì)應(yīng)1種密碼子,最多有6種對(duì)應(yīng)的密碼子。 不同物種、不同生物體的基因密碼子使用存在著很大的差異。各種生物體似乎更偏愛(ài)使用某些同義三聯(lián)密碼子(即編碼相同氨基酸的密碼子)。 高表達(dá)的基因密碼子的使用偏性一般比較大。這些偏好可能與兩個(gè)原因有關(guān):一是避免使用類(lèi)似終止密碼子的密碼子;二是這些偏好能夠有效地翻譯密碼子,因?yàn)檫@些密碼子對(duì)應(yīng)于生物體中非常豐富的tRNA。 真實(shí)的外顯子一般能反映出這些偏好,而隨機(jī)選擇的三聯(lián)體序列卻不能,密碼子使用偏性,研究結(jié)果表明,基因密碼子的
8、使用也與基因編碼的蛋白的結(jié)構(gòu)和功能有關(guān)。mRNA中的稀有密碼子的使用與蛋白質(zhì)結(jié)構(gòu)域的連接區(qū)和規(guī)則二級(jí)結(jié)構(gòu)單元的連接區(qū)有關(guān),翻譯速率在連接區(qū)會(huì)降低,說(shuō)明蛋白質(zhì)折疊方式與mRNA序列之間存在一定的相關(guān)性。 研究結(jié)果還表明,蛋白質(zhì)的三級(jí)結(jié)構(gòu)與密碼子使用概率有密切的關(guān)系,通過(guò)對(duì)密碼子的聚類(lèi)分析,可以將具有不同三級(jí)結(jié)構(gòu)蛋白質(zhì)的編碼基因分成不同的類(lèi),而具有相似三級(jí)結(jié)構(gòu)蛋白的編碼基因則大致聚在同一類(lèi)中。進(jìn)一步的研究發(fā)現(xiàn),在不同物種中,類(lèi)型相同的基因具有相近的同義密碼子使用偏性,對(duì)于同一類(lèi)型的基因由物種引起的同義密碼子使用偏性的差異較小,繪制熱紅外分布圖,CpG島分析,在人類(lèi)基因組中有一半左右的CpG isl
9、and 與已知管家基因(housekeeping gene)有關(guān)聯(lián); CpG island很少出現(xiàn)在不含基因的區(qū)域和那些發(fā)生多次突變的基因中; CpG與一種重要的化學(xué)修飾甲基化密切相關(guān),短序列匹配,在待分析序列中查找特征短片段,如TATA Box TATA Box,CAAT Box,終止子等,識(shí)別開(kāi)放閱讀框ORFs,開(kāi)放閱讀框(Open Reading Frame: ORF)是基因序列的一部分,包含一段可以編碼蛋白的堿基序列,不能被終止子打斷。 開(kāi)讀框架的預(yù)測(cè)常與第一個(gè)ATG和終止密碼子的確定相關(guān)。 系統(tǒng)以原核生物和真核生物兩種模式識(shí)別待分析序列的ORFs,中國(guó)地方雞種基因序列比對(duì)與相似性搜索
10、,意義與目的: 通過(guò)搜索序列數(shù)據(jù)庫(kù),找到與新序列同源的已知序列,并根據(jù)同源性推測(cè)未知序列的生物學(xué)功能; 對(duì)于DNA序列,同源搜索還有助于確定編碼區(qū)域,確定基因; 實(shí)現(xiàn)方法: 中國(guó)地方雞種核酸序列庫(kù)+家禽基因組序列庫(kù)的比對(duì)搜索; 設(shè)定全局最優(yōu)比對(duì)算法+局部最優(yōu)比對(duì)算法2種策略,中國(guó)地方雞種系統(tǒng)發(fā)生分析(開(kāi)發(fā)中,由于國(guó)內(nèi)學(xué)者對(duì)國(guó)內(nèi)地方雞種mtDNA研究較多,數(shù)據(jù)庫(kù)收集到數(shù)據(jù)較豐富特點(diǎn)。構(gòu)建地方雞種mtDNA系統(tǒng)發(fā)生專(zhuān)門(mén)化分析組件。 線粒體DNA非常適合于系統(tǒng)發(fā)生分析,因?yàn)榫€粒體DNA從母體完全傳到子代,不與父代DNA重組。線粒體DNA具有易分離、進(jìn)化速度快、母系遺傳、缺乏重組和無(wú)內(nèi)含子等特點(diǎn)。使線
11、粒體DNA成為分子系統(tǒng)發(fā)育學(xué)研究的一類(lèi)重要的分子標(biāo)記。 mtDNA的控制區(qū)即D-loop區(qū)為非編碼區(qū),不編碼蛋白質(zhì)線粒體DNA中,受到選擇壓力較小,因此積累了較多的突變,如堿基替換、插入、缺失,以及眾多的串聯(lián)重復(fù)序列等。 系統(tǒng)采用非加權(quán)分組平均法(UPGMA,unweighted pair group method with arithmetic means)構(gòu)建進(jìn)化樹(shù),系統(tǒng)功能實(shí)現(xiàn)的關(guān)鍵技術(shù),Matlab Bioinformatic Toolbox 引用 Imports System Imports System.Reflection Imports MathWorks.MATLAB.NET
12、.Utility Imports MathWorks.MATLAB.NET.Arrays Imports ComponentName M文件編寫(xiě)與調(diào)試 MATLAB與.NET數(shù)據(jù)類(lèi)型轉(zhuǎn)換,M文件編程示例,function HeatMap(mitochondria) for frame = 1:3 figure(color,1 1 1) subplot(2,1,1); codoncount(mitochondria,frame,frame,figure,true); title(sprintf(閱讀框%d密碼子,frame); subplot(2,1,2); codoncount(mitocho
13、ndria,reverse,true,frame,frame,figure,true); title(sprintf(閱讀框%d反義密碼子, frame); end,調(diào)用MATLAB生物信息學(xué)函數(shù),Matlab與.NET數(shù)據(jù)類(lèi)型轉(zhuǎn)換,引自蘇金明等Matlab高級(jí)編程北京,電子工業(yè)出版社,2008,數(shù)據(jù)類(lèi)型轉(zhuǎn)換實(shí)例,利用MatLab構(gòu)建不同地方雞種親緣關(guān)系進(jìn)化樹(shù); %定義數(shù)組二維data,存儲(chǔ)雞種名稱(chēng)和mtDNA序列; function phylogenyanalysis(data,m) %data = 白銀耳雞 AF128320; 靈昆雞 AF128330; 壽光雞 AF512058; 絲羽烏
14、骨雞 AF512060; 茶花雞 AF512078; %for ind = 1:5 % seqs(ind).Header = dataind,1; % seqs(ind).Sequence = getgenbank(dataind,2, sequenceonly, true); %end %進(jìn)化距離運(yùn)算;UPGMA,非加權(quán)分組平均法(unweighted pair group method with arithmetic means)Jukes-Cantor, for ind = 1:m seqs(ind).Header = dataind,1; seqs(ind).Sequence = dataind,2; end distances = seqpdist(seqs,Method,Jukes-Cantor,Alphabet,DNA); tree = seqlinkage(distances,UPGMA,seqs); %畫(huà)出進(jìn)化樹(shù); h = plot(tree,orient,bottom); set(findobj(gca,Type,line,Color,0 10 1),Color,red,LineWidth,2); ylabel(進(jìn)化距
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45355-2025無(wú)壓埋地排污、排水用聚乙烯(PE)管道系統(tǒng)
- 湖北省圓創(chuàng)教育教研中心2025屆高三三月聯(lián)合測(cè)評(píng)英語(yǔ)試題及答案
- 新手父母必讀:2024年育嬰師考試試題及答案
- 建立知識(shí)共享與管理平臺(tái)計(jì)劃
- 數(shù)據(jù)驅(qū)動(dòng)的決策與年度計(jì)劃
- 促進(jìn)社區(qū)團(tuán)結(jié)的個(gè)人措施計(jì)劃
- 學(xué)生個(gè)性發(fā)展的藝術(shù)教育支持計(jì)劃
- 電子商務(wù)未來(lái)的投資方向試題及答案
- 綠色倉(cāng)庫(kù)建設(shè)的實(shí)踐案例計(jì)劃
- 人員崗位職責(zé)與工作規(guī)范計(jì)劃
- 2024年高考生物第二次模擬考試卷及答案解析(全國(guó)卷新教材)
- 水庫(kù)灌區(qū)工程信息化設(shè)計(jì)說(shuō)明
- 2024-2025學(xué)年人教版八年級(jí)物理上學(xué)期課后習(xí)題答案
- 2023年心肺復(fù)蘇理論考試試題及答案
- 聽(tīng)覺(jué)感知與認(rèn)知建模
- 信息技術(shù)(基礎(chǔ)模塊)模塊六 信息素養(yǎng)與社會(huì)責(zé)任
- 食品經(jīng)營(yíng)從業(yè)人員健康管理制度-和培訓(xùn)管理制度
- HG∕T 5050-2016 海藻酸類(lèi)肥料
- 礦山塌陷治理與土地復(fù)墾
- 成人鼻腸管的留置與維護(hù)
- 干式真空泵在半導(dǎo)體及新能源領(lǐng)域的應(yīng)用及發(fā)展趨勢(shì) 2024
評(píng)論
0/150
提交評(píng)論