版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
上海其明信息技術(shù)有限公司研發(fā)總監(jiān)蔡家華互聯(lián)網(wǎng)技術(shù)在基因大數(shù)據(jù)中的應(yīng)用其明信息研發(fā)總監(jiān)
蔡家華GCBI集合了文獻、樣本、生物數(shù)據(jù)庫、數(shù)據(jù)分析為一體的基因云平臺1如何用互聯(lián)網(wǎng)技術(shù)解決問題14點啟示ADCB單個樣本數(shù)據(jù)量大,生物信息數(shù)據(jù)庫數(shù)據(jù)量龐大,導(dǎo)致存儲、傳輸、整理、展現(xiàn)等問題數(shù)據(jù)量龐大生物數(shù)據(jù)庫應(yīng)用廣泛、分析計算、注釋、解釋等方面都需要,其是真正的核心生物數(shù)據(jù)庫是核心數(shù)據(jù)量大,導(dǎo)致了數(shù)據(jù)分析的復(fù)雜度也隨之增加,如果充分利用現(xiàn)有的服務(wù)器資源成為關(guān)鍵需提升數(shù)據(jù)分析效率科研成果通過論文的方式來展現(xiàn),通過文獻能夠了解到前沿先進的理論,從中可以獲取到靈感文獻的重要性2大數(shù)據(jù)量帶來的問題數(shù)據(jù)存儲硬盤、磁盤已經(jīng)滿足不了生物數(shù)據(jù)存儲。數(shù)據(jù)備份更是雪上加霜。所以需要有磁盤容量大,易擴展及備份的存儲解決方案數(shù)據(jù)傳輸數(shù)據(jù)量龐大帶來了數(shù)據(jù)傳輸?shù)某杀靖?、傳輸慢、穩(wěn)定性差數(shù)據(jù)的展現(xiàn)密密麻麻的表格數(shù)據(jù),無法定位到有價值的內(nèi)容。數(shù)據(jù)與數(shù)據(jù)的關(guān)聯(lián)性更是無法展現(xiàn)數(shù)據(jù)整理生物數(shù)據(jù)來自于不同的組織機構(gòu),沒有統(tǒng)一的數(shù)據(jù)格式規(guī)范。整理數(shù)據(jù)需要大量人工參與,效率低3數(shù)據(jù)存儲冷數(shù)據(jù)只用一次或者兩次的數(shù)據(jù)。比如樣本數(shù)據(jù),分析完后,原始數(shù)據(jù)很少再重復(fù)使用檢索數(shù)據(jù)通常會被根據(jù)不同的條件頻繁查找的數(shù)據(jù),比如文獻通用數(shù)據(jù)業(yè)務(wù)型數(shù)據(jù),數(shù)據(jù)與數(shù)據(jù)之間有關(guān)聯(lián)性;或者實體型數(shù)據(jù)文件數(shù)據(jù)數(shù)據(jù)以文件方式存儲,文件數(shù)多或者文件容量大高頻數(shù)據(jù)頻繁會被使用的數(shù)據(jù),而且對讀取效率有高要求。比如測序注釋數(shù)據(jù)4數(shù)據(jù)傳輸-樣本上傳其明北京機房24小時12分鐘千兆專線70G
WGS樣本分析結(jié)束2.5小時高速傳輸工具3小時中國30層全基因樣本上傳及分析流程5數(shù)據(jù)傳輸-數(shù)據(jù)同步USA中國tsunami-udp是一款專為網(wǎng)絡(luò)加速誕生的小工具用TCP進行傳輸控制、用UDP進行數(shù)據(jù)傳輸pubmed、geo樣本、tcga樣本、gene、SNP等數(shù)據(jù)的同步高速傳輸工具3倍提升6數(shù)據(jù)整理建立自動化流程,如:文獻(日更新):同步
->解析->索引->特征提取->入庫樣本(周更新):同步->校驗->標(biāo)化->分析->入庫對于更新周期不固定或者結(jié)構(gòu)時常變化數(shù)據(jù),需要人工干預(yù)。比如:dbSNP、gene等7數(shù)據(jù)展現(xiàn)傳統(tǒng)的excel滿足不了對大數(shù)據(jù)的處理樣本類型數(shù)據(jù)量芯片3萬~50萬全基因測序600萬+全外顯子測序4萬+RNA測序10萬通過統(tǒng)計圖展現(xiàn)數(shù)據(jù)的概況交互式圖形,快速定位到用戶想要的數(shù)據(jù)8關(guān)于文獻總文獻量27061130篇藥物關(guān)系數(shù)7942218篇疾病關(guān)系數(shù)10668989篇樣本關(guān)系數(shù)36421篇基因關(guān)系數(shù)796676篇截止于2017年4月19日50%15%20%10%5%文獻學(xué)院樣本雷達實驗室平臺訪問量9文獻處理相關(guān)技術(shù)pubmed同步模塊pubmed解析模塊pubmed挖掘模塊相似文獻模塊pubmed索引模塊搜索詞處理模塊GCBI文獻檢索網(wǎng)站文獻檢索文獻同步及挖掘基因、疾病、藥物、作者全文同步模塊10數(shù)據(jù)分析計算的問題內(nèi)存的使用不當(dāng)對內(nèi)存的使用沒有預(yù)估,同一服務(wù)器并行執(zhí)行任務(wù)時容易導(dǎo)致內(nèi)存溢出系統(tǒng)資源利用率低對CPU、磁盤IO的使用沒有預(yù)估…任務(wù)無法分解往往一個大流程任務(wù),無法拆分子流程,不能做到并行,導(dǎo)致執(zhí)行效率低代碼冗余,維護性差例如同一個算法代碼在多個項目中都使用到,但是并沒有將其合理的抽象復(fù)用,導(dǎo)致很難維護
11數(shù)據(jù)分析計算的問題共享內(nèi)存內(nèi)存是服務(wù)器的稀缺資源。共享內(nèi)存及分布式內(nèi)存是解決內(nèi)存不夠用的方案
系統(tǒng)資源預(yù)估及規(guī)劃一個任務(wù)程序所需的CPU、內(nèi)存及Io需要事先評估,并且通過合理的資源管理有效確保多個任務(wù)能夠并行執(zhí)行
支持多線程及分布式多線程處理及分布式處理是一個比較通用的提升分析效率的問題,但首先需要確保任務(wù)的分解及最后的數(shù)據(jù)合并
代碼模塊化組件化開發(fā)或者模塊化開發(fā),能夠讓程序做到有效的復(fù)用,同時維護成本也將提升
12生物數(shù)據(jù)庫整合了20多款生物數(shù)據(jù)庫自有人群頻率數(shù)據(jù)13云服務(wù)自助服務(wù)通過基于瀏覽器的自服務(wù)界面,客戶可遠程安裝操作系統(tǒng),遠程集中管理分布在不同數(shù)據(jù)中心的云服務(wù)器成本優(yōu)勢云服務(wù)器租用用戶不需要支付任何押金就可享受服務(wù),缺少了很少的中間步驟,按需支付,有效的降低了成本擴展能力提升云主機的基本特點就是分布式架構(gòu),所以可以輕而易舉地增加服務(wù)器,成倍擴展服務(wù)能力安全性高因為服務(wù)分布在多臺服務(wù)器、甚至多個機房,所以不容易徹底宕機,抗災(zāi)容錯能力強,可以保證長時間在線2GCSAS測序分析系統(tǒng)1全基因測序分析數(shù)據(jù)預(yù)處理質(zhì)控比對變異文件SNP/INDEL注釋結(jié)果整理評級fastq,bam,sraQ20,Q30,測序深度,有效數(shù)據(jù)比例…h(huán)g19,hg38vcf,ann,qc,
statistics2其它測序分析數(shù)據(jù)預(yù)處理質(zhì)控比對變異文件SNP/INDEL注釋評級全外顯子及靶向捕獲測序RNA測序數(shù)據(jù)預(yù)處理比對組裝與定量基因/轉(zhuǎn)錄本注釋質(zhì)控結(jié)果整理結(jié)果整理3測序高級分析2143特性可視化提供基于網(wǎng)頁的模式,用戶可以根據(jù)實際分析需求選擇分析組件,搭建分析流程分組差異分析在給定分組條件下,篩選出顯著性變化的轉(zhuǎn)錄本(基因)列表,從而更好地鑒定生物相關(guān)功能數(shù)據(jù)過濾根據(jù)不同的數(shù)據(jù)類型,提供與其相關(guān)的過濾規(guī)則及屬性,幫助用戶能夠快速的定位到有價值的數(shù)據(jù)多元化的分析組件除了差異分析以外,還提供了數(shù)據(jù)交集,扣集的處理。針對于基因數(shù)據(jù),提供了功能和通路的分析算法4分析可視化分析流程圖4分析可視化數(shù)據(jù)過濾3GCSAS的臨床應(yīng)用1中國人乳腺癌易感基因分析平臺BRCA1/2易感基因的檢測、分析、報告與建議,用于輔助診療,并建立萬人級的中國人群BRCA1/2易感基因數(shù)據(jù)庫。
合作單位:國家人類基因組南方中心項目網(wǎng)址:應(yīng)用方案:臨床基因檢測和分析平臺、生物信息數(shù)據(jù)庫構(gòu)建方案2分子病理操作流程及數(shù)據(jù)管理系統(tǒng)系統(tǒng)規(guī)范操作流程、記錄重要步驟和數(shù)據(jù)進行統(tǒng)計與監(jiān)督,對分子病理檢測平臺產(chǎn)生的數(shù)據(jù)進行標(biāo)準(zhǔn)化處理、解析、分析、形成病理報告數(shù)據(jù)。合作單位:復(fù)旦大學(xué)附屬腫瘤醫(yī)院
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中秋節(jié)聯(lián)歡會致辭范文(10篇)
- 九月大班上學(xué)期月計劃范文(5篇)
- 中秋晚會董事長致辭范文(13篇)
- 曹植課件教學(xué)課件
- 講師比賽課件教學(xué)課件
- 影響高中數(shù)學(xué)成績的原因及解決方法
- 消費品和有關(guān)服務(wù)的比較試驗 實施要求 編制說明
- 愛嬰醫(yī)院課件教學(xué)課件
- 南宮市八年級上學(xué)期語文10月月考試卷
- 八年級上學(xué)期語文期中考試卷
- 出院小結(jié)模板-2
- 旅游景區(qū)公共信息導(dǎo)向系統(tǒng)規(guī)范與設(shè)計(旅游)
- 過程流程圖,控制計劃,PFMEA培訓(xùn)
- 六年級語文 六年級班家長會
- 內(nèi)科學(xué)(腎臟-內(nèi)分泌-血液)知到章節(jié)答案智慧樹2023年溫州醫(yī)科大學(xué)
- 地理教育測量與評價
- 2023上海車展展前報告
- 事業(yè)單位獎勵審批表主要事跡
- 六年級勞動與技術(shù)上冊教案
- 馬王堆導(dǎo)引術(shù)獨立彩圖版
- GB/T 26572-2011電子電氣產(chǎn)品中限用物質(zhì)的限量要求
評論
0/150
提交評論