



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)共享要素GPB近日在線發(fā)表了中國(guó)科學(xué)院北京基因組研究所(國(guó)家生物信息中心)題為The Elements of Data Sharing的前景展望文章。我們的“要文譯薦”欄目現(xiàn)發(fā)布本文的中文全文,供大家參考!數(shù)據(jù)及其特定屬性具有久遠(yuǎn)傳承的特點(diǎn),其價(jià)值遠(yuǎn)超于研究人員從其分析得到的結(jié)果和結(jié)論。除了通過設(shè)計(jì)實(shí)驗(yàn)而獲取新數(shù)據(jù),研究人員常常需要整合現(xiàn)有數(shù)據(jù),尤其是那些已被證實(shí)的高質(zhì)量數(shù)據(jù)。我們?nèi)粘I畹母鱾€(gè)方面及其可衡量的活動(dòng),都作為數(shù)據(jù)而被記錄和收集,這被稱為大數(shù)據(jù),如今大數(shù)據(jù)已經(jīng)受到了前所未有的關(guān)注。數(shù)據(jù)共享是構(gòu)建人類命運(yùn)共同體的關(guān)鍵為實(shí)現(xiàn)數(shù)據(jù)共享,首先要在全球范圍內(nèi)建立一個(gè)自發(fā)性的專門組織。一方
2、面,當(dāng)出現(xiàn)突發(fā)公共衛(wèi)生事件時(shí),如新發(fā)傳染病引起的流行病,特別是兩種冠狀病毒:SARS-CoV(嚴(yán)重急性呼吸綜合征冠狀病毒)和SARS-CoV-2 1,亟需全球數(shù)據(jù)共享以實(shí)現(xiàn)大數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)化的健康應(yīng)急措施和方案。另一方面,我們現(xiàn)在深陷在大數(shù)據(jù)時(shí)代,伴隨著高通量測(cè)序技術(shù)和高性能計(jì)算平臺(tái)的快速發(fā)展,數(shù)據(jù)的產(chǎn)生正以指數(shù)級(jí)速度爆發(fā)式增長(zhǎng),且大多數(shù)據(jù)是由國(guó)家科研基金項(xiàng)目支持 2,3。因此,數(shù)據(jù)共享對(duì)于應(yīng)對(duì)公共衛(wèi)生突發(fā)事件至關(guān)重要,可幫助我們?nèi)媪私馔话l(fā)情況、推動(dòng)數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究和知識(shí)發(fā)現(xiàn),并為政府決策提供重要支撐。然而,現(xiàn)有的數(shù)據(jù)共享模式緩慢低效,數(shù)據(jù)的回報(bào)投入比過低,缺乏明確的要素理念以實(shí)現(xiàn)數(shù)據(jù)共享。因
3、此,為應(yīng)對(duì)全球面臨的前所未有的公共衛(wèi)生事件(截至2020年4月18日,SARS-CoV-2已在200多個(gè)國(guó)家/地區(qū)傳播,感染病例達(dá)2,213,653例,死亡154,462例),需要我們秉承人類命運(yùn)共同體的理念,明確數(shù)據(jù)共享要素,并以此建立形成快捷、開放、高效的數(shù)據(jù)共享范式。數(shù)據(jù)共享急需數(shù)據(jù)生態(tài)系統(tǒng)數(shù)據(jù)共享貫穿于數(shù)據(jù)全生命周期,涉及數(shù)據(jù)開放和發(fā)布(特別是由政府資助的研究數(shù)據(jù)),數(shù)據(jù)標(biāo)準(zhǔn)體系以及數(shù)據(jù)庫(kù)中的數(shù)據(jù)管理和訪問等多個(gè)方面。數(shù)據(jù)共享由數(shù)據(jù)提供者發(fā)起,由數(shù)據(jù)庫(kù)實(shí)施管理,并為公眾提供數(shù)據(jù)訪問權(quán)限,所有這些相關(guān)活動(dòng)共同構(gòu)成了數(shù)據(jù)共享生態(tài)系統(tǒng)。因此,數(shù)據(jù)共享的基本要素應(yīng)該涵蓋兩個(gè)主要方面:一個(gè)是數(shù)據(jù)
4、提供者(不僅包括原始數(shù)據(jù)的生產(chǎn)者,還包括提供數(shù)據(jù)注釋和數(shù)據(jù)關(guān)聯(lián)的數(shù)據(jù)庫(kù)4),另一個(gè)是數(shù)據(jù)管理者。數(shù)據(jù)提供者三要素:及時(shí)性、開放性和可用性對(duì)于數(shù)據(jù)提供者來說,及時(shí)性、開放性和可用性(promptness, openness, and usefulness,POU),是數(shù)據(jù)共享的基礎(chǔ)準(zhǔn)則,特別是在公共緊急情況下,這三個(gè)要素起到至關(guān)重要的作用(圖1)。在疫情爆發(fā)期間,數(shù)據(jù)共享的及時(shí)性至關(guān)重要,因?yàn)椤八俣葲Q定一切”5!與1996年國(guó)際人類基因組測(cè)序聯(lián)盟提出的百慕大原則一致,主張?jiān)跀?shù)據(jù)產(chǎn)生后24小時(shí)內(nèi)迅速公開發(fā)布基因組序列數(shù)據(jù)且不受使用限制。在突發(fā)情況下,及時(shí)共享數(shù)據(jù)對(duì)世界范圍內(nèi)的研究人員和全球人類社會(huì)
5、意義重大。當(dāng)然,在這種特殊情況下,如何保護(hù)數(shù)據(jù)提供者的權(quán)益也很重要。為實(shí)現(xiàn)多贏,快速共享數(shù)據(jù)的政策,應(yīng)作為共同規(guī)則和緊急程序被業(yè)界廣泛認(rèn)可和采納,與此同時(shí),知識(shí)產(chǎn)權(quán)保護(hù)、出版優(yōu)先權(quán)以及數(shù)據(jù)提供方的利益等諸多問題都需經(jīng)過專業(yè)且公開的討論商定 6。圖1 數(shù)據(jù)共享的要素對(duì)于數(shù)據(jù)提供者來說,數(shù)據(jù)共享要秉承及時(shí)、開放、可用三個(gè)要素;對(duì)于數(shù)據(jù)管理者來說,數(shù)據(jù)共享要遵循存儲(chǔ)、整合、轉(zhuǎn)化三個(gè)要素。整個(gè)科學(xué)界應(yīng)制定并認(rèn)可相關(guān)的政策、數(shù)據(jù)庫(kù)和標(biāo)準(zhǔn)規(guī)范,以全力支持?jǐn)?shù)據(jù)共享活動(dòng)。數(shù)據(jù)開放性強(qiáng)調(diào)數(shù)據(jù)本身和相應(yīng)的元數(shù)據(jù)都應(yīng)該在數(shù)據(jù)庫(kù)中公開發(fā)布和完全共享。“眾人拾柴火焰高”,數(shù)據(jù)庫(kù)的建設(shè)需要廣大同行的共同努力。數(shù)據(jù)庫(kù)不僅負(fù)
6、責(zé)數(shù)據(jù)的存儲(chǔ)和處理,還提供對(duì)所有數(shù)字信息的免費(fèi)獲取和訪問。目前,在生命科學(xué)領(lǐng)域,有一些大型的全球信息中心致力于分子數(shù)據(jù)(如DNA/蛋白質(zhì)序列和結(jié)構(gòu))的收集和管理 7,包括美國(guó)國(guó)家生物技術(shù)信息中心(NCBI)8,歐洲生物信息學(xué)研究所(EBI)9,中國(guó)國(guó)家生物信息中心/國(guó)家基因組科學(xué)數(shù)據(jù)中心(CNCB/NGDC)10。這些公共資金支持的數(shù)據(jù)中心接收全球數(shù)據(jù)遞交,并在全球范圍內(nèi)提供數(shù)據(jù)開放共享服務(wù)。必須強(qiáng)調(diào)的是,這些數(shù)據(jù)庫(kù)應(yīng)獲得長(zhǎng)期、穩(wěn)定的經(jīng)費(fèi)支持,以保障數(shù)據(jù)的永久訪問和長(zhǎng)期使用。數(shù)據(jù)的可用性強(qiáng)調(diào)數(shù)據(jù)質(zhì)量和完整的重要性 11。數(shù)據(jù)共享本身不是目的,使數(shù)據(jù)得到廣泛使用才是數(shù)據(jù)共享的目的。所以,被共享的
7、數(shù)據(jù)必須保證其可靠性及完整性,低質(zhì)量的數(shù)據(jù)將帶來偏差或錯(cuò)誤。另外,共享的數(shù)據(jù)需全鏈條覆蓋,不僅包括數(shù)據(jù),還包括但不局限于:元數(shù)據(jù)、未處理的數(shù)據(jù)、衍生數(shù)據(jù)集、分析結(jié)果、源代碼、協(xié)議、流程圖等。因此,用戶和數(shù)據(jù)提供者需要制定一套數(shù)據(jù)共享標(biāo)準(zhǔn),這樣會(huì)事半功倍,吸引更多人參與,數(shù)據(jù)共享成效更好。數(shù)據(jù)管理者三要素:存儲(chǔ)、整合和轉(zhuǎn)化數(shù)據(jù)共享貫穿于數(shù)據(jù)全生命周期。為了促進(jìn)數(shù)據(jù)共享,數(shù)據(jù)庫(kù)必須提供一套將數(shù)字?jǐn)?shù)據(jù)存儲(chǔ),整合并轉(zhuǎn)化(deposition, integration, and translation, DIT)的網(wǎng)絡(luò)服務(wù)以便訪問和使用共享數(shù)據(jù)(圖1)。為了保證共享數(shù)據(jù)的質(zhì)量和可用性,數(shù)據(jù)都會(huì)經(jīng)過審編處
8、理。因此,數(shù)據(jù)審編必須涵蓋數(shù)據(jù)標(biāo)準(zhǔn)化注釋、數(shù)據(jù)質(zhì)量控制和整合受控詞表等一系列的過程。只有經(jīng)過審編的高質(zhì)量數(shù)據(jù)才能被用于信息挖掘和進(jìn)一步的加工。數(shù)據(jù)與數(shù)據(jù)管理要素相結(jié)合,才能實(shí)現(xiàn)將大數(shù)據(jù)轉(zhuǎn)化為知識(shí)的目標(biāo)??偠灾?,數(shù)據(jù)庫(kù)包含了數(shù)據(jù)管理的存儲(chǔ)、整合和轉(zhuǎn)化三要素,并為數(shù)據(jù)管理提供了核心工具和數(shù)據(jù)共享生態(tài)系統(tǒng)(圖1)。數(shù)據(jù)共享的POU-DIT要素是相互關(guān)聯(lián)的,可以任意組合使用,并隨著數(shù)據(jù)生態(tài)系統(tǒng)的完善而發(fā)展。POU-DIT要素適用于廣泛的研究領(lǐng)域,包括POU中數(shù)據(jù)共享的及時(shí)性、開放性和可用性,以及數(shù)據(jù)、信息和知識(shí)的存儲(chǔ)、整合與轉(zhuǎn)化。此外,POU-DIT要素不僅是對(duì)FAIR原則 12(數(shù)據(jù)可查找、可訪問
9、、可交互操作和可重復(fù)利用)的補(bǔ)充,也是數(shù)據(jù)共享的共同準(zhǔn)則和數(shù)據(jù)管理的指導(dǎo)標(biāo)準(zhǔn)。POU-DIT要素和FAIR原則旨在共同促進(jìn)科學(xué)界的數(shù)據(jù)開放性和可重復(fù)利用性。盡管目前POU-DIT要素與數(shù)據(jù)所有權(quán)、數(shù)據(jù)安全、數(shù)據(jù)隱私和數(shù)據(jù)保護(hù)法 2 (如歐盟的數(shù)據(jù)保護(hù)條例、美國(guó)健康保險(xiǎn)和責(zé)任法案等)存在分歧,但所有復(fù)雜問題都需經(jīng)過專業(yè)且公開的討論商定 13。合作促進(jìn)數(shù)據(jù)共享如上所述,數(shù)據(jù)共享還面臨諸多挑戰(zhàn)。例如,不同學(xué)科領(lǐng)域在數(shù)據(jù)處理和共享文化的差異性,比如生物醫(yī)學(xué)當(dāng)基因組學(xué)遇到流行病學(xué)時(shí),往往會(huì)給數(shù)據(jù)共享帶來多重障礙。理想情況下,資助機(jī)構(gòu)、學(xué)術(shù)期刊、政府組織以及研究人員必須相互配合,為數(shù)據(jù)共享活動(dòng)制定規(guī)范化方
10、案。目前,全球微生物標(biāo)識(shí)計(jì)劃(https:/www.Global MicrobialI),旨在建立一個(gè)全球微生物基因組流行病學(xué)數(shù)據(jù)庫(kù),以便發(fā)現(xiàn)新出現(xiàn)的病原體。與此同時(shí),針對(duì)當(dāng)前的SARS-CoV-2新冠疫情,GISAID 14、NCBI的GenBank 15,和CNCB/NGDC的2019年新型冠狀病毒信息庫(kù)(2019nCoVR; 16作出了重要貢獻(xiàn)。其中,2019nCoVR信息庫(kù)通過數(shù)據(jù)整合和審編質(zhì)控,為全球科研人員提供了高質(zhì)量基因組序列和數(shù)據(jù)存儲(chǔ)、挖掘和轉(zhuǎn)化等數(shù)據(jù)服務(wù)(圖2)。然而,各數(shù)據(jù)庫(kù)間的數(shù)據(jù)交換、信息互聯(lián)和協(xié)調(diào)溝通,以及全球各實(shí)驗(yàn)室乃至各國(guó)的數(shù)據(jù)標(biāo)準(zhǔn)化等工
11、作,都已迫在眉睫。為共同應(yīng)對(duì)全球爆發(fā)的COVID-19,亟需建立跨國(guó)、跨學(xué)科以及跨數(shù)據(jù)庫(kù)間(如2019nCoVR、GISAID和GenBank)的協(xié)同合作。圖2 突發(fā)公共事件中的數(shù)據(jù)共享方案數(shù)字星球,數(shù)據(jù)共享綜上所述,將數(shù)據(jù)轉(zhuǎn)化為知識(shí)的關(guān)鍵因素是數(shù)據(jù)共享,尤其是當(dāng)今全球面臨共同危機(jī)時(shí)。為使全人類最大程度地享用共享數(shù)據(jù),必須建立以POU-DIT要素為核心的數(shù)據(jù)共享標(biāo)準(zhǔn)化管理,為包括但不限于研究人員、政府決策者、資助機(jī)構(gòu)和期刊出版商在內(nèi)的所有用戶提供指導(dǎo),以開展數(shù)據(jù)共享活動(dòng)。在數(shù)據(jù)共享中所得的數(shù)據(jù)和建立的相關(guān)基礎(chǔ)設(shè)施,不僅便于立即使用,還可以作為紀(jì)念抗疫英雄和受害者的歷史性材料。所以,無論在常規(guī)或
12、突發(fā)情況,我們都要積極倡導(dǎo)數(shù)據(jù)共享文化 17。為構(gòu)建人類命運(yùn)共同體,我們呼吁廣大同行攜手并進(jìn)、精誠(chéng)合作,將共享數(shù)據(jù)與POU-DIT理念結(jié)合,共同打造一個(gè)更加美好的數(shù)字星球。致謝感謝我們的同事和學(xué)生為2019nCoVR(利益競(jìng)爭(zhēng)作者聲明, 不存在利益競(jìng)爭(zhēng)。參考文獻(xiàn)1 Yang X, Yu Y, Xu J, Shu H, Xia J, Liu H, et al. Clinical course and outcomes of critically ill patients with SARS-CoV-2 pneumonia in Wuhan, China: a single-centered, r
13、etrospective, observational study. Lancet Respir Med 2020.2 Phillips M, Molnar-Gabor F, Korbel JO, Thorogood A, Joly Y, Chalmers D, et al. Genomics: data sharing needs an international code of conduct. Nature 2020;578:31-3.3 The importance and challenges of data sharing. Nat Nanotechnol 2020;15:83.4
14、 Gaudet P, Bairoch A, Field D, Sansone SA, Taylor C, Attwood TK, et al. Towards BioDBcore: a community-defined information specification for biological databases. Nucleic Acids Res 2011;39:D7-10.5 Yozwiak NL, Schaffner SF, Sabeti PC. Data sharing: Make outbreak research open access. Nature 2015;518:
15、477-9.6 Wu C-I, Poo M-M. Very fast evolution, not-so-fast publication A proposed solution. National Science Review 2020;7:2378.7 Rigden DJ, Fernandez XM. The 27th annual Nucleic Acids Research database issue and molecular biology database collection. Nucleic Acids Res 2020;48:D1-D8.8 Sayers EW, Beck
16、 J, Brister JR, Bolton EE, Canese K, Comeau DC, et al. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res 2020;48:D9-D16.9 Cook CE, Stroe O, Cochrane G, Birney E, Apweiler R. The European Bioinformatics Institute in 2020: building a global infrastructure of in
17、terconnected data resources for the life sciences. Nucleic Acids Res 2020;48:D17-D23.10 National Genomics Data Center Members and Partners. Database Resources of the National Genomics Data Center in 2020. Nucleic Acids Res 2020;48:D24-D33.11 Li Y, Sperrin M, Martin GP, Ashcroft DM, van Staa TP. Exam
18、ining the impact of data quality and completeness of electronic health records on predictions of patients risks of cardiovascular disease. Int J Med Inform 2020;133:104033.12 Wilkinson MD, Dumontier M, Aalbersberg IJ, Appleton G, Axton M, Baak A, et al. The FAIR Guiding Principles for scientific data management and stewardship. Sci Data 2016;3:160018.13 Drazen JM, Morrissey S, Malina D, Hamel MB, Campion EW. The Importance - and the Complexities - of Data Sharing. N Engl J Med 2016;375:1182-3.14 Shu Y, McCauley J. GISAID: Global initiative on sharing all in
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 定制公交義工方案(3篇)
- 第四單元(單元測(cè)試)-2024-2025學(xué)年九年級(jí)上語(yǔ)文 統(tǒng)編版
- 水上建筑放置方案(3篇)
- DB23-T2981-2021-藍(lán)靛果綠枝扦插育苗技術(shù)規(guī)程-黑龍江省
- DB23-T2919-2021-婚宴接待服務(wù)規(guī)范-黑龍江省
- 工廠環(huán)保設(shè)備管理制度
- 養(yǎng)殖企業(yè)隔離管理制度
- 社區(qū)品牌管理方案(3篇)
- 山塘淤泥處理方案(3篇)
- 物業(yè)元旦整改方案(3篇)
- 前程無憂測(cè)評(píng)題庫(kù)
- 2025-2030中國(guó)馬丁靴行業(yè)發(fā)展分析及發(fā)展前景與投資研究報(bào)告
- 證券投資學(xué) 課件 第一章 導(dǎo)論
- 锝99mTc替曲膦注射液-藥品臨床應(yīng)用解讀
- 2025年食品生產(chǎn)初級(jí)考試試題及答案
- 2025年由民政局策劃的離婚協(xié)議范本
- 《電路分析基礎(chǔ)》模擬試卷 期末考試卷AB卷4套帶答案
- 洗車工上崗培訓(xùn)
- 中職語(yǔ)文職業(yè)模塊期末綜合測(cè)試題(三)
- Chinese Tea(中國(guó)茶)知到智慧樹章節(jié)測(cè)試課后答案2024年秋東北林業(yè)大學(xué)
- 我的家鄉(xiāng)廣西百色
評(píng)論
0/150
提交評(píng)論