高通量測序入門_第1頁
高通量測序入門_第2頁
高通量測序入門_第3頁
高通量測序入門_第4頁
高通量測序入門_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——高通量測序入門高通量測序入門第一帖/bbs/thread-368220-1-1.html很高興成為論壇特邀專家,鄙人會接下來的一段時間內(nèi)寫一些高通量測序數(shù)據(jù)方面的帖子,由淺入深,可能剛開始會比較簡單一些,后面會有一些針對性的專題,也歡迎各位大俠或小菜提出建議或問題大家一起探討。為了活躍論壇建議大家直接跟帖或發(fā)新帖,我會盡快回復(fù)大家。

本人方向也僅限在RNA-seq領(lǐng)域,所以其他領(lǐng)域的問題可能不太了解,只能依照自己的背景知識和請教別人解答,請大家慢拍磚!

另外,由于試驗室課題比較忙,所以可能不能及時發(fā)帖或回復(fù)大家,也請見諒。

既然是入門專題,那就先簡單說一下,要分析高通量測序數(shù)據(jù)的配置要求吧:聲明:該配置不適用與從華大拿回分析結(jié)果直接寫paper的同學(xué)。我認識的一位同學(xué)一點生物信息背景也沒有,直接用華大返回分析結(jié)果發(fā)了很好的文章,假使想這樣的同學(xué)可直接跳過這篇,等待以后的專題。言歸正傳:1.軟配置:

生物理論知識:熟悉生命活動的基本過程,對復(fù)制、轉(zhuǎn)錄、翻譯、轉(zhuǎn)錄后修飾有較明了的認識,假使知道cis-element和trans-factor的區(qū)別就更好了。推薦朱玉賢的分子生物學(xué),能夠把握60%就差不多了(這是對想通過測序數(shù)據(jù)進行生物分析同學(xué)的要求,假使是做軟件開發(fā)等就無所謂了,譬如國內(nèi)做的很好的一些試驗室,都是數(shù)學(xué)或自動化專業(yè)的牛人,以下一些配置也不適用這些牛人)

試驗理論知識:不一定要做過試驗,但至少要知道試驗的過程,譬如測序前樣本的處理過程,序列片段化、加接頭、PCR擴增等??赡軟]有用,但將來出了問題,你可以很簡單知道問題出在哪里

編程知識:要求不用太高,學(xué)一些perl就可以了,對于生物專業(yè)的同學(xué)(本人就是生物專業(yè)),猛烈推薦perl語言入門,好像現(xiàn)在已經(jīng)出到第五版了。此書極為搞笑,本人當時看了一個星期,其中幽默的語言導(dǎo)致本人經(jīng)常笑出聲音引得試驗室同學(xué)以為神經(jīng)了。對于有C語言基礎(chǔ)的同學(xué)來說簡直就是菜,兩天就可以通了。另外,學(xué)有余力的同學(xué)可以學(xué)一些R以及python或java.由于好多軟件都是用R或python寫的,假使要是比較懶或三國殺很忙抽不出空就算了,學(xué)學(xué)perl就好了。切記一點:perl的學(xué)習(xí)過程中除了基礎(chǔ)知識,一定要看一下哈希和模塊這兩部分。當然假使你們導(dǎo)師允許你對數(shù)據(jù)去個冗余也要半個月的話,你只學(xué)到循環(huán)就可以了。

統(tǒng)計學(xué)知識:只要大學(xué)上過生物統(tǒng)計也就差不多了(遇到二百五的老師你就比較悲劇了),最基本的知道什么是標準化,正態(tài)分布,pvalue以及卡方檢驗或Fisher確切檢驗,多重檢驗,,F(xiàn)DR這些概念和計算方法也就差不多了。推薦從以下統(tǒng)計軟件中擇一精通之:

SAS(比較變態(tài),碩士期間學(xué)了,后來就還給老師了)

excel(入手比較簡單,好好學(xué)學(xué),功能比較全,我學(xué)的差)

matlab(本人認為最牛的統(tǒng)計軟件,有專門的論壇,有興趣的同學(xué)可以google一下)SPSS(上手比較簡單,而且好多漢化的十分好,新手同學(xué)比較推薦,但是精通比較

難)

R(最好能學(xué)這個,我覺著學(xué)R太必要了)

perl(指CPAN中的統(tǒng)計模塊,不過需要一點技術(shù))

常見數(shù)據(jù)庫:這個根據(jù)自己所做的方向,需要具體問題具體分析,常見的NCBI以及EBI和UCSC還是需要了解的。

計算機操作要求:推薦linux系統(tǒng),把握最基本的命令就可以了,還有一些shell命令,建議買一本linux入門的書看看;對于習(xí)慣windows的同學(xué),猛烈建議學(xué)linux,開始的時候可能你覺得好多軟件都有windows版本的,但是早晚你會發(fā)現(xiàn)有好多軟件沒有,所以必需要學(xué)

2.硬件要求:

計算機要求:現(xiàn)在電腦快跟白菜一個價了,所以建議個人電腦配置的好一點(假使有服務(wù)器就算了),推薦配置:64位系統(tǒng)(32系統(tǒng)的話,內(nèi)存受限,最多識別3G多),redhat或ubuntu都可以,推薦ubuntu,它的apt-get功能還是比較神器的,4個CPU差不多,本人全力推薦裝8G內(nèi)存,假使你不能忍受經(jīng)常內(nèi)存溢出的話。當然假使有服務(wù)器,這些都不是問題。至于顯卡什么的,就算了,假使要是你想魔獸一下的話,可以跟你老板申請一下。對了硬盤大點,由于測序數(shù)據(jù)一般比較大。

網(wǎng)絡(luò)要求:這個好像你也管不了,一般試驗室都已經(jīng)固定了帶寬。遇有經(jīng)常在數(shù)據(jù)庫上下一些基因組或其他解釋信息,所以還是進你所能的爭取一下。

本人文字表達能力比較差,就嘮嘮叨叨先說這些,下次我會簡單介紹一些高通量測序的基本知識和發(fā)展過程。對于已經(jīng)把握這些入門知識(一般也是生物信息的入門知識)的同學(xué)可以飛過,假使你還有哪些不了解,可以簡單的復(fù)習(xí)一下了!!

高通量測序入門其次帖/bbs/thread-370713-1-1.html

很高興貼完第一帖得到那么多回復(fù),本來這一帖早就該寫的,由于最近課題比較緊而且遇到好多問題,所以拖到現(xiàn)在,向大家致歉!

———————————————————扯淡分割線——————————————————————————

正式開始之前,還是扯點八卦。在第一帖之后,有個朋友給我發(fā)郵件問我華大的評價。我也覺著華大是一個好有爭議的話題。我細心想了一下那些質(zhì)疑華大的人無非有兩種理由:1.華大太能忽悠2.對于他們?nèi)〉玫某煽?,好多人都說假使我有那么多錢我也能做。我跟華大接觸不是好多,而且我讀博之前也那么覺得,可是我現(xiàn)在覺得我們應(yīng)當好好的去閱讀一下華大。首先,現(xiàn)在的科研有幾個不在忽悠(此忽悠不是貶義,試想,我們做的工作在發(fā)paper時總是要寫的意義重要一些,去讓reviewer覺得有發(fā)表的必要,這是不是忽悠;你去申請基金的時候,總是要把課題意義拔高再拔高,這是不是忽悠),大家都是在忽悠,何必五十步笑百步呢。2.給

你那么多錢,你也不一定能有他們那么多成果。華大終究拿了多少錢,我不知道,但是我知道拿他們那么多錢,沒做出東西的人有的是。我知道某個單位,要測某個微生物的基因組(為了影響就不說是什么物種了,說了物種就很簡單知道哪個單位了),當時Roche454剛剛出來,該單位將測序意義定義為打破國外高科技技術(shù)壟斷,人工與高通量測序技術(shù)賽跑。人才啊,最終的結(jié)果是什么,在徘徊了兩年,花費數(shù)十萬(或上百萬后),還是送到了華大,倒是真的沒用454,由于已經(jīng)出了通量更高的IlluminaGA,最終文章發(fā)表在某雜志上,篇幅不到一頁,亮點就是奇多,估算一下,每個不到十個單詞。當然這么極品的人還是比較少,我只是想說給你錢,你真的不知道怎么花。

————————————————扯淡完分割線————————————————————————————

扯淡完,進正題,這一貼,主要簡單介紹一些,測序數(shù)據(jù)分析的基本知識,心急的同學(xué),不要慌張,俗話說心急吃不了臭豆腐。

首先,介紹一下測序技術(shù)的發(fā)展過程和一些標志事件;說道測序,可能最先想到的是Sanger和Maxam-Gilbert這兩個人,至于這兩個人干了什么,就不用太明白了,只要知道沒有這兩個人就不會有測序技術(shù)的今天就像沒有GCD就沒有XZG一樣,自從有了這兩個人就迎來了分子生物學(xué)的春天,自從有了這兩個人分子生物學(xué)事業(yè)煥然一新

事物的發(fā)展總是從量變到質(zhì)變,在這個量變過程中,我們完成宏偉的人類基因組計劃還有好多的模式生物的基因組,那些鄙視華大的同學(xué)這里要記住這個過程中,華大是有貢獻的。

質(zhì)變來臨:忽如一夜春風(fēng)來,ABI3730型測序儀漸行漸遠,NGS(NextGenerationsequence)在哪里?馬上就有答案。

Roche454、IlluminaGA、ABISOLiD伴著春姑娘的腳步出現(xiàn)了。

這三種測序平臺的原理、優(yōu)缺點、發(fā)展歷程估計大家已經(jīng)聽的好多了,假使想復(fù)習(xí)一下的同學(xué)可以google一下(俗話說,知之為知之,不知google知)。找不到?不能吧,兩個檢索方法:1.google中輸入:\2.直接pubmed檢索綜述,找稍微好點的雜志,好好復(fù)習(xí)一下就好了。

由于本人用到的數(shù)據(jù)多是IlluminaGA平臺,所以我后面的內(nèi)容可能更傾向于這個平臺。

先說幾個概念:

1.fasta格式:其實我也不知道,為什么叫這個名字,其實也不用知道,你只要這是一種序列存儲格式就好了,大約分為兩行,第一行以>開頭,說明解釋信息,其次行及往后均為序列信息。

2.fastq格式:這個同樣是序列存儲格式,共分四行,前兩行與fasta一致,第三行一般是一個“+〞字符,第四行就是序列質(zhì)量分數(shù),這個分數(shù)看起來有點奇怪,實際

在對測序錯誤率進行l(wèi)og變換后取整用ASCII碼的表述形式。但是不同的測序儀換算方法稍有不同,這個換算過程,大家有興趣可以看一下,針對自己用的平臺要細心看一下。

3.序列比對:alignment,好像沒有什么好解釋的,最簡單的BLAST、BLAT到后面的Seqmap/Bowtie/SOAP等都是干這個用的,雖然我在工作中從來沒有用過華大的SOAP,但是某天無聊我測試了下,其性能絕對算不上差,而且protocol竟有中文版,所以還值得試試。現(xiàn)在出了N多的軟件,反正原理就是兩個,要么把基因組做索引,要么把測序的片段做索引.

4.好像知道這么多久可以進行數(shù)據(jù)分析了,可是我特別想寫第四條,就把IlluminaGA測轉(zhuǎn)錄組樣本提取流程說一下吧,測基因組的就更簡單一些。

第一步:提取總的RNA,具體怎么做大家都比別人明白,我說了你也不會聽我的,不會的話就請你師姐/師兄教教你吧。一般他們都比較熱心,愛國愛家愛師妹嘛!其次步:純化一下,一般真核都用Oligo(d

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論