高通量測序入門

上傳人：1*** IP屬地：廣東上傳時間：2023-04-08 格式：DOCX 頁數(shù)：9 大?。?1.07KB 積分：2.4 舉報 版權(quán)申訴

已閱讀5頁，還剩4頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

本文格式為Word版，下載可任意編輯——高通量測序入門高通量測序入門第一帖/bbs/thread-368220-1-1.html很高興成為論壇特邀專家，鄙人會接下來的一段時間內(nèi)寫一些高通量測序數(shù)據(jù)方面的帖子，由淺入深，可能剛開始會比較簡單一些，后面會有一些針對性的專題，也歡迎各位大俠或小菜提出建議或問題大家一起探討。為了活躍論壇建議大家直接跟帖或發(fā)新帖，我會盡快回復(fù)大家。

本人方向也僅限在RNA-seq領(lǐng)域，所以其他領(lǐng)域的問題可能不太了解，只能依照自己的背景知識和請教別人解答，請大家慢拍磚！

另外，由于試驗室課題比較忙，所以可能不能及時發(fā)帖或回復(fù)大家，也請見諒。

既然是入門專題，那就先簡單說一下，要分析高通量測序數(shù)據(jù)的配置要求吧：聲明：該配置不適用與從華大拿回分析結(jié)果直接寫paper的同學(xué)。我認識的一位同學(xué)一點生物信息背景也沒有，直接用華大返回分析結(jié)果發(fā)了很好的文章，假使想這樣的同學(xué)可直接跳過這篇，等待以后的專題。言歸正傳：1.軟配置：

生物理論知識：熟悉生命活動的基本過程，對復(fù)制、轉(zhuǎn)錄、翻譯、轉(zhuǎn)錄后修飾有較明了的認識，假使知道cis-element和trans-factor的區(qū)別就更好了。推薦朱玉賢的分子生物學(xué)，能夠把握60%就差不多了（這是對想通過測序數(shù)據(jù)進行生物分析同學(xué)的要求，假使是做軟件開發(fā)等就無所謂了，譬如國內(nèi)做的很好的一些試驗室，都是數(shù)學(xué)或自動化專業(yè)的牛人，以下一些配置也不適用這些牛人）

試驗理論知識：不一定要做過試驗，但至少要知道試驗的過程，譬如測序前樣本的處理過程，序列片段化、加接頭、PCR擴增等?？赡軟]有用，但將來出了問題，你可以很簡單知道問題出在哪里

編程知識：要求不用太高，學(xué)一些perl就可以了，對于生物專業(yè)的同學(xué)（本人就是生物專業(yè)），猛烈推薦perl語言入門，好像現(xiàn)在已經(jīng)出到第五版了。此書極為搞笑，本人當時看了一個星期，其中幽默的語言導(dǎo)致本人經(jīng)常笑出聲音引得試驗室同學(xué)以為神經(jīng)了。對于有C語言基礎(chǔ)的同學(xué)來說簡直就是菜，兩天就可以通了。另外，學(xué)有余力的同學(xué)可以學(xué)一些R以及python或java.由于好多軟件都是用R或python寫的，假使要是比較懶或三國殺很忙抽不出空就算了，學(xué)學(xué)perl就好了。切記一點：perl的學(xué)習(xí)過程中除了基礎(chǔ)知識，一定要看一下哈希和模塊這兩部分。當然假使你們導(dǎo)師允許你對數(shù)據(jù)去個冗余也要半個月的話，你只學(xué)到循環(huán)就可以了。

統(tǒng)計學(xué)知識：只要大學(xué)上過生物統(tǒng)計也就差不多了（遇到二百五的老師你就比較悲劇了），最基本的知道什么是標準化，正態(tài)分布，pvalue以及卡方檢驗或Fisher確切檢驗，多重檢驗,，F(xiàn)DR這些概念和計算方法也就差不多了。推薦從以下統(tǒng)計軟件中擇一精通之：

SAS(比較變態(tài)，碩士期間學(xué)了，后來就還給老師了)

excel(入手比較簡單，好好學(xué)學(xué)，功能比較全，我學(xué)的差)

matlab(本人認為最牛的統(tǒng)計軟件，有專門的論壇，有興趣的同學(xué)可以google一下)SPSS(上手比較簡單，而且好多漢化的十分好，新手同學(xué)比較推薦，但是精通比較

難)

R(最好能學(xué)這個，我覺著學(xué)R太必要了)

perl(指CPAN中的統(tǒng)計模塊，不過需要一點技術(shù))

常見數(shù)據(jù)庫：這個根據(jù)自己所做的方向，需要具體問題具體分析，常見的NCBI以及EBI和UCSC還是需要了解的。

計算機操作要求：推薦linux系統(tǒng)，把握最基本的命令就可以了，還有一些shell命令，建議買一本linux入門的書看看；對于習(xí)慣windows的同學(xué)，猛烈建議學(xué)linux，開始的時候可能你覺得好多軟件都有windows版本的，但是早晚你會發(fā)現(xiàn)有好多軟件沒有，所以必需要學(xué)

2.硬件要求：

計算機要求：現(xiàn)在電腦快跟白菜一個價了，所以建議個人電腦配置的好一點（假使有服務(wù)器就算了），推薦配置：64位系統(tǒng)（32系統(tǒng)的話，內(nèi)存受限，最多識別3G多），redhat或ubuntu都可以，推薦ubuntu，它的apt-get功能還是比較神器的，4個CPU差不多，本人全力推薦裝8G內(nèi)存，假使你不能忍受經(jīng)常內(nèi)存溢出的話。當然假使有服務(wù)器，這些都不是問題。至于顯卡什么的，就算了，假使要是你想魔獸一下的話，可以跟你老板申請一下。對了硬盤大點，由于測序數(shù)據(jù)一般比較大。

網(wǎng)絡(luò)要求：這個好像你也管不了，一般試驗室都已經(jīng)固定了帶寬。遇有經(jīng)常在數(shù)據(jù)庫上下一些基因組或其他解釋信息，所以還是進你所能的爭取一下。

本人文字表達能力比較差，就嘮嘮叨叨先說這些，下次我會簡單介紹一些高通量測序的基本知識和發(fā)展過程。對于已經(jīng)把握這些入門知識（一般也是生物信息的入門知識）的同學(xué)可以飛過，假使你還有哪些不了解，可以簡單的復(fù)習(xí)一下了！！

高通量測序入門其次帖/bbs/thread-370713-1-1.html

很高興貼完第一帖得到那么多回復(fù)，本來這一帖早就該寫的，由于最近課題比較緊而且遇到好多問題，所以拖到現(xiàn)在，向大家致歉！

———————————————————扯淡分割線——————————————————————————

正式開始之前，還是扯點八卦。在第一帖之后，有個朋友給我發(fā)郵件問我華大的評價。我也覺著華大是一個好有爭議的話題。我細心想了一下那些質(zhì)疑華大的人無非有兩種理由：1.華大太能忽悠2.對于他們?nèi)〉玫某煽?，好多人都說假使我有那么多錢我也能做。我跟華大接觸不是好多，而且我讀博之前也那么覺得，可是我現(xiàn)在覺得我們應(yīng)當好好的去閱讀一下華大。首先，現(xiàn)在的科研有幾個不在忽悠（此忽悠不是貶義，試想，我們做的工作在發(fā)paper時總是要寫的意義重要一些，去讓reviewer覺得有發(fā)表的必要，這是不是忽悠；你去申請基金的時候，總是要把課題意義拔高再拔高，這是不是忽悠），大家都是在忽悠，何必五十步笑百步呢。2.給

你那么多錢，你也不一定能有他們那么多成果。華大終究拿了多少錢，我不知道，但是我知道拿他們那么多錢，沒做出東西的人有的是。我知道某個單位，要測某個微生物的基因組（為了影響就不說是什么物種了，說了物種就很簡單知道哪個單位了），當時Roche454剛剛出來，該單位將測序意義定義為打破國外高科技技術(shù)壟斷，人工與高通量測序技術(shù)賽跑。人才啊，最終的結(jié)果是什么，在徘徊了兩年，花費數(shù)十萬（或上百萬后），還是送到了華大，倒是真的沒用454，由于已經(jīng)出了通量更高的IlluminaGA，最終文章發(fā)表在某雜志上，篇幅不到一頁，亮點就是奇多，估算一下，每個不到十個單詞。當然這么極品的人還是比較少，我只是想說給你錢，你真的不知道怎么花。

————————————————扯淡完分割線————————————————————————————

扯淡完，進正題，這一貼，主要簡單介紹一些，測序數(shù)據(jù)分析的基本知識，心急的同學(xué)，不要慌張，俗話說心急吃不了臭豆腐。

首先，介紹一下測序技術(shù)的發(fā)展過程和一些標志事件；說道測序，可能最先想到的是Sanger和Maxam-Gilbert這兩個人，至于這兩個人干了什么，就不用太明白了，只要知道沒有這兩個人就不會有測序技術(shù)的今天就像沒有GCD就沒有XZG一樣，自從有了這兩個人就迎來了分子生物學(xué)的春天，自從有了這兩個人分子生物學(xué)事業(yè)煥然一新

事物的發(fā)展總是從量變到質(zhì)變，在這個量變過程中，我們完成宏偉的人類基因組計劃還有好多的模式生物的基因組，那些鄙視華大的同學(xué)這里要記住這個過程中，華大是有貢獻的。

質(zhì)變來臨:忽如一夜春風(fēng)來，ABI3730型測序儀漸行漸遠，NGS(NextGenerationsequence)在哪里？馬上就有答案。

Roche454、IlluminaGA、ABISOLiD伴著春姑娘的腳步出現(xiàn)了。

這三種測序平臺的原理、優(yōu)缺點、發(fā)展歷程估計大家已經(jīng)聽的好多了，假使想復(fù)習(xí)一下的同學(xué)可以google一下（俗話說，知之為知之，不知google知）。找不到？不能吧，兩個檢索方法：1.google中輸入:\2.直接pubmed檢索綜述，找稍微好點的雜志，好好復(fù)習(xí)一下就好了。

由于本人用到的數(shù)據(jù)多是IlluminaGA平臺，所以我后面的內(nèi)容可能更傾向于這個平臺。

先說幾個概念：

1.fasta格式：其實我也不知道，為什么叫這個名字，其實也不用知道，你只要這是一種序列存儲格式就好了，大約分為兩行，第一行以>開頭，說明解釋信息，其次行及往后均為序列信息。

2.fastq格式：這個同樣是序列存儲格式，共分四行，前兩行與fasta一致，第三行一般是一個“+〞字符，第四行就是序列質(zhì)量分數(shù)，這個分數(shù)看起來有點奇怪，實際

在對測序錯誤率進行l(wèi)og變換后取整用ASCII碼的表述形式。但是不同的測序儀換算方法稍有不同，這個換算過程，大家有興趣可以看一下，針對自己用的平臺要細心看一下。

3.序列比對：alignment,好像沒有什么好解釋的，最簡單的BLAST、BLAT到后面的Seqmap/Bowtie/SOAP等都是干這個用的，雖然我在工作中從來沒有用過華大的SOAP,但是某天無聊我測試了下，其性能絕對算不上差，而且protocol竟有中文版，所以還值得試試。現(xiàn)在出了N多的軟件，反正原理就是兩個，要么把基因組做索引，要么把測序的片段做索引.

4.好像知道這么多久可以進行數(shù)據(jù)分析了，可是我特別想寫第四條，就把IlluminaGA測轉(zhuǎn)錄組樣本提取流程說一下吧，測基因組的就更簡單一些。

第一步：提取總的RNA，具體怎么做大家都比別人明白，我說了你也不會聽我的，不會的話就請你師姐/師兄教教你吧。一般他們都比較熱心，愛國愛家愛師妹嘛！其次步：純化一下，一般真核都用Oligo(d

人人文庫> 全部分類> 教育資料 > 中學(xué)教育

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

高通量測序入門

文檔簡介

溫馨提示

最新文檔

評論

高通量測序入門

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔