數(shù)據(jù)統(tǒng)計分析-第一次作業(yè)_第1頁
數(shù)據(jù)統(tǒng)計分析-第一次作業(yè)_第2頁
數(shù)據(jù)統(tǒng)計分析-第一次作業(yè)_第3頁
數(shù)據(jù)統(tǒng)計分析-第一次作業(yè)_第4頁
數(shù)據(jù)統(tǒng)計分析-第一次作業(yè)_第5頁
全文預覽已結束

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、簡答題:1 什么是統(tǒng)計學?請結合自己的課題介紹統(tǒng)計學的內(nèi)含答:統(tǒng)計學是一門研究隨機現(xiàn)象,以推斷為特征的方法論科學,“由部分推及全體”的思想貫穿于統(tǒng)計學的始終。具體地說,它是研究如何搜集、整理、分析反映事物總體信息的數(shù)字資料,并以此為依據(jù),對總體特征進行推斷的原理和方法;是關于收集、整理、分析和解釋統(tǒng)計數(shù)據(jù)的科學,是一門認識方法論性質(zhì)的科學,其目的是探索數(shù)據(jù)內(nèi)在的數(shù)量規(guī)律性,以達到對客觀事物的科學認識。我的研究課題是用生物信息學的方法來研究微衛(wèi)星方面的問題。本課題的研究最初就是用統(tǒng)計學的方法對不同基因組中的微衛(wèi)星進行統(tǒng)計,分析微衛(wèi)星與物種的相關性及聯(lián)系。進行本課題的研究,首先,收集數(shù)據(jù),在NCB

2、I中下載多條基因組數(shù)據(jù),之后,根據(jù)生物不同的特征,對數(shù)據(jù)進行分類及整理,接下來,運用統(tǒng)計學的相關概念比如相對密度、相對風度、回歸方程等進行基因組中微衛(wèi)星的分布的計算,之后,運用R語言作圖,將微衛(wèi)星的分布可視化,更深入地進行研究分析分布規(guī)律與生物功能及進化的聯(lián)系。2 舉例說明總體,樣本,參數(shù),統(tǒng)計量,變量這幾個概念答:總體是包含所研究的全部個體(數(shù)據(jù))的集合。樣本是從總體中抽取的一部分元素的集合。參數(shù)是用來描述總體特征的概括性數(shù)字度量。統(tǒng)計量是用來描述樣本特征的概括性數(shù)字度量。變量是說明現(xiàn)象某種特征的概念。比如欲調(diào)查某高校的2017屆研究生畢業(yè)生就業(yè)率情況,那么該高校的所有2017屆研究生畢業(yè)生

3、則構成一個總體,其中的每一個研究生畢業(yè)生都是一個個體。若從該高校的所有2017屆研究生畢業(yè)生中按某種抽樣規(guī)則抽出了100位畢業(yè)生,則這100位畢業(yè)生就構成了一個樣本。在這項調(diào)查中就業(yè)情況感興趣,那么就業(yè)率就是一個變量。通常關心某高校的2017屆研究生畢業(yè)生平均就業(yè)率,這里這個平均值就是一個參數(shù)。只有樣本的有關就業(yè)率的數(shù)據(jù),用此樣本計算的平均值就是統(tǒng)計量。3 比較概率抽樣和非概率抽樣的特點,指出各自適用情況答:概率抽樣:抽樣時按一定的概率以隨機原則抽取樣本。每個單位別抽中的概率已知或可以計算,當用樣本對總體目標量進行估計時,要考慮到每個單位樣本被抽到的概率。技術含量和成本都比較高。如果調(diào)查目的在

4、于掌握和研究對象總體的數(shù)量特征,得到總體參數(shù)的置信區(qū)間,就使用概率抽樣。非概率抽樣:操作簡單,時效快,成本低,而且對于抽樣中的統(tǒng)計學專業(yè)技術要求不是很高。它適合探索性的研究,調(diào)查結果用于發(fā)現(xiàn)問題,為更深入的數(shù)量分析提供準備。它同樣使用市場調(diào)查中的概念測試(不需要調(diào)查結果投影到總體的情況)。4 簡述異眾比率、四分位差、方差或標準差的適用場合答:異眾比率主要是衡量眾數(shù)對一組數(shù)據(jù)的代表程度主要適合測度分類數(shù)據(jù)的離散程度;四分位差主要適合于測度順序數(shù)據(jù)的離散程度;方差能夠較好的反映出數(shù)據(jù)的離散程度,是實際中應用最廣的離散 程度測量值,標準差和方差基本上同時應用。5 簡述眾數(shù)、中位數(shù)和平均數(shù)的特點和應用

5、場合。答:眾數(shù)主要用于測度分類數(shù)據(jù)的集中趨勢,也適用于作為順序數(shù)據(jù)以及數(shù)值型數(shù)據(jù)集中趨勢的測度值。一般情況下,只有在數(shù)據(jù)量較大的情況下,眾數(shù)才有意義。 中位數(shù)主要用于測量順序數(shù)據(jù)的集中趨勢,適用于測量數(shù)值型數(shù)據(jù)的集中趨勢,但不適用于分類數(shù)據(jù)。 平均數(shù)是集中趨勢的最主要測度值,主要適用于數(shù)值型數(shù)據(jù),而不適用于分類數(shù)據(jù)和順序數(shù)據(jù)。6 根據(jù)自己的經(jīng)驗體會舉幾個服從正態(tài)分布的隨機變量的實例。答:如某種儀器每月出現(xiàn)故障的次數(shù)、一本書一頁中的印刷錯誤、某一醫(yī)院在某一天內(nèi)的急診病人數(shù)、某班某次的考試成績、某地區(qū)成年男性的身高、某公司年銷售量、同一車間產(chǎn)品的質(zhì)量等。7請解釋中心極限定理并結

6、合自身經(jīng)驗列舉中心極限定理的應用場景答:中心極限定理是概率論中討論隨機變量序列部分和分布漸近于正態(tài)分布的一類定理。這組定理是數(shù)理統(tǒng)計學和誤差分析的理論基礎,指出了大量隨機變量累積分布函數(shù)逐點收斂到正態(tài)分布的積累分布函數(shù)的條件。它是概率論中最重要的一類定理,有廣泛的實際應用背景。 中心極限定理:設從均值為、方差為2;(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為、方差為(2)/n 的正態(tài)分布。中心極限定理則表明變量在分布上的特征.例如對一千居民收入隨機調(diào)查,發(fā)現(xiàn)無論低收入還是高收入都是少數(shù),而中等收入占多數(shù),即為正態(tài)分布.計算題(要求使用R語言計算,

7、列出計算過程中用到的R命令)1 一種產(chǎn)品需要人工組裝,現(xiàn)有三種可供選擇的組裝方法。為檢驗哪種方法更好,隨機抽取15個工人,讓他們分別用三種方法組裝。下面是15個工人分別用三種方法在相同的時間內(nèi)組裝的產(chǎn)品數(shù)量: 單位:個方法A方法B方法C16416716816517016516416816416216316616716616512913012913013130129127128128127128128125132125126126127126128127126127127125126116126125要求:(1)你準備采用什么方法來評價組裝方法的優(yōu)劣?如果讓你選擇一種方法,你會作出怎樣的選擇?試

8、說明理由答:應該用組裝數(shù)量的平均數(shù)和標準差來評價組裝方法的優(yōu)劣。平均數(shù)反映了組裝數(shù)據(jù)的多少,標準差反映了組裝方法的穩(wěn)定性。要評價各種方法的優(yōu)劣,需要計算每種方法的平均組裝數(shù)量、標準差,并用離散系數(shù)比較每種方法的離散程度,有關結果如下表:方法A方法B方法C平均數(shù)=165.60分鐘標準差=2.13分鐘離散系數(shù)=0.013平均數(shù)=128.73分鐘標準偏差1.75分鐘離散系數(shù)=0.014平均數(shù)=125.53分鐘標準偏差=2.77分鐘離散系數(shù)=0.022應選擇方法A,因為其平均組裝數(shù)量多,而且離散系數(shù)小,說明該種方法也比較穩(wěn)定。> x <- c(164,167,168,165,170,165

9、,164,168,164,162,163,166,167,166,165)>x <- c(129,130,129,130,131,130,129,127,128,128,127,128,128,125,132)>x <-c (125,126,126,127,126,128,127,126,127,127,125,126,116,126,125)> mean(x)> sd(x)2 調(diào)節(jié)一個裝瓶機使其對每個瓶子的灌裝量均值為盎司,通過觀察這臺裝瓶機對每個瓶子的灌裝量服從標準差盎司的正態(tài)分布。隨機抽取由這臺機器灌裝的9個瓶子形成一個樣本,并測定每個瓶子的灌裝量。試

10、確定樣本均值偏離總體均值不超過0.3盎司的概率。 解:依題意,總體方差已知,均值的抽樣分布服從N(,2/n)的正態(tài)分布,由正態(tài)分布,標準化得到標準正態(tài)分布:z=-/n N(0,1),因此,樣本均值不超過總體均值的概率P為: P(| -|0.3)=P(|-|/n0.3/n)=P(-0.31/9-/n0.31/9) =P(-0.9z0.9) =2(0.9)-1 (查表) =2*0.8159-1 =0.6318綜上:(P(| -|0.3)=0.63183 某快餐店想要估計每位顧客午餐的平均花費金額。在為期3周的時間里選取49名顧客組成了一個簡單隨機樣本。(1)假定總體標準差為15元,求樣本均值的抽樣標準誤差。(2)在95的置信水平下,求邊際誤差。(3)如果樣本均值為120元,求總體均值 的95的置信區(qū)間。解:(1)依題意知:假定總體標準差為=15,則樣本均值的抽樣標準誤差: (x)=/n=15/49=2.14 (2)已知置信水平1-=95,得 Z/2=1.96則邊際誤差為 z/2n=1.96*2.14=4.199 (3)已知樣本均值x=120,置信水平1-=95, 得 Z/2=1.96這時總體均值置信區(qū)間為: X均±z/2n,即置信區(qū)間為(120-4.199,120+4.199)=(115.801,124.1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論