由隨機(jī)現(xiàn)象談到統(tǒng)計(jì)思維課件_第1頁
由隨機(jī)現(xiàn)象談到統(tǒng)計(jì)思維課件_第2頁
由隨機(jī)現(xiàn)象談到統(tǒng)計(jì)思維課件_第3頁
由隨機(jī)現(xiàn)象談到統(tǒng)計(jì)思維課件_第4頁
由隨機(jī)現(xiàn)象談到統(tǒng)計(jì)思維課件_第5頁
已閱讀5頁,還剩71頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、統(tǒng)計(jì)推論:使用大數(shù)法則與中央極限定理來描述誤差 陳 宏臺灣大學(xué)數(shù)學(xué)系10:40-12:10, 1/11/2012種子教師培訓(xùn)營 建國中學(xué)大綱: 一、量化不確定性推論統(tǒng)計(jì)(信心與機(jī)率之關(guān)聯(lián))二、機(jī)率的頻率觀 (機(jī)率的起源)三、使用機(jī)率來描述誤差的可能尺度大數(shù)法則中央極限定理人們可不使用統(tǒng)計(jì)嗎?四、課綱及課本中的暇疵之處主題:量化不確定性統(tǒng)計(jì)與科學(xué)的關(guān)係 科學(xué)是一套描述自然現(xiàn)象時(shí)該用的方法跟精神,我們該用可被檢測的方法對現(xiàn)象做出描述。一個(gè)良好的理論要能以少數(shù)假設(shè)為基礎(chǔ),再以這些假設(shè)來描述大量的觀測現(xiàn)象,並且能對其他的現(xiàn)象做出正確、可觀測的預(yù)測。所以,如果所觀測到的現(xiàn)象並不符合預(yù)測,那我們就得對該理

2、論進(jìn)行修改或是放棄該理論。統(tǒng)計(jì)是從數(shù)據(jù)中獲取資訊的學(xué)問。推論統(tǒng)計(jì)的哲學(xué)基礎(chǔ):否證邏輯一個(gè)假說必須演繹出可被預(yù)測的命題,並接受經(jīng)驗(yàn)證據(jù)的考證。如相對論是科學(xué),當(dāng)根據(jù)相對論來預(yù)測日蝕的發(fā)生與否,如和日蝕觀測的數(shù)據(jù)不合,就可確定相對論不是科學(xué)。如某人宣稱一銅板是公平的,我們使用機(jī)率工具來推算出其投擲多次出現(xiàn)正面次數(shù)的行為?,F(xiàn)實(shí)際投擲該銅板多次,當(dāng)實(shí)驗(yàn)結(jié)果與上述行為不吻合。此時(shí)可合理的懷疑某人的宣稱,認(rèn)為該銅板並非公平。不確定性推論逆或反向機(jī)率原則(The principle of inverse probability) 統(tǒng)計(jì)的困難來自於我們是有些數(shù)據(jù),但是沒有我們希望能擁有的全部數(shù)據(jù)來回答想要解決

3、的問題,或是我們並無足夠的信心在已擁有的數(shù)據(jù)。例一、某民調(diào)已問出某些選民的投票傾向,但並非每一位。例二、如已知某些病人對一特定藥品的反應(yīng),但並非每一位病人對此藥品的反應(yīng)。 推論統(tǒng)計(jì) 提供系統(tǒng)性的方法來決定在現(xiàn)有的一組數(shù)據(jù)中所觀察到的特徵與該組數(shù)據(jù)所來自的母群體未被或無法被觀察到的特徵的差距為何?以九十八學(xué)年度指考數(shù)學(xué)乙第6題為例某縣市教育局欲瞭解高中生參加課外活動(dòng)社團(tuán)的意願(yuàn), 開學(xué)日隨機(jī)調(diào)查高一、高二、高三學(xué)生各1067名,詢問本學(xué)期是否要參加課外活動(dòng)社團(tuán)。已知該縣市的高一、高二、高三學(xué)生人數(shù)幾乎一樣多,各年級學(xué)生調(diào)查結(jié)果如下圖:推論統(tǒng)計(jì) 母體是指調(diào)查者欲研究的全部對象(人、事、物)所成的集合

4、。母體參數(shù)(高一學(xué)生要參加課外活動(dòng)社團(tuán)的比例)樣本是指從母體中抽取一部份個(gè)體,此一部份個(gè)體資料稱為來自該母體之一樣本。簡言之,即母體的一各個(gè)部份集合。樣本統(tǒng)計(jì)量 (66%)現(xiàn)有課綱的推論統(tǒng)計(jì)部份:信賴區(qū)間 核心在於樣本統(tǒng)計(jì)量與母體參數(shù)間差距的描述。統(tǒng)計(jì)與真理 C.R. Rao Prof. CR Rao wins 2011 RSS Guy Medal in Gold /watch?v=f6b8GxjBRG4Guy, William A. (1810-1885 法醫(yī)學(xué))數(shù)學(xué)是一種從給定前提下演繹結(jié)果的邏輯。如擲一公正銅板100次,最容易觀察到50次正面。上述宣稱為何正確?令 X 代表擲一公正銅板1

5、00次,得到正面的次數(shù)。X 的可能取值為0, 1, , 100,得到 x 次正面的機(jī)率如下問題:那個(gè) x 使得 P(X = x) 最大?那個(gè) x 使得 P(X = x) 最大? 當(dāng)x = 50時(shí), P(X = x) 最大。統(tǒng)計(jì)與真理 C.R. Rao 統(tǒng)計(jì)是一種從經(jīng)驗(yàn)中學(xué)習(xí)的理性方法,及從給定的結(jié)果驗(yàn)證前提的邏輯。“如擲一銅板100次,觀察到100次正面,該銅板一定是不公正” ,此敘述是否正確?此敘述錯(cuò)誤。因?yàn)閿S一公正銅板100次,觀察到100次正面的機(jī)率並非0,而是(0.5)100,其值約為10-30.1,並非0。雖然很小,但無法確認(rèn)“該銅板一定是不公正”此一敘述。98年學(xué)測數(shù)學(xué)第九題在測試

6、同學(xué),是否能將語言文字轉(zhuǎn)化為數(shù)學(xué)語言來處理。問題:當(dāng)一袋中有兩枚銅板,其中一枚為公正,另一枚得正面的機(jī)率為1?,F(xiàn)某人由袋中隨機(jī)取出一枚銅板,若擲該枚銅板100次且得到100次正面。試問該枚銅板是否為公正銅板? 答案:無法確認(rèn)試問該枚銅板是為公正銅板的機(jī)率為何? 條件機(jī)率當(dāng)一袋中有兩枚銅板,其中一枚為公正,另一枚得正面的機(jī)率為1?,F(xiàn)某人由袋中隨機(jī)取出一枚銅板,若擲該枚銅板100次且得到100次正面。試問該枚銅板為公正銅板的機(jī)率為何? 令A(yù)代表取出公正銅板的事件,而B代表擲袋中取出銅板100次且得到100次正面的事件。P(A|B)為何?若P(A|B) 0 但小於10-30時(shí),可確認(rèn)袋中取出銅板絕非

7、公正銅板嗎?你的假設(shè)或已有資訊為何? 袋中有多枚銅板,如各枚銅板得正面的機(jī)率都不同,且其中有枚銅板為公正銅板。某人由袋中隨機(jī)取出一枚銅板,若擲該枚銅板100次且得到50次正面。試問該枚銅板是否最可能為公正銅板? 設(shè)袋中共有N枚銅板,第i枚銅板得正面的機(jī)率為pi,令A(yù)i代表取出第i枚銅板的事件,而B代表擲袋中取出銅板100次且得到50次正面的事件。P(Ai|B)為何?統(tǒng)計(jì)與真理? 袋中有多枚銅板,某人由袋中隨機(jī)取出一枚銅板,若擲該枚銅板100次且得到50次正面。試問該枚銅板是否最可能為公正銅板? 若袋中無銅板為公正銅板,顯然該枚銅板不可能是公正銅板。若袋中各枚銅板得正面的機(jī)率都不同,且其中有枚銅

8、板為公正銅板。由下式可知,該枚銅板最可能為公正銅板。如擲一銅板100次,觀察到50次正面時(shí),你是採取何種策略認(rèn)為該枚銅板最可能為公正銅板?統(tǒng)計(jì)上常用的策略之一,為最大可能法或最大概似法 (method of maximum likelihood)來推估該枚銅板得正面的機(jī)率?;虻贸?C(100,50) p50(1-p)50為最大的p值,來推估該枚銅板得到正面的機(jī)率。98年學(xué)測數(shù)學(xué)第九題(3) 此次調(diào)查結(jié)果可解讀為:甲地全體居民中有一半以上的 人聽過該產(chǎn)品的機(jī)率大於95%令 p 為受訪時(shí)甲地全體居民中聽過該產(chǎn)品的比例, p為一未知的定數(shù)。本題在問該未知定數(shù) p 大於0.5的機(jī)率,或P( p 0.5

9、0,0.58 )否大於0.95?因 p 為一未知的定數(shù)且0.50,0.58為一已知的區(qū)間,若使用機(jī)率的語言, P(p 0.50,0.58 )只會是1或0。那麼在95% 信心水準(zhǔn)之下,該產(chǎn)品在甲地的知名度之信賴區(qū)間為 0.50 , 0.58 中的95%的意義為何?由上述說明可知絕非P(p 0.50,0.58 )=0.95,故學(xué)者創(chuàng)造出信賴區(qū)間一詞。答錯(cuò)率 57% 全部考生、55% 高分組、59% 低分組統(tǒng)計(jì)與真理 CR Rao 我已認(rèn)識到數(shù)學(xué)及統(tǒng)計(jì),在人類為提昇自然知識及有效管理日常事務(wù),所做的一切努力中,佔(zhàn)有重要性。我相信在最終的分析中,所有知識皆為歷史。在抽象的意義下,所有科學(xué)皆為數(shù)學(xué)。在理

10、性的世界裡,所有判斷皆為統(tǒng)計(jì)。主題二、機(jī)率的頻率觀 (機(jī)率的起源)歷史發(fā)展 十七世紀(jì)開始使用數(shù)學(xué)方法來探討機(jī)率1654年在巴斯卡(Pascal)與費(fèi)馬(Fermat)的五封信函內(nèi),討論當(dāng)一約定賭局臨時(shí)終止時(shí),該如何合理的分配該筆賭金的問題。在探討此問題時(shí),產(chǎn)生古典機(jī)率(假設(shè)每局A和B兩人獲勝的機(jī)率都相等)及使用數(shù)學(xué)期望值來分配該筆賭金。frequentist (頻率觀) and informational (資訊) approaches頻率觀: 瑞士數(shù)學(xué)家伯努利所提出,藉由拋擲十元硬幣多次的辦法來決定該硬幣得正面的機(jī)率。大數(shù)法則 古典機(jī)率巴斯卡將這問題告知了另一位著名的法國數(shù)學(xué)家費(fèi)馬 。從他們

11、的通信當(dāng)中,一個(gè)新的數(shù)學(xué)領(lǐng)域誕生了。 古典機(jī)率1654年在巴斯卡(Pascal)與費(fèi)馬(Fermat)的五封信函內(nèi),討論當(dāng)一約定賭局臨時(shí)終止時(shí),該如何合理的分配該筆賭金的問題。這其中所探討的一個(gè)問題是總共有賭金100元,A、B兩人約定如果誰先贏得3局,就可以把賭金全部拿走。每贏一局可以得到一分,而首先拿到3分者就取得勝利,可以拿走所有的賭金。若現(xiàn)在A拿到兩分,而B拿到一分,當(dāng)每局A、B兩人獲勝的機(jī)率都相等時(shí),如在此時(shí)結(jié)束賭局,應(yīng)該如何分配賭金?在探討此問題時(shí),產(chǎn)生古典機(jī)率(假設(shè)每局A和B兩人獲勝的機(jī)率都相等)及使用數(shù)學(xué)期望值來分配該筆賭金。迪默勒問題的簡單版本 論證二:最多擲五次銅板,目前A已

12、得2點(diǎn),而B得1 點(diǎn)。一二三四五機(jī)率AABABABAAA事件一BA事件二BB事件三期望值的算法: 100+100=75 美國高中AP(大學(xué)先修)課程 臺師大及中興大學(xué)皆鼓勵(lì)修習(xí) AP 課程的外國學(xué)生申請。AP Exams are considered within the applicants complete academic transcript.國立南科國際實(shí)驗(yàn)高級中學(xué)雙語部共開設(shè)13門AP課程AP課程及考試為大學(xué)一年級生的水準(zhǔn)、深度,考試長達(dá)三小時(shí),含一個(gè)半小時(shí)的問答考題,AP成績?yōu)轫敿獯髮W(xué)錄取學(xué)生的重要指標(biāo)。參看高雄市中區(qū)辦理大學(xué)預(yù)修課程之研究.tw/ksvs%20paper/7/f

13、ile/13.pdf目前 AP 考試有22 個(gè)專業(yè)、37 個(gè)課程,包括微積分AB (215,086, 2008年)、微積分BC、統(tǒng)計(jì)學(xué)等。 美國高中的大學(xué)預(yù)修課程 (單維彰 科學(xué)月刊) .tw/shann/Lite/essay/9712.pdf AP統(tǒng)計(jì)考試涵蓋的主題 資料探索: 描述型態(tài)及與型態(tài)之差異使用圖表及數(shù)據(jù)分析來描述型態(tài)及型態(tài)之差異。著重於解釋圖表及數(shù)據(jù)分析所提供的訊息。抽樣及實(shí)驗(yàn)設(shè)計(jì): 規(guī)畫及執(zhí)行數(shù)據(jù)數(shù)據(jù)必需根據(jù)完整規(guī)劃的計(jì)畫進(jìn)行,方能進(jìn)行有效的推論。蒐集數(shù)據(jù)的計(jì)畫包含問題的釐清、釐清後再決定蒐集數(shù)據(jù)的辦法及其分析。 美國AP 統(tǒng)計(jì)考試涵蓋的主題 預(yù)期的型態(tài): 使用機(jī)率及模擬探索隨

14、機(jī)現(xiàn)象 機(jī)率是用來找出在模型給定之下,所觀察到的數(shù)據(jù)應(yīng)該是如何分布。隨機(jī)變數(shù)的機(jī)率分布。中央極限定理。統(tǒng)計(jì)推論: 估計(jì)母體參數(shù)及假設(shè)檢定統(tǒng)計(jì)推論提出系統(tǒng)性的方法來挑選適當(dāng)?shù)哪P汀?二項(xiàng)分配當(dāng)取得一銅板,且要決定擲該一銅板得到正面的機(jī)率p為何?假設(shè)我們擲一銅板100次,得到45次正面。試問擲該一銅板得到正面的機(jī)率p為何? 問題:如何去比較一個(gè)未知量 p 與一個(gè)已知數(shù)字0.45 間的差異?量化不確定性應(yīng)用:你懂信賴區(qū)間了嗎?統(tǒng)計(jì)(Statistics)的字根為State。字根和國家(state)是相同的,政府所用的資料(the use of data by the state.)母體與樣本間的關(guān)係

15、 關(guān)心的議題推論資料蒐集、整理、陳示、分析機(jī)率論抽樣理論不確定的議題敘述統(tǒng)計(jì)推論統(tǒng)計(jì)試問下列選項(xiàng)中的敘述,哪些是正確的?(1)學(xué)生要參加課外活動(dòng)社團(tuán)之比例隨著年級增加而遞減(2)由上述資訊可以估算全體學(xué)生要參加課外活動(dòng)社團(tuán)的比例在95%信心水準(zhǔn)下,每一個(gè)年級學(xué)生要參加課外活動(dòng)社團(tuán)的比例之信賴區(qū)間,都可以由題目中已知的數(shù)據(jù)算出(4)在95%信心水準(zhǔn)下,三個(gè)年級的調(diào)查結(jié)果,以高一學(xué)生要參加課外活動(dòng)社團(tuán)的比例的信賴區(qū)間最長(5) 在95%信心水準(zhǔn)下,三個(gè)年級的調(diào)查結(jié)果,以高三學(xué)生要參加課外活動(dòng)社團(tuán)的比例的信賴區(qū)間最短選項(xiàng)(3)-(5)測試與信賴區(qū)間的公式相關(guān)的數(shù)學(xué)問題。選項(xiàng)(1)-(2)測試與信賴區(qū)

16、間相關(guān)統(tǒng)計(jì)推論的概念。答對率 45% 全部考生、66% 高分組、27% 低分組選項(xiàng)(4) 、(5)互斥,高分組答對率約70%,低分組答對率約50%就選項(xiàng)(1)而言學(xué)生要參加課外活動(dòng)社團(tuán)之比例隨著年級增加而遞減臺北市、新北市、桃園縣、高雄市、高雄縣的高中職學(xué)生人數(shù)約為12萬、10萬、7萬、6萬、3.2萬,若各縣市要蒐集相關(guān)資料就曠日費(fèi)時(shí)。若採簡單隨機(jī)抽樣,各調(diào)查高一、高二、高三學(xué)生各1067名,其實(shí)也不容易。由一組數(shù)據(jù)觀察到的特徵與該組數(shù)據(jù)所來自的母群體未被或無法被觀察到的特徵的差距為何?在此所問的特徵是學(xué)生要參加課外活動(dòng)社團(tuán)之比例隨著年級增加而遞減。一組數(shù)據(jù)觀察到的特徵為66%-52%(0)及

17、52%-22%(0)。若高一、高二、高三學(xué)生要參加課外活動(dòng)社團(tuán)之比例為p1, p2,及p3。未被觀察到的母群體特徵會是p1-p2 (0)且p2-p3 (0)?數(shù)學(xué)上如何來處理誤差及近似?學(xué)生要參加課外活動(dòng)社團(tuán)之比例隨著年級增加而遞減如何來量測 與 p1 - p2 間的差距? 數(shù)學(xué)上如何來處理近似?國中生: (1.01)1/2約為1,更好的答案約為1+0.01/2或1+0.01/2-0.012/8。因?yàn)楦咧猩?大學(xué)生: 均值定理,Taylors Theorem如何回答(1)?學(xué)生要參加課外活動(dòng)社團(tuán)之比例隨著年級增加而遞減如何來量測 與 p1 - p2 間的差距? 論證:以高雄縣而言,假設(shè)高一、高

18、二、高三學(xué)生各10000名,且高一學(xué)生中只有704名學(xué)生要參加課外活動(dòng)社團(tuán),但高二學(xué)生中有5200名學(xué)生要參加課外活動(dòng)社團(tuán)。但採簡單隨機(jī)抽樣,調(diào)查高一、高二學(xué)生各1067名時(shí),是有可能高一這704名要參加課外活動(dòng)社團(tuán)學(xué)生都被抽中,而高二學(xué)生中這5200名學(xué)生要參加課外活動(dòng)社團(tuán)被抽中555位,這4800名不要參加課外活動(dòng)社團(tuán)的學(xué)生被抽中512位。此時(shí) p1 p2=0.0704-0.52,與 差距甚大。在論證的情況下,會發(fā)生此狀況的機(jī)率約為exp(-1862) ,雖然很小但不是0。因?qū)δ溉后w的不理解,採簡單隨機(jī)抽樣是有可能發(fā)生上述狀況,無法排除此一可能。使用機(jī)率來處理簡單隨機(jī)抽樣的誤差因 p1 -

19、 p2 為一未知數(shù),而 ,我們無法用傳統(tǒng)的計(jì)算兩者之間差距的方法。而採取評估簡單隨機(jī)抽樣方法是否能達(dá)到在大多數(shù)的情況下, 皆與未知的 p1 - p2 差距不大??紤]事件 ,當(dāng) P(Ac) 很小時(shí),我們認(rèn)定此次簡單隨機(jī)抽樣所得的樣本,比較可能是事件Ac 未發(fā)生,所以未知的p1 - p2與0.12應(yīng)該是差距不大於c。關(guān)鍵是P(Ac) 要會算且甚小。二項(xiàng)分配假設(shè)我們擲一銅板100次,得到45次正面。試問擲該一銅板得到正面的機(jī)率為何? 問題: 如何去處理關(guān)係不確定的現(xiàn)象?巴斯卡三角形擲一公平銅板16次,得到 x 次正面的機(jī)率為弱大數(shù)法則與機(jī)率的極限相對頻率觀 當(dāng)接受古典機(jī)率時(shí),一枚公平銅板出現(xiàn)正面事件

20、的機(jī)率是0.5。伯努利的問題是是否可藉由重覆丟擲該枚銅板多次,使用出現(xiàn)正面事件發(fā)生之比例來估計(jì)0.5或如何量化未知量p與已知量之差距。因丟擲該枚銅板10次,不同的簡單事件共有1024個(gè),出現(xiàn)正面的次數(shù)可為0、1、10,有2/1024(約0.2%)的機(jī)率會得到0次或10次,此時(shí)出現(xiàn)正面事件發(fā)生之比例為0或1,這顯然與0.5是有相當(dāng)?shù)牟町悾挥?2/1024 (約.2%)的機(jī)率會得到0、1、9或10次,此時(shí)出現(xiàn)正面事件發(fā)生之比例為0、0.1、0.9或1,這顯然與0.5仍有相當(dāng)?shù)牟町悺S?12/1024 (約10%)的機(jī)率會得到0、1、2、8、9或10次,或有約90%的機(jī)率出現(xiàn)正面事件發(fā)生之比例介於0

21、.3與0.7之間。 當(dāng)丟擲該枚銅板20次時(shí),則出現(xiàn)正面事件發(fā)生之比例為0或1的機(jī)率為2/10242(約0.0002%),較丟擲該枚銅板10次時(shí)為低;有420/10242 (約0.37%)的機(jī)率會得到出現(xiàn)正面事件發(fā)生之比例為不超過0.1或不小於0.9;有約95.86%的機(jī)率出現(xiàn)正面事件發(fā)生之比例為介於0.3與0.7之間;或有約88.47%的機(jī)率出現(xiàn)正面事件發(fā)生之比例為介於0.35與0.65之間?,F(xiàn)在說明當(dāng)丟擲該枚銅板多次,出現(xiàn)正面事件發(fā)生之比例與0.5的距離超過定數(shù)c的機(jī)率會隨著試驗(yàn)次數(shù)增加,越來越小。令Sn表丟擲該枚銅板n次時(shí)出現(xiàn)正面之次數(shù),則Sn的可能取值為0, 1, , n,且 現(xiàn)藉助巴斯

22、卡三角形第n列的(n+1)個(gè)數(shù)字,來看出上述出現(xiàn)正面事件發(fā)生之比例與0.5超過一定數(shù)的機(jī)率會隨著n變大呈現(xiàn)下降的趨勢。因巴斯卡三角形的第n列的n+1個(gè)數(shù)字為C(n,0)、C(n,1)、C(n,n),當(dāng)以k為組中點(diǎn),組次數(shù)為C(n,k)所繪製之直方圖時(shí),可知該直方圖對稱於通過(1+n)/2之垂直線,且其圖形呈現(xiàn)上升再下降之走勢。 由於C(n,k+1)/C(n,k)=(n-k)/(k+1) ,可知當(dāng)k3;當(dāng)(n-2)/3k(n-3)/4時(shí),3 C(n,k+1)/C(n,k)2。由等比級數(shù)之特性,可知直方圖會集中於過(1+n)/2之垂直線附近,直方圖會集中於過(1+n)/22n此二垂直線之間,或說對

23、於非0的正數(shù)c 當(dāng)使用電腦模擬,並繪製Sn/n的直方圖。當(dāng)n大時(shí),預(yù)期會面臨何等的困境?直方圖會集中於0.5附近,但直方圖下方的面積會是1。 使用電腦模擬,並繪製Sn/n的直方圖,當(dāng)n大時(shí),會面臨製圖的困難。當(dāng)樣本數(shù)增加時(shí),跳動(dòng)範(fàn)圍漸小。微積分上的對應(yīng)處理如下這就回答是否可藉由重覆實(shí)驗(yàn)(設(shè)想丟擲銅板)多次所得該事件發(fā)生之比例來估計(jì)p,也就是一般所稱的(弱)大數(shù)法則。(弱)大數(shù)法則:假設(shè)一事件發(fā)生之機(jī)率為 p,假設(shè)能一再地重覆該實(shí)驗(yàn)n次,觀察同樣的現(xiàn)象,每次的佈置都相同(機(jī)會相同),而且一次次之間互相獨(dú)立,其中有k次發(fā)生了這件事件;我們計(jì)算發(fā)生的相對頻率k/n,那麼,在n趨近無限大時(shí),這相對頻率

24、k/n就趨近於p,|k/n-p|不很小的機(jī)會很??!該如何來放大Xn/n- 0.5間的距離,當(dāng)n大時(shí),使得下述的機(jī)率值b界於0與1之間? 中央極限定理告訴我們 an = n1/2.古典機(jī)率及相對頻率觀之機(jī)率古典機(jī)率是指在同等確實(shí)之概念下(試驗(yàn))所有可能簡單事件的出現(xiàn)機(jī)率皆均等下,當(dāng)所有可能簡單事件出現(xiàn)之總數(shù)為n時(shí),當(dāng)某事件可表為r個(gè)簡單事件時(shí),該事件發(fā)生之機(jī)率定義為r/n(此分?jǐn)?shù)稱為頻度)。所以擲一個(gè)公正銅板,出現(xiàn)正面的機(jī)率是1/2,此話的意思是指擲該銅板只可出現(xiàn)正面或反面這兩種簡單事件,且因材質(zhì)均勻,故此二簡單事件的出現(xiàn)機(jī)率均等,所以得正面的機(jī)率是1/2。如果一遊戲(或者其他實(shí)驗(yàn) ) 有 k

25、種發(fā)生機(jī)會相等的結(jié)果,且它被重複進(jìn)行了很多次,則每種結(jié)果實(shí)際上發(fā)生的真實(shí)次數(shù)將會越近於1/k。(試想丟一個(gè)公正的骰子 )引進(jìn)機(jī)率的極限相對頻率(limiting relative frequency)解釋,也就是上述伯努利所欲探討的問題或伯努利大數(shù)法則。 可否藉由重覆實(shí)驗(yàn)(設(shè)想擲銅板)多次所得該事件發(fā)生之比例來估計(jì) p?記擲n次得到正面的次數(shù)為N,當(dāng)n很大時(shí),N/n-0.5為何?標(biāo)準(zhǔn)化:課本中常態(tài)曲線的描述誤導(dǎo),詞句不夠精準(zhǔn)擲n次得到正面的次數(shù)為N當(dāng)n=16時(shí),N/n-0.5的可能取值為-0.5, -0.4375, -0.375,0, 0.0625,0.5。N/n-0.5=0的機(jī)率約為0.19

26、64。當(dāng)n= 32時(shí),事件N/n-0.5=0發(fā)生的機(jī)率約為0.1399。事件|N/n-0.5|1/(2n)=|N-16|2.83發(fā)生的機(jī)率約為0.6229。事件|N-16|3發(fā)生的機(jī)率約為0.7847。當(dāng)n= 64時(shí),事件 N/n-0.5=0發(fā)生的機(jī)率約為0.0993。事件|N/n-0.5|1/(2n)發(fā)生的機(jī)率約為0.7396。事件|N/n-0.5|1/(2n)發(fā)生的機(jī)率約為0.6183。當(dāng)n= 128時(shí),事件N/n-0.5= 0發(fā)生的機(jī)率約為0.0704。事件|N/n-0.5|1/(2n)=|N-64|5.66發(fā)生的機(jī)率約為0.6691。事件|N-64|6發(fā)生的機(jī)率約為0.7496。當(dāng)n=

27、1024時(shí),事件N/n-0.5= 0發(fā)生的機(jī)率約為 0.0249。當(dāng)n=2048時(shí),事件N/n-0.5= 0發(fā)生的機(jī)率約為 0.0176。當(dāng)2m=500時(shí),得到250次正面的機(jī)率約為0.0357;而正面次數(shù)介於248次及252次的機(jī)率約為0.1067。當(dāng)2m=1000時(shí),得到500次正面的機(jī)率約為0.0252。由Stirlings formula可知故所以因量化不確定性 問題:如何去比較一個(gè)未知量與一個(gè)已知數(shù)字間的差異?簡單隨機(jī)抽樣於一含有N個(gè)成員的母群體中,對任一個(gè)含有n個(gè)成員的樣本,都有同樣的機(jī)率被選取。共有 C(N,n) 個(gè)含有 n 個(gè)成員的抽取樣本??紤]取得數(shù)據(jù)可分成贊同、不贊同這兩類

28、當(dāng)n/N很小時(shí),使用擲銅板的機(jī)率模型所算出的機(jī)率與使用簡單隨機(jī)抽樣的機(jī)率模型所算出的機(jī)率差距不大。量化不確定性(續(xù)) 丟擲出現(xiàn)正面機(jī)率為p的銅板n次,令X表示出現(xiàn)正面的次數(shù)E(X) = np、 Var(X) = np(1-p)Chebyschev inequality (謝比雪夫不等式) P(|X/n p| c) p(1-p)/n/c2數(shù)學(xué)傳播第九卷第三期 .tw/math_media/d93/9304.pdf46% 及871位民眾0.46 = x/871將|X/n p| c分為A類;而 |X/n p| c分為B類0.46 p是A類或B類,事件|X/n p| c較易發(fā)生?量化不確定性(續(xù)) 丟

29、擲出現(xiàn)正面機(jī)率為0.5的銅板870(=n)次時(shí),利用中央極限定理可知P(|X/n 0.5| 1/30)5% ;而 P(|X/n 0.5| 1/30) 95% P(|X/n 0.5|= 0) = 2.704%P(|X/n 0.5| 0.00575) = 29% 恰好得到50%正面的機(jī)率並非太大樂透彩數(shù)字的出現(xiàn)如果是隨機(jī),每個(gè)數(shù)字出現(xiàn)的次數(shù)並不會是均勻的。選項(xiàng)(1)是否超綱?學(xué)生要參加課外活動(dòng)社團(tuán)之比例隨著年級增加而遞減統(tǒng)計(jì)處理抽樣誤差? 如考慮以下兩個(gè)事件,當(dāng) P(Bc1) 0.975且P(Bc2) 0.975時(shí),P(Ac)0.05 。隨機(jī)抽樣誤差母體參數(shù) = 樣本統(tǒng)計(jì)量 + 抽樣誤差抽樣誤差為

30、一隨機(jī)變數(shù)使用機(jī)率語言來描述抽樣誤差當(dāng)樣本個(gè)數(shù)增大時(shí),抽樣誤差會變小在95%信心水準(zhǔn)下,三個(gè)年級的調(diào)查結(jié)果,以高一學(xué)生要參加課外活動(dòng)社團(tuán)的比例的信賴區(qū)間最長在95%信心水準(zhǔn)下,三個(gè)年級的調(diào)查結(jié)果,以高三學(xué)生要參加課外活動(dòng)社團(tuán)的比例的信賴區(qū)間最短 98年學(xué)測數(shù)學(xué)第九題選項(xiàng)(3)(5)某廠商委託民調(diào)機(jī)構(gòu)在甲、乙兩地調(diào)查聽過某項(xiàng)產(chǎn)品的居民佔(zhàn)當(dāng)?shù)鼐用裰俜直?以下簡稱為知名度)。結(jié)果如下:在95% 信心水準(zhǔn)之下,該產(chǎn)品在甲、乙兩地的知名度之信賴區(qū)間分別為 0.50 , 0.58 、 0.08 , 0.16 。試問下列哪些選項(xiàng)是正確的?(3) 此次調(diào)查結(jié)果可解讀為:甲地全體居民中有一半以上的人聽過該產(chǎn)品

31、的機(jī)率大於95%(4) 若在乙地以同樣方式進(jìn)行多次民調(diào),所得知名度有95% 的機(jī)會落在區(qū)間 0.08 , 0.16 (5) 經(jīng)密集廣告宣傳後,在乙地再次進(jìn)行民調(diào),並增加參訪人數(shù)達(dá)原人數(shù)的四倍,則在95%信心水準(zhǔn)之下該產(chǎn)品的知名度之信賴區(qū)間寬度會減半(即0.04)95%信心水準(zhǔn)下之信賴區(qū)間:98年學(xué)測數(shù)學(xué)第九題(3) 此次調(diào)查結(jié)果可解讀為:甲地全體居民中有一半以上的 人聽過該產(chǎn)品的機(jī)率大於95%令p為受訪時(shí)甲地全體居民中聽過該產(chǎn)品的比例, p為一未知的定數(shù)。本題在問該未知定數(shù)p大於0.5的機(jī)率,或P(p 0.50,0.58 )否大於0.95?因p為一未知的定數(shù)且0.50,0.58為一已知的區(qū)間,

32、若使用機(jī)率的語言, P(p 0.50,0.58 )只會是1或0。那麼在95% 信心水準(zhǔn)之下,該產(chǎn)品在甲地的知名度之信賴區(qū)間為 0.50 , 0.58 中的95%的意義為何?由上述說明可知絕非P(p 0.50,0.58 )=0.95,故學(xué)者創(chuàng)造出信賴區(qū)間一詞。答錯(cuò)率 57% 全部考生、55% 高分組、59% 低分組98年學(xué)測數(shù)學(xué)第九題選項(xiàng)(3)之說明設(shè)想甲地的人口總數(shù)有10,000人,當(dāng)使用簡單隨機(jī)抽樣由其中選出130位參訪人時(shí)(機(jī)率在此被引進(jìn)),會有C(10,000,130)種簡單隨機(jī)抽樣,而每種的機(jī)率都是1/C(10,000,130)。當(dāng)對每種選出的130位參訪人,得出聽過該產(chǎn)品的比例,該比

33、例的取值只可能是0/130、130/130,再根據(jù)該比例得出其信賴區(qū)間,最多會有131類。而每類信賴區(qū)間的發(fā)生機(jī)率可算出,而在這C(10000,130)種簡單隨機(jī)抽樣所得出的信賴區(qū)間,其中約有95%的區(qū)間會包括未知的p。而0.50 , 0.58是這C(10,000,130)個(gè)信賴區(qū)間其中的一個(gè),但並不知其是否為會包括未知p的區(qū)間,不過可能性蠻高的。 98年學(xué)測數(shù)學(xué)第九題選項(xiàng)(3)之說明設(shè)想甲地的人口總數(shù)有10,000人,當(dāng)使用簡單隨機(jī)抽樣由其中選出130位參訪人時(shí)(機(jī)率在此被引進(jìn)),會有C(10,000,130)種簡單隨機(jī)抽樣,而每種的機(jī)率都是1/C(10,000,130)。當(dāng)對每種選出的13

34、0位參訪人,得出聽過該產(chǎn)品的比例,該比例的取值只可能是0/130、130/130,再根據(jù)該比例得出其信賴區(qū)間,最多會有131類。而每類信賴區(qū)間的發(fā)生機(jī)率可算出,而在這C(10000,130)種簡單隨機(jī)抽樣所得出的信賴區(qū)間,其中約有95%的區(qū)間會包括未知的p。而0.50 , 0.58是這C(10,000,130)個(gè)信賴區(qū)間其中的一個(gè),但並不知其是否為會包括未知p的區(qū)間,不過可能性蠻高的。 區(qū)間比較圖 n =20 n = 500 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

35、 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 信賴區(qū)間圖右圖中,全班 40 個(gè)學(xué)生每個(gè)人都得到一個(gè)區(qū)間,如果老師事先知道 p = 0.6,那麼從圖中可知,有 35 個(gè)區(qū)間包含真實(shí)的 p 值。全班 40 個(gè)學(xué)生包含 p

36、 值區(qū)間個(gè)數(shù)的期望值為40 0.95 = 38 個(gè)0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 98年學(xué)測數(shù)學(xué)第九題選項(xiàng)(4)之說明(4) 若在乙地以同樣方式進(jìn)行多次民調(diào),所得知名度有95% 的機(jī)會落在區(qū)間0.08 , 0.16 當(dāng)p= 0.12時(shí),所得知名度有95% 的機(jī)會落在區(qū)間0.08 , 0.16 。若p遠(yuǎn)離 0.12時(shí),所得知名度就

37、不再有95% 的機(jī)會落在區(qū)間0.08 , 0.16 。但我們無法由區(qū)間0.08 , 0.16 來判定” p= 0.12”或” p遠(yuǎn)離 0.12。” p為一未知的定數(shù)。答錯(cuò)率 75% 全部考生、85% 高分組、63% 低分組98年學(xué)測數(shù)學(xué)第九題選項(xiàng)(5)之說明(5) 經(jīng)密集廣告宣傳後,在乙地再次進(jìn)行民調(diào),並增加參訪人數(shù)達(dá)原人數(shù)的四倍,則在95%信心水準(zhǔn)之下該產(chǎn)品的知名度之信賴區(qū)間寬度會減半(即0.04)令p0為受訪時(shí)甲地全體居民中聽過該產(chǎn)品的比例, 而p1為經(jīng)密集廣告宣傳後甲地全體居民中聽過該產(chǎn)品的比例。本題至少有兩種做答方式:答錯(cuò)率 41%全部、48%高分組、38%低分組一、 p0 = p19

38、8年學(xué)測數(shù)學(xué)第九題(5) 經(jīng)密集廣告宣傳後,在乙地再次進(jìn)行民調(diào),並增加參訪人數(shù)達(dá)原人數(shù)的四倍,則在95%信心水準(zhǔn)之下該產(chǎn)品的知名度之信賴區(qū)間寬度會減半(即0.04)本題至少有兩種做答方式: 二、 p0 p1主題三: 為何人們使用統(tǒng)計(jì)? 人們使用統(tǒng)計(jì)的目的 “It is far better to foresee even without certainty than not to foresee at all. ”沒有絕對把握的預(yù)測,也遠(yuǎn)勝過於不做預(yù)測。 Henri Poincare 龐加萊 (1854-1912) 經(jīng)濟(jì)學(xué)家就是這樣的專家:他會在明天知道為什麼他昨天對所做的預(yù)測為何今天沒發(fā)生

39、Evan Esar (1899-1995)Evan Esar is known for quotes like “統(tǒng)計(jì)學(xué): 唯一的科學(xué)使得專家們可依據(jù)相同的圖表而得出截然不同的結(jié)論。Because you have to!Because you have to! 量化不確定性 問題:如何去比較一個(gè)未知量與一個(gè)已知數(shù)字間的差異?實(shí)例一:於十年前第一場臺北市長競選辯論後,根據(jù)TVBS報(bào)導(dǎo)之民意調(diào)查結(jié)果,在所抽樣本中,王建煊之支持率為7%。試問王建煊於臺北市選民中之真實(shí)支持率為何?在上例中,已知數(shù)字為7%,而所關(guān)心的未知量為王建煊於臺北市選民中的支持率p%。試問1. 7%這個(gè)數(shù)字是如何得到的?2.

40、7%與實(shí)務(wù)上無法量測的支持率p% 之間差異的大???3. 如何量度不確定性? 7%- p% 4. 預(yù)測是人類活動(dòng)中的常態(tài)如進(jìn)大學(xué)、工作、婚姻、投資、保險(xiǎn)等。 Because you have to! 間歇泉(Geyser) 預(yù)測噴泉之時(shí)間根據(jù)前次噴泉之持續(xù)時(shí)間 在誤差不超過正負(fù)十分鐘,使用的預(yù)測公式的準(zhǔn)確率達(dá)到90%。研究目的:便利遊客安排旅遊瞭解間歇泉形成的原因進(jìn)一步資訊可參看 /gs265/geysers.html /yell/oldfaithfulcam.htm兩者間的函數(shù)關(guān)係為何?間歇泉(Geyser) 數(shù)據(jù):於1985年8月1日至1985年8月15日間,收集美國黃石公園老忠實(shí)間歇泉噴泉

41、記錄。共有299筆,每筆含等待時(shí)間及持續(xù)時(shí)間。 研究步驟:由這一次的持續(xù)時(shí)間預(yù)測下一次的等待時(shí)間繪製散布圖可能的物理模型噴泉口之下方有一細(xì)長tube,內(nèi)充滿了水而受環(huán)繞巖石加熱。由於tube內(nèi)滿了大量的水,故tube下方的水因壓力的緣故,其沸點(diǎn)較高,且愈深處沸點(diǎn)愈高。3. 當(dāng)tube上方的水,因環(huán)繞巖石加熱達(dá)到沸點(diǎn)變?yōu)檎魵?;而較下方的水因壓力降低,故其沸點(diǎn)隨之降低,而加速將下方的水變?yōu)檎魵?,故開始噴泉。4. 有關(guān)此物理模型之進(jìn)一步討論,參看Rinehart (1969; J. Geophy. Res., 566-573)依據(jù)上述理論,可期待此次噴泉持續(xù)時(shí)間較長久者,等待噴泉口再次噴泉之時(shí)間可能

42、較長 間歇泉形成的三個(gè)要素:水源、熱源、水庫及管路系統(tǒng)統(tǒng)計(jì)專業(yè)人員需要什麼樣的能力?分辨事物的邏輯批判性思考(分辨事物的邏輯)數(shù)學(xué)訓(xùn)練計(jì)算機(jī)及撰寫程式的能力溝通及語言能力報(bào)告撰寫簡報(bào)在高壓力下進(jìn)行工作 儘快得到結(jié)果網(wǎng)戰(zhàn)鎖定技 點(diǎn)擊率提升五倍2011-11-27 中國時(shí)報(bào) 【管婺媛臺北報(bào)導(dǎo)】網(wǎng)路已成近年選舉主流戰(zhàn)場,但價(jià)格不斐且績效難以評估。隨著新技術(shù)的推出,網(wǎng)路戰(zhàn)可打得更精細(xì),幫政治人物在茫茫網(wǎng)海中,精準(zhǔn)的接觸到自己的選民。多數(shù)民眾都誤以為,自己在網(wǎng)路上是隱形的。臉書、Google等民眾登入後使用的網(wǎng)站,很久就開始販賣針對特定對象的廣告,以年齡、性別、社團(tuán)、喜好等區(qū)分,讓廣告主廣告只出現(xiàn)在篩選

43、後的特殊族群網(wǎng)頁。全臺約七成網(wǎng)友使用YAHOO奇摩入口網(wǎng)站,即便使用者不見得會登入,但網(wǎng)路工程師還是可以透過位置、搜尋習(xí)慣等,挑出可能的標(biāo)的族群,讓網(wǎng)民在渾然無覺的情況下,加深對候選人的印象。業(yè)者透露,一般的網(wǎng)路廣告點(diǎn)擊率大約是萬分之一,出現(xiàn)一萬次才有一個(gè)人會去點(diǎn),但透過新技術(shù)鎖定目標(biāo)後,點(diǎn)擊率可以提升五倍。條件機(jī)率與目標(biāo)行銷(Target marketing)選擇區(qū)隔市場(market segment)作為目標(biāo)市場:進(jìn)行市場區(qū)隔。選擇一個(gè)或數(shù)個(gè)區(qū)隔市場做為目標(biāo)市場,從事產(chǎn)品定位。研擬合適的行銷組合策略,以滿足區(qū)隔內(nèi)的顧客需求。優(yōu)點(diǎn): 集中行銷,幫助銷售者掌握行銷機(jī)會與策略,使預(yù)算集中於選定的

44、目標(biāo)市場,發(fā)揮最大的市場推銷效果。發(fā)掘有利的市場機(jī)會。根據(jù)各個(gè)市場的特點(diǎn),可隨時(shí)調(diào)整產(chǎn)品訴求與行銷訴求,且可建立多種訴求,以適合各種區(qū)隔化市場的需要。隨著全球性經(jīng)濟(jì)的興起使得產(chǎn)業(yè)競爭更加劇烈,因此企業(yè)必須採用目標(biāo)行銷以協(xié)助企業(yè)正確快速地鎖定行銷推廣的顧客族群 For instance, I open a catering business offering catering services in the clients home. (What is my target market?)Replace advertising with a newspaper insert that goes out to everyone by a direct mail campaign that went only

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論