淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用

上傳人：s*** IP屬地：安徽上傳時(shí)間：2022-02-15 格式：DOC 頁(yè)數(shù)：18 大小：300KB 積分：20 舉報(bào) 版權(quán)申訴

淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用_第2頁(yè)

淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用_第3頁(yè)

淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用_第4頁(yè)

淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用_第5頁(yè)

已閱讀5頁(yè)，還剩13頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、摘要數(shù)學(xué)作為一門(mén)應(yīng)用性很強(qiáng)的學(xué)科，如何將理論與現(xiàn)實(shí)問(wèn)題有效結(jié)合起來(lái)是一大難題。而語(yǔ)言學(xué)作為一門(mén)重要的社會(huì)科學(xué)，與自然科學(xué)的精確性存在很大區(qū)別。研究現(xiàn)實(shí)表明數(shù)學(xué)將可以在語(yǔ)言學(xué)等社會(huì)學(xué)科上得到極大應(yīng)用。本文首先介紹數(shù)學(xué)、語(yǔ)言學(xué)和數(shù)理語(yǔ)言學(xué)之間的關(guān)系與其內(nèi)在聯(lián)系，然后再?gòu)母怕收摵徒y(tǒng)計(jì)學(xué)兩個(gè)角度分別簡(jiǎn)述其在語(yǔ)言學(xué)上應(yīng)用。概率論方面主要介紹語(yǔ)言文字的熵，討論其信息量，并以漢字為例兼論常見(jiàn)語(yǔ)言的字母熵，從而窺探每個(gè)文字背后蘊(yùn)含的信息量度。統(tǒng)計(jì)學(xué)方面主要通過(guò)統(tǒng)計(jì)方法介紹語(yǔ)言單位的出現(xiàn)頻率，計(jì)算作家的語(yǔ)言風(fēng)格，以與計(jì)算語(yǔ)言存在的絕對(duì)年代和親屬語(yǔ)言分化的年代，并簡(jiǎn)要介紹齊普夫定律。關(guān)鍵詞：數(shù)理語(yǔ)言學(xué)；概率論；統(tǒng)

2、計(jì)學(xué)；熵；齊普夫定律；馬爾可夫鏈；語(yǔ)言年代學(xué)ABSTRACTApplied Mathematics, as an application of a strong discipline, has a major problem that how to combine the theory and practical problems effectively. Linguistics as an important social sciences, , has a big difference with natural sciences accuracy. The reality shows th

3、at mathematics has been greatly used in linguistics and social sciences. This paper first introduces the relationship between their internal relations of mathematics, linguistics, and mathematical linguistics, and then from two angles of the probability theory and statistics, respectively, outlined

4、its application in linguistics. Probability theory describes the entropy of the language to discuss their information content, and on the entropy of the letters of the common language of Chinese characters, for example, in order to spy on the measure of the information contained in each text behind.

5、 In statistics we discuss on the frequency of occurrence of the linguistic unit by statistical methods, the computing language of the writer's style, as well as computing language of absolute age and age of relatives of language differentiation, and then a brief introduction to Zipf's Law.Ke

6、y words: Mathematical Linguistics; Probability Theory; Statistics; Entropy;Zipf's Law;Markov Chain; Glottochronology目錄摘要目錄1數(shù)學(xué)、語(yǔ)言學(xué)和數(shù)理語(yǔ)言學(xué)11.1數(shù)學(xué)在語(yǔ)言學(xué)上的滲透與其意義11.2數(shù)理語(yǔ)言學(xué)與其分支21.2.1統(tǒng)計(jì)語(yǔ)言學(xué)21.2.2 代數(shù)語(yǔ)言學(xué)32概率與其在語(yǔ)言學(xué)中應(yīng)用32.1熵、語(yǔ)言的熵32.2漢字的熵52.3漢字的極限熵63統(tǒng)計(jì)與其在語(yǔ)言學(xué)中應(yīng)用83.1齊普夫定律83.2語(yǔ)言單位頻率統(tǒng)計(jì)83.3計(jì)算風(fēng)格學(xué)93.4 語(yǔ)言年代學(xué)10結(jié)論11致謝12參考文

7、獻(xiàn)1316 / 18淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用1數(shù)學(xué)、語(yǔ)言學(xué)和數(shù)理語(yǔ)言學(xué)數(shù)學(xué)和語(yǔ)言學(xué)可以說(shuō)是最古老的兩門(mén)學(xué)科，在人類文明長(zhǎng)河中很難找到歷史更悠久的學(xué)科。數(shù)學(xué)是研究形式、結(jié)構(gòu)和數(shù)量之間關(guān)系的一門(mén)學(xué)科，它具有統(tǒng)一的符號(hào)系統(tǒng)，各國(guó)讀者均可以方便地進(jìn)行交流，讀法雖然有所差異，但是其意義都是一樣的。而語(yǔ)言是人類社會(huì)最重要的交際工具，是人類區(qū)別于其它動(dòng)物的主要特征。不同的國(guó)家、不同的民族有著不同的語(yǔ)言符號(hào)系統(tǒng)。數(shù)千年來(lái)，數(shù)學(xué)和語(yǔ)言學(xué)之間似乎是風(fēng)馬牛不相與，很少有人想到把二者聯(lián)系起來(lái)研究，找到他們的內(nèi)在關(guān)系。在人類的文明史上，學(xué)者們經(jīng)過(guò)相當(dāng)漫長(zhǎng)時(shí)間的探索，才終于認(rèn)識(shí)到這一密切聯(lián)系。1.1數(shù)學(xué)在語(yǔ)言學(xué)上的滲透

8、與其意義進(jìn)入20世紀(jì)，數(shù)學(xué)方法和理論不僅在物理、地理、天文等領(lǐng)域獲得了驚人的進(jìn)展，而且逐漸滲透到人文科學(xué)領(lǐng)域。先是在生物學(xué)，而后是在經(jīng)濟(jì)學(xué)和社會(huì)學(xué)方面，數(shù)學(xué)方法取得了一系列成功。很自然地，數(shù)學(xué)家們將目光投向了數(shù)學(xué)的未開(kāi)墾地語(yǔ)言學(xué)。學(xué)者們的遠(yuǎn)見(jiàn)卓識(shí)，使語(yǔ)言學(xué)的發(fā)展展現(xiàn)了新機(jī)。1847 年，俄國(guó)數(shù)學(xué)家布里亞柯夫斯基認(rèn)為可以用概率論方法來(lái)進(jìn)行語(yǔ)法、詞源與語(yǔ)言歷史比較的研究。1894 年，瑞士著名語(yǔ)言學(xué)家索緒爾指出，“在基本性質(zhì)方面，語(yǔ)言中的量和量之間的關(guān)系可以用數(shù)學(xué)公式有規(guī)律地表達(dá)出來(lái)”。1904年，波蘭語(yǔ)言學(xué)家博杜恩·德·古爾特內(nèi)認(rèn)為，語(yǔ)言研究者不僅應(yīng)該掌握初等數(shù)學(xué)，更應(yīng)該高等

9、數(shù)學(xué)。他堅(jiān)信，語(yǔ)言學(xué)將日益接近精密科學(xué)，語(yǔ)言學(xué)將根據(jù)數(shù)學(xué)的模式，更多地?cái)U(kuò)展量的概念，并將發(fā)展新的演繹思想的方法。這些光輝的思想影響了語(yǔ)言學(xué)的歷史進(jìn)程，成為下一代學(xué)者努力的方向，并將構(gòu)思結(jié)合到實(shí)踐研究中去。1881年，德國(guó)學(xué)者迪丁貝爾格用統(tǒng)計(jì)方法把柏拉圖著作的執(zhí)筆時(shí)期分為前期、中期和后期三個(gè)階段。1887 年，美國(guó)學(xué)者門(mén)登荷爾對(duì)不同時(shí)期的英國(guó)文學(xué)作品尤其是莎士比亞的作品進(jìn)行過(guò)統(tǒng)計(jì)分析，得出了令人滿意的結(jié)論。1898 年，德國(guó)學(xué)者凱定編制了世界上第一部頻度詞典德語(yǔ)頻度詞典，用來(lái)改進(jìn)速記的方法。1913 年，俄國(guó)數(shù)學(xué)家馬爾可夫用概率論方法研究了歐根·奧涅金中的俄語(yǔ)輔音和元音字母序列生成問(wèn)題

10、，并以此提出可馬爾可夫隨機(jī)過(guò)程這一數(shù)學(xué)上的重要理論，后來(lái)成了數(shù)學(xué)的一個(gè)分支，對(duì)現(xiàn)代數(shù)學(xué)產(chǎn)生了深遠(yuǎn)的影響。1935 年，美國(guó)語(yǔ)文學(xué)家齊普夫發(fā)表了齊普夫定律，采用數(shù)學(xué)方法描述頻度詞典中單詞的序號(hào)分布規(guī)律，這一規(guī)律后來(lái)在不同領(lǐng)域得到了廣泛應(yīng)用。1941 年，英國(guó)數(shù)學(xué)家尤勒發(fā)表了文學(xué)詞語(yǔ)的統(tǒng)計(jì)分布一書(shū)，其中大規(guī)模應(yīng)用了概率和統(tǒng)計(jì)方法來(lái)研究語(yǔ)言。以上事例可以大致窺探上個(gè)世紀(jì)學(xué)者們將數(shù)學(xué)應(yīng)用于語(yǔ)言研究的情況，究其意義，我們可以看到數(shù)學(xué)的優(yōu)勢(shì)所在。l、數(shù)學(xué)表達(dá)語(yǔ)言學(xué)研究問(wèn)題和內(nèi)容的精確性。數(shù)學(xué)語(yǔ)言的特點(diǎn)是簡(jiǎn)明，精確，數(shù)學(xué)方法具有嚴(yán)密的系統(tǒng)性和邏輯性，用數(shù)學(xué)符號(hào)和公式來(lái)表達(dá)語(yǔ)言學(xué)研究?jī)?nèi)容將符合現(xiàn)代語(yǔ)言學(xué)的要求

11、。2、數(shù)學(xué)方法可以對(duì)語(yǔ)言現(xiàn)象進(jìn)行定量和定性，使得分析定量定性分析相得益彰：定性分析以定量分析為依據(jù)，定量分析以定性分析為歸宿，這樣可以盡可能避免對(duì)某些語(yǔ)言現(xiàn)象所作出的結(jié)論的主觀推測(cè)性和游移不確定性。3、數(shù)學(xué)方法豐富了語(yǔ)言學(xué)研究的方法和途徑。以上事例可以看出，語(yǔ)言學(xué)的研究可以拓展思路，引入更多的邊緣學(xué)科幫助，用一種新的視野觀察語(yǔ)言學(xué)研究和發(fā)展。4、擴(kuò)展語(yǔ)言學(xué)研究領(lǐng)域。在數(shù)學(xué)方法被引入前，語(yǔ)言學(xué)研究因?yàn)檠芯克降南拗埔耘c研究方式的僵化停滯不前，而數(shù)學(xué)方法的引入，很大程度上開(kāi)拓了語(yǔ)言學(xué)研究的領(lǐng)域并大大加速了這一學(xué)科的發(fā)展。1.2 數(shù)理語(yǔ)言學(xué)與其分支1.2.1統(tǒng)計(jì)語(yǔ)言學(xué)數(shù)理語(yǔ)言學(xué)的一個(gè)分支，又稱計(jì)量語(yǔ)

12、言學(xué)，是應(yīng)用數(shù)理統(tǒng)計(jì)、概率論和信息論等方法來(lái)研究語(yǔ)言學(xué)現(xiàn)象的語(yǔ)言學(xué)科。就其研究領(lǐng)域來(lái)看，目前主要包括以下幾個(gè)方面：1、統(tǒng)計(jì)語(yǔ)言單位的出現(xiàn)頻率，如對(duì)詞匯和音位、語(yǔ)素出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì)研究。2、統(tǒng)計(jì)作家的用詞用詞頻率頻率、詞長(zhǎng)分布和句長(zhǎng)分布，以了解作家運(yùn)用語(yǔ)言的風(fēng)格，用這種方法還可判定匿名文章的作者。3、計(jì)算語(yǔ)言存在的絕對(duì)年代以與親屬語(yǔ)言從共同原始語(yǔ)分化出來(lái)的年代,這方面的研究叫做語(yǔ)言年代學(xué),又稱為詞源統(tǒng)計(jì)分析法。此外,還可對(duì)親屬語(yǔ)言的語(yǔ)法、語(yǔ)音體系進(jìn)行統(tǒng)計(jì)、比較。4、采用信息論方法研究語(yǔ)言的熵和羨余度。語(yǔ)言的熵就是在交際過(guò)程中語(yǔ)言符號(hào)出現(xiàn)的不定度。不定度的大小與語(yǔ)言的熵的高低一致。當(dāng)語(yǔ)言的接收者

13、接收到語(yǔ)言符號(hào)之后，不定度被消除，熵等于零，因而在交際過(guò)程中，語(yǔ)言接收者所得到的信息量恰恰等于被消除的熵。語(yǔ)言的羨余度是指語(yǔ)言中超過(guò)傳遞最少需要量的信息量的比例，在一般情況下,人們?yōu)榱吮ＷC對(duì)方能夠理解,總是提供比實(shí)際需要多得多的信息量，因此，不論在書(shū)面語(yǔ)還是口語(yǔ)中，語(yǔ)言都有羨余度。5、探討語(yǔ)言的一般統(tǒng)計(jì)規(guī)律。例如，在按頻率遞減順序排列的頻率詞典中，詞的序號(hào)越大，詞的頻率越小，序號(hào)與頻率之間的關(guān)系可以用數(shù)學(xué)公式描述為一定的統(tǒng)計(jì)規(guī)律，這個(gè)統(tǒng)計(jì)規(guī)律叫做齊普夫定律，因其研究者之一、美國(guó)語(yǔ)文學(xué)家齊普夫而得名。 6、運(yùn)用隨機(jī)過(guò)程論來(lái)研究語(yǔ)言，把語(yǔ)言看成彼此聯(lián)系的字母序列，前一個(gè)字母決定后一個(gè)字母的出現(xiàn)，于

14、是形成一條字母鏈，叫做馬爾可夫鏈，因其最早的研究者俄國(guó)數(shù)學(xué)家馬爾可夫而得名。7、研究文章中兩個(gè)詞之間、兩個(gè)語(yǔ)法范疇之間、兩個(gè)語(yǔ)義類之間或兩個(gè)句法類型之間的間距，以揭示文章在句法或語(yǔ)義上的特征。8、研究語(yǔ)言的詞匯與文章長(zhǎng)度的關(guān)系，以揭示文章中詞匯的豐富程度和差異程度。統(tǒng)計(jì)語(yǔ)言學(xué)的許多成果，對(duì)語(yǔ)言教學(xué)、通信技術(shù)與自然語(yǔ)言的信息處理有很大價(jià)值。更為重要的是對(duì)尋找語(yǔ)言背后的數(shù)理規(guī)律以與揭示各種語(yǔ)言形成的內(nèi)在原因起到關(guān)鍵作用。1.2.2代數(shù)語(yǔ)言學(xué)數(shù)理語(yǔ)言學(xué)的一個(gè)分支，又叫做形式語(yǔ)言學(xué)，是應(yīng)用數(shù)理邏輯、集合論、算法理論。格論、圖論。模糊數(shù)學(xué)等離散代數(shù)方法研究語(yǔ)言現(xiàn)象的語(yǔ)言學(xué)科。目的是建立起語(yǔ)言的代數(shù)模型，

15、把語(yǔ)言學(xué)的某些方面建造成類似數(shù)學(xué)那樣的演繹系統(tǒng)，建立語(yǔ)言模型理論，從而為自然語(yǔ)言的信息處理提供理論基礎(chǔ)。就其研究領(lǐng)域來(lái)看，目前主要包括以下幾個(gè)方面：1、建立語(yǔ)言的數(shù)學(xué)模型，如美國(guó)邏輯學(xué)家、語(yǔ)言學(xué)家喬姆斯基、前蘇聯(lián)數(shù)學(xué)家.庫(kù)拉金娜、語(yǔ)言學(xué)家巴爾-希列爾分別提出了語(yǔ)言的生成性模型、分析性模型和辨識(shí)性模型。2、研究形式語(yǔ)言與其與自動(dòng)機(jī)的關(guān)系。喬姆斯基等人發(fā)現(xiàn)，一定類型的形式文法是與一定類型的自動(dòng)機(jī)相對(duì)應(yīng)的，文法是語(yǔ)言的生成程序，而相應(yīng)的自動(dòng)機(jī)則是該語(yǔ)言的識(shí)別程序。3、建立自然語(yǔ)言自動(dòng)處理各種方法的理論。在人機(jī)對(duì)話研究中提出了擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、語(yǔ)義網(wǎng)絡(luò)等方法，在機(jī)器翻譯研究中提出了從屬分析法、預(yù)示分析法、

16、樹(shù)形分析法等方法，代數(shù)語(yǔ)言學(xué)要對(duì)這些方法進(jìn)行理論上的研究。4、研究語(yǔ)音、語(yǔ)法、詞匯、語(yǔ)義中的模糊現(xiàn)象。5、研究語(yǔ)言的句法結(jié)構(gòu)與語(yǔ)義解釋之間的關(guān)系，如孟德斯鳩語(yǔ)法等。代數(shù)語(yǔ)言學(xué)對(duì)計(jì)算語(yǔ)言學(xué)，機(jī)器翻譯、語(yǔ)言信息處理學(xué)、計(jì)算機(jī)科學(xué)都有很大的貢獻(xiàn)，對(duì)于計(jì)算機(jī)程序語(yǔ)言也有一定的指導(dǎo)意義。以上簡(jiǎn)略介紹了數(shù)理語(yǔ)言學(xué)的內(nèi)容和形式，以與其研究所在的意義。下面將詳細(xì)分析其中的具體應(yīng)用，并嘗試得出普遍性結(jié)論。2概率與其語(yǔ)言學(xué)應(yīng)用關(guān)于概率論方法在語(yǔ)言學(xué)上的應(yīng)用，可說(shuō)是多如牛毛之態(tài)。本文僅截取其浩瀚精華之片斷，雖是管中窺豹，亦期掠其一斑。主要的研究對(duì)象集中于語(yǔ)言和文字的熵，并重點(diǎn)討論其在信息論領(lǐng)域的重要應(yīng)用，希望從這一

17、細(xì)小的門(mén)縫中看到概率方法的巨大效用。2.1 熵、語(yǔ)言的熵2.1.1熵熵是物理名稱，新華字典對(duì)于熵這個(gè)字的解釋是，“科學(xué)技術(shù)上泛指某些物質(zhì)系統(tǒng)狀態(tài)的一種量度，某些物質(zhì)系統(tǒng)狀態(tài)可能出現(xiàn)的程度”。而在信息論和控制論領(lǐng)域中與熵等價(jià)的概念則分別是信息量和不確定性。當(dāng)我們不知道某事物的具體狀態(tài)，但知道它存在幾種可能性時(shí)，可能性種類越多，則不確定性越大。不確定性越大的事物，當(dāng)我們最后確定的時(shí)候，我們從中得到了越多的信息，即信息量越大。理解了熵的概念，我們也就容易去理解語(yǔ)言的熵這一概念了，顧名思義，即是指語(yǔ)言所帶信息量。2.1.2語(yǔ)言的熵從信息論角度來(lái)看，自然語(yǔ)言交際的過(guò)程，可以視為語(yǔ)言的發(fā)送者通過(guò)媒介將信息

18、傳輸?shù)秸Z(yǔ)言的接收者那里。我們假設(shè)語(yǔ)言只有兩個(gè)符號(hào)（當(dāng)然現(xiàn)實(shí)中不可能出現(xiàn)，除了計(jì)算機(jī)語(yǔ)言是0和1兩個(gè)符號(hào)外，任何自然語(yǔ)言的符號(hào)數(shù)目都是成千上萬(wàn)的），并且這兩個(gè)符號(hào)的出現(xiàn)概率有很大區(qū)別，那么在接收者接收到這一信息之前，他可以很有把握地預(yù)測(cè)將接收到哪個(gè)符號(hào)。這時(shí)語(yǔ)言符號(hào)出現(xiàn)的不確定性是比較小的。反之，則不確定性很大。而接收者一旦接收到語(yǔ)言符號(hào)，則這種不確定性將完全消失，并且從中獲取了一定的信息量。不確定性消除的程度越大，則獲取的信息量也越大。在語(yǔ)言交際中，語(yǔ)言符號(hào)出現(xiàn)的不確定性大小，稱為語(yǔ)言的熵。熵的大小，取決于語(yǔ)言符號(hào)的數(shù)目以與出現(xiàn)的概率。只要測(cè)出了語(yǔ)言的熵，就可以清楚該語(yǔ)言所蘊(yùn)含的信息量大小。如

19、何消除不確定性？這里我們用到概率論中的大數(shù)定律：設(shè)為一隨機(jī)序列，數(shù)學(xué)期望存在，令，若.則稱隨即序列服從大數(shù)定律。下面給出頻率穩(wěn)定于概率的伯努利大數(shù)定律證明。設(shè)為相互獨(dú)立同分布的隨機(jī)序列，且，其中則服從大數(shù)定律，即若令，則有.證因?yàn)橛汕斜妊┓虿坏仁降?，?duì)任意有故得.同理，我們可以測(cè)得某種具體文字的熵以此來(lái)衡量該文字所負(fù)荷的信息量。我們可以根據(jù)事情發(fā)生概率的大小，用下式計(jì)算信息量：式中P是收到的信息中所指事件的概率。信息量的單位為比特，即bit，下面試舉簡(jiǎn)例說(shuō)明。例1 設(shè)英語(yǔ)中字母E出現(xiàn)的頻率為0.105，X出現(xiàn)的頻率為0.002，分別求X和E的信息量解: ,.例2 計(jì)算一封含1000個(gè)字母的英

20、文段落所含信息量解:假定每個(gè)字母都以等可能性出現(xiàn)，英文字母共26個(gè)，把空白也算作一個(gè)字母，那么共有27個(gè)字母。所以每個(gè)字母出現(xiàn)的概率為。每個(gè)字母的信息量我們均可以視為 bit.拿27個(gè)字母來(lái)平均，得到的結(jié)果也是4.76bit，所以10000個(gè)字母所含信息量為4760bit，如果考慮到每個(gè)字母出現(xiàn)的概率并不一樣，則每個(gè)字母的平均信息量為.我們利用現(xiàn)成的字母頻率表，并代入上式計(jì)算可得bit，則1000個(gè)字母總信息量為4030bit。上述簡(jiǎn)例可以看出，字母出現(xiàn)概率越均勻，則信息量越大，反之則越小。當(dāng)字母以等概率出現(xiàn)時(shí)，所含信息量將達(dá)到最大值，假設(shè)27個(gè)字母有26個(gè)出現(xiàn)概率為0，剩余一個(gè)為1，則熵為0

21、。2.2 漢字的熵漢語(yǔ)書(shū)面語(yǔ)由漢字組成。與使用拼音字母的語(yǔ)言不同，漢字的數(shù)量巨大，而類似印歐語(yǔ)系中的英語(yǔ)、意大利語(yǔ)、西班牙語(yǔ)、俄語(yǔ)等語(yǔ)言所使用的字母數(shù)量?jī)H僅在20到33個(gè)之間，因而要測(cè)得漢字的熵比之測(cè)定拼音文字的熵，無(wú)疑難度要大很多。本文援引我國(guó)著名計(jì)算語(yǔ)言學(xué)家馮志偉的方法，逐漸擴(kuò)大漢字容量來(lái)推敲漢字的熵。這里我們把漢語(yǔ)中的總字次稱為文句長(zhǎng)度，文句中出現(xiàn)的不同漢字稱為漢字容量。前者用N表示，后者用n表示。由前文可知，要測(cè)出漢字的熵，就要知道漢字在句中出現(xiàn)的概率，這里我們可以認(rèn)為，漢字出現(xiàn)的頻率可以代替漢字出現(xiàn)的概率。引用馮志偉老師的數(shù)據(jù)，得到下表：文句長(zhǎng)度N11521480124813525

22、112537114294515239152漢字容量n11051183149115105521012371熵H（bit）07.539.529.619.639.649.65由上表可以看出，當(dāng)漢字容量n比較小時(shí)，熵H隨n的擴(kuò)大而迅速增大，當(dāng)n達(dá)到足夠大的時(shí)候，熵H的增加變得緩慢。這種趨勢(shì)將隨n的增大越發(fā)明顯。如何解釋這一現(xiàn)象？第一，隨著漢字容量的增大，文句中的常用漢字?jǐn)?shù)目將趨于穩(wěn)定，不再有顯著的增大。我們知道，漢字總共有八萬(wàn)之巨，而常用漢字不過(guò)三千到五千，僅占到總量的百分之五。第二，隨著漢字容量的增大，非常用漢字的出現(xiàn)概率將進(jìn)一步減小，使得熵的值減小，而此時(shí)新增加的一些非常用字使得熵增大，兩相抵消，

23、熵的值變動(dòng)不大。那么，漢字的容量究竟達(dá)到什么程度，將使熵值趨于穩(wěn)定？如何求得這一最大漢字容量？下面將用齊普夫定律來(lái)解決這一問(wèn)題，而齊普夫定律在后文還將進(jìn)一步詳述，這里不再贅述。我們把文句中出現(xiàn)的詞按出現(xiàn)概率遞減的順序排列，并且依次從1（即出現(xiàn)概率最大的那個(gè)詞）到L（出現(xiàn)概率最小的那個(gè)詞）編碼，詞的出現(xiàn)概率為P，詞的號(hào)碼為r，r的取值為1到L內(nèi)的全部自然數(shù)。編表如下：詞的號(hào)碼()1 2 3 rL詞的出現(xiàn)頻率()P P PPP隨著r的增大，對(duì)應(yīng)的P將逐漸減小。這里應(yīng)用齊普夫定律，得到而由概率知識(shí)可以得到結(jié)合上兩式，可以得到，因此上式即n的值，即是我們要求的最大容量。由數(shù)學(xué)知識(shí)可以得到,式中為自然

24、對(duì)數(shù)，為歐拉常數(shù)。由上式我們可解得 .由換底公式可得得到 .所以得到.即漢字容量達(dá)到12366個(gè)時(shí)，漢字的熵將不再顯著增加。此時(shí)漢字的熵H將穩(wěn)定在9.65。2.3 漢字的極限熵上一節(jié)介紹了漢字的熵，并做了簡(jiǎn)要計(jì)算，得到漢字的熵H為9.65左右。而這一節(jié)將是整篇文章的核心所在，也是主題思想滲透之處。延續(xù)上一節(jié)思路，我們?cè)跍y(cè)得H的值時(shí)，僅僅考慮了漢字在文本中出現(xiàn)概率的差異，而忽略了漢字在文本中出現(xiàn)概率之間的相互影響。實(shí)際上，在任何一個(gè)自然語(yǔ)言的文本中，各個(gè)語(yǔ)言符號(hào)的出現(xiàn)是相互影響的。我們把語(yǔ)言看成是一個(gè)隨機(jī)過(guò)程，在這個(gè)過(guò)程中，語(yǔ)言符號(hào)是隨機(jī)試驗(yàn)的結(jié)果，語(yǔ)言就是一系列具有不同隨機(jī)試驗(yàn)結(jié)果的鏈。如果

25、在隨機(jī)試驗(yàn)中，每個(gè)語(yǔ)言符號(hào)的出現(xiàn)相互獨(dú)立，那么這種鏈就是獨(dú)立鏈。反之，則稱為馬爾可夫鏈。實(shí)際上，語(yǔ)言是馬爾可夫鏈而非獨(dú)立鏈，因?yàn)榍懊娴恼Z(yǔ)言符號(hào)對(duì)后面語(yǔ)言符號(hào)會(huì)產(chǎn)生影響。所以上一節(jié)所測(cè)得的熵可以視為是不等概率獨(dú)立鏈條件下的熵。這里我們引用概率論知識(shí)具體給出馬爾可夫鏈的定義：設(shè)隨即序列滿足下列條件（這里N一般包括有窮或可列無(wú)窮個(gè)非負(fù)整數(shù)）：1. 對(duì)每一只取非負(fù)整數(shù)值；2. 對(duì)任意非負(fù)整數(shù)與任意非負(fù)整數(shù)與,有.當(dāng)上式左方有意義時(shí)，則稱該隨機(jī)序列為馬爾可夫鏈。因此，考慮到前面語(yǔ)言符號(hào)對(duì)后面語(yǔ)言符號(hào)出現(xiàn)概率的影響，那么可得出條件熵，馬爾可夫鏈的熵就是條件熵，其計(jì)算公式如下：.假設(shè)我們只考慮前文一個(gè)語(yǔ)言符

26、號(hào)對(duì)后文一個(gè)語(yǔ)言符號(hào)出現(xiàn)概率的影響，那么這樣的語(yǔ)言成分鏈稱之為一重馬爾可夫鏈；同理，假設(shè)考慮前面兩個(gè)語(yǔ)言符號(hào)的影響，則叫做二重馬爾可夫鏈。以此類推，我們可以得到三重馬爾可夫鏈，四重馬爾可夫鏈等等。而應(yīng)用上式，我們可求得一階馬爾可夫鏈條件熵為.二階馬爾可夫鏈條件熵為.以此類推，我們可以求得任意階馬爾可夫鏈的條件熵。而隨著馬爾可夫鏈重?cái)?shù)的增大，條件熵將越來(lái)越小，因此可以得到.所以可以得到 .這一式子說(shuō)明，熵存在下限，當(dāng)n值逐漸增大時(shí)，熵值趨于穩(wěn)定而不再減少。此時(shí)的熵，就叫做極限熵。如何求得漢字的極限熵？這是一個(gè)艱巨的任務(wù)。前文在計(jì)算不等概率獨(dú)立鏈熵值時(shí)，已是困難重重，要計(jì)算多重馬爾可夫鏈的熵將是難

27、上加難。為避免復(fù)雜的統(tǒng)計(jì)與測(cè)算，這里通過(guò)英漢文本的容量對(duì)比來(lái)簡(jiǎn)介推算。但是必須指出的是，這僅僅是作為一個(gè)估值，要精確得到漢字極限熵仍然還很遙遠(yuǎn)，需要學(xué)者們的后續(xù)努力。通盤(pán)考慮漢譯英和英譯漢文本的容量情況，可以得出，一個(gè)漢字大致等于3.25個(gè)英文字母。而英文字母的極限熵存在一個(gè)公認(rèn)區(qū)間，0.9296到1.5640，因此漢字的極限熵介于3.0212到5.0713之間，取其平均值為4.0462。本節(jié)重點(diǎn)并非在于求得漢字的極限熵，而是介紹了極限熵的概念以與在未來(lái)如何更好地去求值，因?yàn)楫?dāng)前的條件還無(wú)法得到準(zhǔn)確的數(shù)據(jù)。相信在不久的將來(lái)，概率語(yǔ)言學(xué)將會(huì)有更好的發(fā)展，漢字的熵值也將得到精確解決。3統(tǒng)計(jì)與其語(yǔ)言

28、學(xué)應(yīng)用相比較概率，統(tǒng)計(jì)在語(yǔ)言學(xué)上的應(yīng)用更為人所知，因而這一學(xué)科的開(kāi)展也更為蓬勃積極。本節(jié)將介紹統(tǒng)計(jì)的幾個(gè)應(yīng)用極其數(shù)學(xué)發(fā)展，從中大致能夠看出統(tǒng)計(jì)語(yǔ)言學(xué)的研究領(lǐng)域和研究模式。3.1齊普夫定律統(tǒng)計(jì)語(yǔ)言學(xué)這門(mén)學(xué)科的誕生，正是源于齊普夫定律在上世紀(jì)30年代的提出。其在統(tǒng)計(jì)語(yǔ)言學(xué)中的核心地位，不亞于牛頓定律之于力學(xué)。定律的表述并不復(fù)雜，如果把英文單詞出現(xiàn)的頻率按由大到小的順序排列，則每個(gè)單詞出現(xiàn)的頻率p與它的名次n的常數(shù)次冪存在簡(jiǎn)單反比關(guān)系，即.其中c經(jīng)測(cè)得為0.1該定律的應(yīng)用十分廣泛，我們?cè)谇拔那鬂h字的熵時(shí)已經(jīng)用到，不僅于此，我們按以上原則編排的詞表中取前1000個(gè)詞的頻率累加起來(lái), 就可知道這1000

29、個(gè)最常用的詞在該語(yǔ)言中的覆蓋面，這個(gè)計(jì)算結(jié)果表明，這1000個(gè)頻率最高的詞語(yǔ)占到了整個(gè)詞庫(kù)的74.8%，換言之，只需要掌握這種語(yǔ)言中的1000個(gè)頻率最高的詞語(yǔ)，就可以應(yīng)對(duì)該書(shū)面材料的絕大多數(shù)內(nèi)容。同樣的計(jì)算，我們?nèi)绻?000個(gè)詞，則可以讀懂99%的內(nèi)容。這個(gè)結(jié)果可以廣泛應(yīng)用到語(yǔ)言教學(xué)和自然語(yǔ)言的處理中去。上述1000詞頻的具體計(jì)算方法如下： .3000詞頻的計(jì)算方法同上。3.2 語(yǔ)言單位頻率統(tǒng)計(jì)語(yǔ)言單位包括字母、音節(jié)、音素、字符等等，統(tǒng)計(jì)語(yǔ)言單位的頻率有其實(shí)際意義，我們以英文字母試舉例。由概率論定義：設(shè)在同一條件組下進(jìn)行n次試驗(yàn)(n足夠大)，時(shí)間A發(fā)生m次，則時(shí)間A發(fā)生的頻率定義為我們用作為

30、時(shí)間A的概率的一個(gè)量度。因此由定義我們可以以字母出現(xiàn)的頻率表示概率，統(tǒng)計(jì)大量的文本，可以得到每個(gè)英文字母在文句中出現(xiàn)的頻率，如下所示，字母概率字母概率字母概率空格0.2S0.052Y.W0.012E0.105H0.047G0.011T0.072D0.035B0.0105O0.0654L0.029V0.008A0.063C0.023K0.003N0.059F.U0.0225X0.002I0.055M0.021J.Q.Z0.001R0.054P0.0175這一表格顯示，每個(gè)字母出現(xiàn)的頻率極不均勻，這一結(jié)論對(duì)密碼的破譯有重要作用。另外，由于通訊技術(shù)的發(fā)展，要對(duì)負(fù)載信息的語(yǔ)言尋求最佳編碼方法，目的是提

31、高通訊傳輸?shù)男省Ｃ總€(gè)字母出現(xiàn)的概率不同就表示每個(gè)字母的熵不同，因此可以考慮為不同的字母編不同長(zhǎng)度碼來(lái)提高效率。3.3 計(jì)算風(fēng)格學(xué)計(jì)算風(fēng)格學(xué).即語(yǔ)言風(fēng)格統(tǒng)計(jì)學(xué)，簡(jiǎn)單地說(shuō)，就是利用數(shù)理統(tǒng)計(jì)的方法來(lái)分析出語(yǔ)言作品的種種風(fēng)格特征。試舉一例來(lái)說(shuō)明該學(xué)科的應(yīng)用。陳大康對(duì)文學(xué)作品紅樓夢(mèng)進(jìn)行了統(tǒng)計(jì)，利用計(jì)算機(jī)對(duì)作品中的臟字進(jìn)行了分析。所謂的臟字是指“屁”“放屁”“屎”之類的詞語(yǔ)。這類詞語(yǔ)在文雅作品中一般是比較少見(jiàn)的。最后得出的結(jié)論是，該類詞語(yǔ)在前78回合中出現(xiàn)頻率為0.0129%，而在后40回合出現(xiàn)的頻率只有0.000854%，兩者相差了15倍。這充分說(shuō)明了該作品的前后兩部分風(fēng)格存在很大差異，顯然并非同一

32、作者所寫(xiě)。這個(gè)例子說(shuō)明，對(duì)語(yǔ)言風(fēng)格的統(tǒng)計(jì)可以用來(lái)判別文學(xué)作品的真?zhèn)我耘c鑒定匿名文章的歸屬。具體數(shù)學(xué)方法如下：假設(shè)某一作家的二階相關(guān)矩陣為m(i,j),定義偏離指數(shù)為：.這其中為標(biāo)準(zhǔn)語(yǔ)言的二階相關(guān)矩陣。這里引入統(tǒng)計(jì)學(xué)中的切普曼-柯?tīng)柲缏宸蚍匠蹋涸O(shè)為一馬爾可夫鏈，則對(duì)任意非負(fù)整數(shù)有.我們可以得到結(jié)論，即值越小，作家的語(yǔ)言同標(biāo)準(zhǔn)語(yǔ)就越接近。如果是比較兩位作家的風(fēng)格，則用相關(guān)指數(shù)S：.其中與表示作家m和n的二階相關(guān)矩陣。S值越大，則兩位作家的風(fēng)格就越接近。3.4 語(yǔ)言年代學(xué)語(yǔ)言年代學(xué)屬于歷史語(yǔ)言學(xué)的范疇，而在歷史語(yǔ)言學(xué)中學(xué)者也普遍應(yīng)用了數(shù)理統(tǒng)計(jì)的方法。這一方法的核心思想是利用詞匯的消亡速度或者保留的

33、百分比來(lái)確定語(yǔ)言關(guān)系。在語(yǔ)言的詞匯中，有一類基本詞匯，特征是穩(wěn)固，消亡速度很慢，總體上能夠基本穩(wěn)定保留下來(lái)。經(jīng)統(tǒng)計(jì)檢測(cè)，基本詞匯在任何時(shí)期的保留率為一固定常數(shù)，即在1000年的時(shí)間跨度中，基本詞匯能夠保留86%。根據(jù)公式 .我們可以計(jì)算一種語(yǔ)言的絕對(duì)年代t。假設(shè)某種語(yǔ)言在當(dāng)前的基本詞匯保留率測(cè)得為60%，則代入計(jì)算可得.38.可以得到結(jié)論，該語(yǔ)言存在的絕對(duì)年代大約在三千四百年左右。也可以利用該理論估算兩種現(xiàn)代語(yǔ)言從共同語(yǔ)分化的時(shí)間。利用公式,式中L表示兩種現(xiàn)代語(yǔ)言中的同源詞比例。假設(shè)兩種現(xiàn)代語(yǔ)言A和B，測(cè)得同源詞比例為0.82，則.即兩種語(yǔ)言A和B是在大約1300年前分離出來(lái)。結(jié)論以上只是對(duì)數(shù)

34、理語(yǔ)言學(xué)的一小部分做了簡(jiǎn)要分析，之所以選擇這一課題，與我大學(xué)的愛(ài)好興趣相關(guān)。我在大學(xué)里閱讀了大量語(yǔ)言學(xué)方面書(shū)籍，產(chǎn)生了很大的興趣，因此希望能將所得知識(shí)應(yīng)用于論文中去。本文立足于數(shù)學(xué)和語(yǔ)言學(xué)的交叉學(xué)科即數(shù)理語(yǔ)言學(xué)，并通過(guò)簡(jiǎn)要介紹其子學(xué)科，分析其現(xiàn)狀，并分析具體數(shù)學(xué)方法是如何應(yīng)用到該學(xué)科上去。概率方面著重講述語(yǔ)言的熵這一概念，并以漢字的熵為例作了具體計(jì)算分析。得出的結(jié)論也具有普遍應(yīng)用性，在其他領(lǐng)域可以得到進(jìn)一步拓展應(yīng)用。統(tǒng)計(jì)方面的介紹比較基礎(chǔ)，更多的是普與這一方向的知識(shí)，介紹了幾個(gè)比較有趣味的小學(xué)科，相信能吸引更多人關(guān)注語(yǔ)言學(xué)。而數(shù)學(xué)方法在語(yǔ)言學(xué)上的應(yīng)用，也需要注意一些問(wèn)題：1、數(shù)學(xué)方法從根本上說(shuō)

35、，還不能完全代替語(yǔ)言學(xué)原有的研究手段，畢竟社會(huì)科學(xué)有其不可忽視的特點(diǎn)。2、數(shù)學(xué)是抽象的學(xué)科，不能僅僅停留在初等數(shù)學(xué)的階段，防止數(shù)學(xué)方法的簡(jiǎn)單化。當(dāng)然，數(shù)理語(yǔ)言學(xué)的內(nèi)容不止如此，有待繼續(xù)深研。正如前文所言，本文僅是作管中窺豹之用，權(quán)當(dāng)拋磚引玉，希望數(shù)理語(yǔ)言學(xué)能得到更多重視，并能引入更多的數(shù)學(xué)方法用作這方面研究?？傊?，概率統(tǒng)計(jì)的應(yīng)用十分廣泛，還需要我們不斷地學(xué)習(xí)和研究。在本文的寫(xiě)作過(guò)程中，我最大的體會(huì)就是，學(xué)科之間的聯(lián)系可以很容易地建立，而并非是像表面上看到的那樣簡(jiǎn)單直觀。而數(shù)學(xué)，我們可以發(fā)掘其更大的潛力，對(duì)于更多的應(yīng)用問(wèn)題，我們都可以嘗試用數(shù)學(xué)的方法去試探，去解決。本文中的概率統(tǒng)計(jì)方法，是我所舉

36、的例子。通過(guò)這一階段的努力，我對(duì)這部分?jǐn)?shù)學(xué)內(nèi)容印象更加深刻了。加上考研階段的學(xué)習(xí)，可以說(shuō)，概率統(tǒng)計(jì)是我學(xué)的最好的一門(mén)專業(yè)課程了。這是我最直接的收獲，也將對(duì)我研究生階段的后續(xù)學(xué)習(xí)大有裨益，因?yàn)楦怕式y(tǒng)計(jì)在會(huì)計(jì)學(xué)上的應(yīng)用可以說(shuō)是很成熟了，今后我必將受益于現(xiàn)在的努力。更加重要的收獲則是，研究的思路以與治學(xué)的態(tài)度。正如前文所言，思維的僵化對(duì)于問(wèn)題的研究是最大的阻滯，今后無(wú)論遇到什么問(wèn)題，多開(kāi)拓思路，多角度地觀察，都會(huì)對(duì)解決問(wèn)題有所幫助。以語(yǔ)言學(xué)作為題材寫(xiě)作這篇文章，并非是我刻意獨(dú)樹(shù)一幟。因?yàn)樵谖铱磥?lái)，單純地介紹書(shū)本上的公式定理，只能體現(xiàn)數(shù)學(xué)的理論，卻無(wú)法反映出數(shù)學(xué)的應(yīng)用性。我不滿足于那種傳統(tǒng)的形式，我想應(yīng)用數(shù)學(xué)專業(yè)應(yīng)該更多地介紹關(guān)于如何應(yīng)用數(shù)學(xué)方法，因此不惴谫陋大膽做了這一嘗試。雖然很難寫(xiě)，且在這一過(guò)程中確實(shí)遇到了很多的困難和阻礙，但也得到了很多收獲。我相信閱讀本文將有助于大家了解這一學(xué)科，因?yàn)榇蠹铱赡軐?duì)這一領(lǐng)域并不是很熟悉，而多學(xué)科的交叉研究也有助于拓展視野，或許能得到研究的新靈感也未可知。學(xué)科不分軒輊，每門(mén)科學(xué)都是為人類謀求福利，都是為社會(huì)的進(jìn)步和發(fā)展作自己的貢獻(xiàn)?？梢院茌p易地想見(jiàn)，概率統(tǒng)計(jì)也可以對(duì)分子物理學(xué)、量子力學(xué)、生命科學(xué)等等學(xué)科提供幫助，

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 工作計(jì)劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

淺議概率統(tǒng)計(jì)在語(yǔ)言學(xué)上應(yīng)用

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔