淺議概率統(tǒng)計在語言學(xué)上應(yīng)用_第1頁
淺議概率統(tǒng)計在語言學(xué)上應(yīng)用_第2頁
淺議概率統(tǒng)計在語言學(xué)上應(yīng)用_第3頁
淺議概率統(tǒng)計在語言學(xué)上應(yīng)用_第4頁
淺議概率統(tǒng)計在語言學(xué)上應(yīng)用_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、摘要數(shù)學(xué)作為一門應(yīng)用性很強(qiáng)的學(xué)科,如何將理論與現(xiàn)實問題有效結(jié)合起來是一大難題。而語言學(xué)作為一門重要的社會科學(xué),與自然科學(xué)的精確性存在很大區(qū)別。研究現(xiàn)實表明數(shù)學(xué)將可以在語言學(xué)等社會學(xué)科上得到極大應(yīng)用。本文首先介紹數(shù)學(xué)、語言學(xué)和數(shù)理語言學(xué)之間的關(guān)系與其內(nèi)在聯(lián)系,然后再從概率論和統(tǒng)計學(xué)兩個角度分別簡述其在語言學(xué)上應(yīng)用。概率論方面主要介紹語言文字的熵,討論其信息量,并以漢字為例兼論常見語言的字母熵,從而窺探每個文字背后蘊(yùn)含的信息量度。統(tǒng)計學(xué)方面主要通過統(tǒng)計方法介紹語言單位的出現(xiàn)頻率,計算作家的語言風(fēng)格,以與計算語言存在的絕對年代和親屬語言分化的年代,并簡要介紹齊普夫定律。關(guān)鍵詞:數(shù)理語言學(xué);概率論;統(tǒng)

2、計學(xué);熵;齊普夫定律;馬爾可夫鏈;語言年代學(xué)ABSTRACTApplied Mathematics, as an application of a strong discipline, has a major problem that how to combine the theory and practical problems effectively. Linguistics as an important social sciences, , has a big difference with natural sciences accuracy. The reality shows th

3、at mathematics has been greatly used in linguistics and social sciences. This paper first introduces the relationship between their internal relations of mathematics, linguistics, and mathematical linguistics, and then from two angles of the probability theory and statistics, respectively, outlined

4、its application in linguistics. Probability theory describes the entropy of the language to discuss their information content, and on the entropy of the letters of the common language of Chinese characters, for example, in order to spy on the measure of the information contained in each text behind.

5、 In statistics we discuss on the frequency of occurrence of the linguistic unit by statistical methods, the computing language of the writer's style, as well as computing language of absolute age and age of relatives of language differentiation, and then a brief introduction to Zipf's Law.Ke

6、y words: Mathematical Linguistics; Probability Theory; Statistics; Entropy;Zipf's Law;Markov Chain; Glottochronology目錄摘要目錄1數(shù)學(xué)、語言學(xué)和數(shù)理語言學(xué)11.1數(shù)學(xué)在語言學(xué)上的滲透與其意義11.2數(shù)理語言學(xué)與其分支21.2.1統(tǒng)計語言學(xué)21.2.2 代數(shù)語言學(xué)32概率與其在語言學(xué)中應(yīng)用32.1熵、語言的熵32.2漢字的熵52.3漢字的極限熵63統(tǒng)計與其在語言學(xué)中應(yīng)用83.1齊普夫定律83.2語言單位頻率統(tǒng)計83.3計算風(fēng)格學(xué)93.4 語言年代學(xué)10結(jié)論11致謝12參考文

7、獻(xiàn)1316 / 18淺議概率統(tǒng)計在語言學(xué)上應(yīng)用1數(shù)學(xué)、語言學(xué)和數(shù)理語言學(xué)數(shù)學(xué)和語言學(xué)可以說是最古老的兩門學(xué)科,在人類文明長河中很難找到歷史更悠久的學(xué)科。數(shù)學(xué)是研究形式、結(jié)構(gòu)和數(shù)量之間關(guān)系的一門學(xué)科,它具有統(tǒng)一的符號系統(tǒng),各國讀者均可以方便地進(jìn)行交流,讀法雖然有所差異,但是其意義都是一樣的。而語言是人類社會最重要的交際工具,是人類區(qū)別于其它動物的主要特征。不同的國家、不同的民族有著不同的語言符號系統(tǒng)。數(shù)千年來,數(shù)學(xué)和語言學(xué)之間似乎是風(fēng)馬牛不相與,很少有人想到把二者聯(lián)系起來研究,找到他們的內(nèi)在關(guān)系。在人類的文明史上,學(xué)者們經(jīng)過相當(dāng)漫長時間的探索,才終于認(rèn)識到這一密切聯(lián)系。1.1數(shù)學(xué)在語言學(xué)上的滲透

8、與其意義進(jìn)入20世紀(jì),數(shù)學(xué)方法和理論不僅在物理、地理、天文等領(lǐng)域獲得了驚人的進(jìn)展,而且逐漸滲透到人文科學(xué)領(lǐng)域。先是在生物學(xué),而后是在經(jīng)濟(jì)學(xué)和社會學(xué)方面,數(shù)學(xué)方法取得了一系列成功。很自然地,數(shù)學(xué)家們將目光投向了數(shù)學(xué)的未開墾地語言學(xué)。學(xué)者們的遠(yuǎn)見卓識,使語言學(xué)的發(fā)展展現(xiàn)了新機(jī)。1847 年,俄國數(shù)學(xué)家布里亞柯夫斯基認(rèn)為可以用概率論方法來進(jìn)行語法、詞源與語言歷史比較的研究。1894 年,瑞士著名語言學(xué)家索緒爾指出,“在基本性質(zhì)方面,語言中的量和量之間的關(guān)系可以用數(shù)學(xué)公式有規(guī)律地表達(dá)出來”。1904年,波蘭語言學(xué)家博杜恩·德·古爾特內(nèi)認(rèn)為,語言研究者不僅應(yīng)該掌握初等數(shù)學(xué),更應(yīng)該高等

9、數(shù)學(xué)。他堅信,語言學(xué)將日益接近精密科學(xué),語言學(xué)將根據(jù)數(shù)學(xué)的模式,更多地擴(kuò)展量的概念,并將發(fā)展新的演繹思想的方法。這些光輝的思想影響了語言學(xué)的歷史進(jìn)程,成為下一代學(xué)者努力的方向,并將構(gòu)思結(jié)合到實踐研究中去。1881年,德國學(xué)者迪丁貝爾格用統(tǒng)計方法把柏拉圖著作的執(zhí)筆時期分為前期、中期和后期三個階段。1887 年,美國學(xué)者門登荷爾對不同時期的英國文學(xué)作品尤其是莎士比亞的作品進(jìn)行過統(tǒng)計分析,得出了令人滿意的結(jié)論。1898 年,德國學(xué)者凱定編制了世界上第一部頻度詞典德語頻度詞典,用來改進(jìn)速記的方法。1913 年,俄國數(shù)學(xué)家馬爾可夫用概率論方法研究了歐根·奧涅金中的俄語輔音和元音字母序列生成問題

10、,并以此提出可馬爾可夫隨機(jī)過程這一數(shù)學(xué)上的重要理論,后來成了數(shù)學(xué)的一個分支,對現(xiàn)代數(shù)學(xué)產(chǎn)生了深遠(yuǎn)的影響。1935 年,美國語文學(xué)家齊普夫發(fā)表了齊普夫定律,采用數(shù)學(xué)方法描述頻度詞典中單詞的序號分布規(guī)律,這一規(guī)律后來在不同領(lǐng)域得到了廣泛應(yīng)用。1941 年,英國數(shù)學(xué)家尤勒發(fā)表了文學(xué)詞語的統(tǒng)計分布一書,其中大規(guī)模應(yīng)用了概率和統(tǒng)計方法來研究語言。以上事例可以大致窺探上個世紀(jì)學(xué)者們將數(shù)學(xué)應(yīng)用于語言研究的情況,究其意義,我們可以看到數(shù)學(xué)的優(yōu)勢所在。l、數(shù)學(xué)表達(dá)語言學(xué)研究問題和內(nèi)容的精確性。數(shù)學(xué)語言的特點是簡明,精確,數(shù)學(xué)方法具有嚴(yán)密的系統(tǒng)性和邏輯性,用數(shù)學(xué)符號和公式來表達(dá)語言學(xué)研究內(nèi)容將符合現(xiàn)代語言學(xué)的要求

11、。2、數(shù)學(xué)方法可以對語言現(xiàn)象進(jìn)行定量和定性,使得分析定量定性分析相得益彰:定性分析以定量分析為依據(jù),定量分析以定性分析為歸宿,這樣可以盡可能避免對某些語言現(xiàn)象所作出的結(jié)論的主觀推測性和游移不確定性。3、數(shù)學(xué)方法豐富了語言學(xué)研究的方法和途徑。以上事例可以看出,語言學(xué)的研究可以拓展思路,引入更多的邊緣學(xué)科幫助,用一種新的視野觀察語言學(xué)研究和發(fā)展。4、擴(kuò)展語言學(xué)研究領(lǐng)域。在數(shù)學(xué)方法被引入前,語言學(xué)研究因為研究水平的限制以與研究方式的僵化停滯不前,而數(shù)學(xué)方法的引入,很大程度上開拓了語言學(xué)研究的領(lǐng)域并大大加速了這一學(xué)科的發(fā)展。1.2 數(shù)理語言學(xué)與其分支1.2.1統(tǒng)計語言學(xué)數(shù)理語言學(xué)的一個分支,又稱計量語

12、言學(xué),是應(yīng)用數(shù)理統(tǒng)計、概率論和信息論等方法來研究語言學(xué)現(xiàn)象的語言學(xué)科。就其研究領(lǐng)域來看,目前主要包括以下幾個方面:1、統(tǒng)計語言單位的出現(xiàn)頻率,如對詞匯和音位、語素出現(xiàn)的頻率進(jìn)行統(tǒng)計研究。2、統(tǒng)計作家的用詞用詞頻率頻率、詞長分布和句長分布,以了解作家運(yùn)用語言的風(fēng)格,用這種方法還可判定匿名文章的作者。3、計算語言存在的絕對年代以與親屬語言從共同原始語分化出來的年代,這方面的研究叫做語言年代學(xué),又稱為詞源統(tǒng)計分析法。此外,還可對親屬語言的語法、語音體系進(jìn)行統(tǒng)計、比較。4、采用信息論方法研究語言的熵和羨余度。語言的熵就是在交際過程中語言符號出現(xiàn)的不定度。不定度的大小與語言的熵的高低一致。當(dāng)語言的接收者

13、接收到語言符號之后,不定度被消除,熵等于零,因而在交際過程中,語言接收者所得到的信息量恰恰等于被消除的熵。語言的羨余度是指語言中超過傳遞最少需要量的信息量的比例,在一般情況下,人們?yōu)榱吮WC對方能夠理解,總是提供比實際需要多得多的信息量,因此,不論在書面語還是口語中,語言都有羨余度。5、探討語言的一般統(tǒng)計規(guī)律。例如,在按頻率遞減順序排列的頻率詞典中,詞的序號越大,詞的頻率越小,序號與頻率之間的關(guān)系可以用數(shù)學(xué)公式描述為一定的統(tǒng)計規(guī)律,這個統(tǒng)計規(guī)律叫做齊普夫定律,因其研究者之一、美國語文學(xué)家齊普夫而得名。 6、運(yùn)用隨機(jī)過程論來研究語言,把語言看成彼此聯(lián)系的字母序列,前一個字母決定后一個字母的出現(xiàn),于

14、是形成一條字母鏈,叫做馬爾可夫鏈,因其最早的研究者俄國數(shù)學(xué)家馬爾可夫而得名。7、研究文章中兩個詞之間、兩個語法范疇之間、兩個語義類之間或兩個句法類型之間的間距,以揭示文章在句法或語義上的特征。8、研究語言的詞匯與文章長度的關(guān)系,以揭示文章中詞匯的豐富程度和差異程度。統(tǒng)計語言學(xué)的許多成果,對語言教學(xué)、通信技術(shù)與自然語言的信息處理有很大價值。更為重要的是對尋找語言背后的數(shù)理規(guī)律以與揭示各種語言形成的內(nèi)在原因起到關(guān)鍵作用。1.2.2代數(shù)語言學(xué)數(shù)理語言學(xué)的一個分支,又叫做形式語言學(xué),是應(yīng)用數(shù)理邏輯、集合論、算法理論。格論、圖論。模糊數(shù)學(xué)等離散代數(shù)方法研究語言現(xiàn)象的語言學(xué)科。目的是建立起語言的代數(shù)模型,

15、把語言學(xué)的某些方面建造成類似數(shù)學(xué)那樣的演繹系統(tǒng),建立語言模型理論,從而為自然語言的信息處理提供理論基礎(chǔ)。就其研究領(lǐng)域來看,目前主要包括以下幾個方面:1、建立語言的數(shù)學(xué)模型,如美國邏輯學(xué)家、語言學(xué)家喬姆斯基、前蘇聯(lián)數(shù)學(xué)家.庫拉金娜、語言學(xué)家巴爾-希列爾分別提出了語言的生成性模型、分析性模型和辨識性模型。2、研究形式語言與其與自動機(jī)的關(guān)系。喬姆斯基等人發(fā)現(xiàn),一定類型的形式文法是與一定類型的自動機(jī)相對應(yīng)的,文法是語言的生成程序,而相應(yīng)的自動機(jī)則是該語言的識別程序。3、建立自然語言自動處理各種方法的理論。在人機(jī)對話研究中提出了擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)、語義網(wǎng)絡(luò)等方法,在機(jī)器翻譯研究中提出了從屬分析法、預(yù)示分析法、

16、樹形分析法等方法,代數(shù)語言學(xué)要對這些方法進(jìn)行理論上的研究。4、研究語音、語法、詞匯、語義中的模糊現(xiàn)象。5、研究語言的句法結(jié)構(gòu)與語義解釋之間的關(guān)系,如孟德斯鳩語法等。代數(shù)語言學(xué)對計算語言學(xué),機(jī)器翻譯、語言信息處理學(xué)、計算機(jī)科學(xué)都有很大的貢獻(xiàn),對于計算機(jī)程序語言也有一定的指導(dǎo)意義。以上簡略介紹了數(shù)理語言學(xué)的內(nèi)容和形式,以與其研究所在的意義。下面將詳細(xì)分析其中的具體應(yīng)用,并嘗試得出普遍性結(jié)論。2概率與其語言學(xué)應(yīng)用關(guān)于概率論方法在語言學(xué)上的應(yīng)用,可說是多如牛毛之態(tài)。本文僅截取其浩瀚精華之片斷,雖是管中窺豹,亦期掠其一斑。主要的研究對象集中于語言和文字的熵,并重點討論其在信息論領(lǐng)域的重要應(yīng)用,希望從這一

17、細(xì)小的門縫中看到概率方法的巨大效用。2.1 熵、語言的熵2.1.1熵熵是物理名稱,新華字典對于熵這個字的解釋是,“科學(xué)技術(shù)上泛指某些物質(zhì)系統(tǒng)狀態(tài)的一種量度,某些物質(zhì)系統(tǒng)狀態(tài)可能出現(xiàn)的程度”。而在信息論和控制論領(lǐng)域中與熵等價的概念則分別是信息量和不確定性。當(dāng)我們不知道某事物的具體狀態(tài),但知道它存在幾種可能性時,可能性種類越多,則不確定性越大。不確定性越大的事物,當(dāng)我們最后確定的時候,我們從中得到了越多的信息,即信息量越大。理解了熵的概念,我們也就容易去理解語言的熵這一概念了,顧名思義,即是指語言所帶信息量。2.1.2語言的熵從信息論角度來看,自然語言交際的過程,可以視為語言的發(fā)送者通過媒介將信息

18、傳輸?shù)秸Z言的接收者那里。我們假設(shè)語言只有兩個符號(當(dāng)然現(xiàn)實中不可能出現(xiàn),除了計算機(jī)語言是0和1兩個符號外,任何自然語言的符號數(shù)目都是成千上萬的),并且這兩個符號的出現(xiàn)概率有很大區(qū)別,那么在接收者接收到這一信息之前,他可以很有把握地預(yù)測將接收到哪個符號。這時語言符號出現(xiàn)的不確定性是比較小的。反之,則不確定性很大。而接收者一旦接收到語言符號,則這種不確定性將完全消失,并且從中獲取了一定的信息量。不確定性消除的程度越大,則獲取的信息量也越大。在語言交際中,語言符號出現(xiàn)的不確定性大小,稱為語言的熵。熵的大小,取決于語言符號的數(shù)目以與出現(xiàn)的概率。只要測出了語言的熵,就可以清楚該語言所蘊(yùn)含的信息量大小。如

19、何消除不確定性?這里我們用到概率論中的大數(shù)定律:設(shè)為一隨機(jī)序列,數(shù)學(xué)期望存在,令,若.則稱隨即序列服從大數(shù)定律。下面給出頻率穩(wěn)定于概率的伯努利大數(shù)定律證明。設(shè)為相互獨立同分布的隨機(jī)序列,且,其中則服從大數(shù)定律,即若令,則有.證 因為由切比雪夫不等式得,對任意有故得.同理,我們可以測得某種具體文字的熵以此來衡量該文字所負(fù)荷的信息量。我們可以根據(jù)事情發(fā)生概率的大小,用下式計算信息量:式中P是收到的信息中所指事件的概率。信息量的單位為比特,即bit,下面試舉簡例說明。例1 設(shè)英語中字母E出現(xiàn)的頻率為0.105,X出現(xiàn)的頻率為0.002,分別求X和E的信息量解: ,.例2 計算一封含1000個字母的英

20、文段落所含信息量解:假定每個字母都以等可能性出現(xiàn),英文字母共26個,把空白也算作一個字母,那么共有27個字母。所以每個字母出現(xiàn)的概率為。每個字母的信息量我們均可以視為 bit.拿27個字母來平均,得到的結(jié)果也是4.76bit,所以10000個字母所含信息量為4760bit,如果考慮到每個字母出現(xiàn)的概率并不一樣,則每個字母的平均信息量為.我們利用現(xiàn)成的字母頻率表,并代入上式計算可得bit,則1000個字母總信息量為4030bit。上述簡例可以看出,字母出現(xiàn)概率越均勻,則信息量越大,反之則越小。當(dāng)字母以等概率出現(xiàn)時,所含信息量將達(dá)到最大值,假設(shè)27個字母有26個出現(xiàn)概率為0,剩余一個為1,則熵為0

21、。2.2 漢字的熵漢語書面語由漢字組成。與使用拼音字母的語言不同,漢字的數(shù)量巨大,而類似印歐語系中的英語、意大利語、西班牙語、俄語等語言所使用的字母數(shù)量僅僅在20到33個之間,因而要測得漢字的熵比之測定拼音文字的熵,無疑難度要大很多。本文援引我國著名計算語言學(xué)家馮志偉的方法,逐漸擴(kuò)大漢字容量來推敲漢字的熵。這里我們把漢語中的總字次稱為文句長度,文句中出現(xiàn)的不同漢字稱為漢字容量。前者用N表示,后者用n表示。由前文可知,要測出漢字的熵,就要知道漢字在句中出現(xiàn)的概率,這里我們可以認(rèn)為,漢字出現(xiàn)的頻率可以代替漢字出現(xiàn)的概率。引用馮志偉老師的數(shù)據(jù),得到下表: 文句長度N11521480124813525

22、112537114294515239152漢字容量n11051183149115105521012371熵H(bit)07.539.529.619.639.649.65由上表可以看出,當(dāng)漢字容量n比較小時,熵H隨n的擴(kuò)大而迅速增大,當(dāng)n達(dá)到足夠大的時候,熵H的增加變得緩慢。這種趨勢將隨n的增大越發(fā)明顯。如何解釋這一現(xiàn)象?第一,隨著漢字容量的增大,文句中的常用漢字?jǐn)?shù)目將趨于穩(wěn)定,不再有顯著的增大。我們知道,漢字總共有八萬之巨,而常用漢字不過三千到五千,僅占到總量的百分之五。第二,隨著漢字容量的增大,非常用漢字的出現(xiàn)概率將進(jìn)一步減小,使得熵的值減小,而此時新增加的一些非常用字使得熵增大,兩相抵消,

23、熵的值變動不大。那么,漢字的容量究竟達(dá)到什么程度,將使熵值趨于穩(wěn)定?如何求得這一最大漢字容量?下面將用齊普夫定律來解決這一問題,而齊普夫定律在后文還將進(jìn)一步詳述,這里不再贅述。我們把文句中出現(xiàn)的詞按出現(xiàn)概率遞減的順序排列,并且依次從1(即出現(xiàn)概率最大的那個詞)到L(出現(xiàn)概率最小的那個詞)編碼,詞的出現(xiàn)概率為P,詞的號碼為r,r的取值為1到L內(nèi)的全部自然數(shù)。編表如下:詞的號碼()1 2 3 rL詞的出現(xiàn)頻率()P P PPP隨著r的增大,對應(yīng)的P將逐漸減小。 這里應(yīng)用齊普夫定律,得到而由概率知識可以得到結(jié)合上兩式,可以得到,因此上式即n的值,即是我們要求的最大容量。由數(shù)學(xué)知識可以得到,式中為自然

24、對數(shù),為歐拉常數(shù)。由上式我們可解得 .由換底公式可得 得到 .所以得到.即漢字容量達(dá)到12366個時,漢字的熵將不再顯著增加。此時漢字的熵H將穩(wěn)定在9.65。2.3 漢字的極限熵上一節(jié)介紹了漢字的熵,并做了簡要計算,得到漢字的熵H為9.65左右。而這一節(jié)將是整篇文章的核心所在,也是主題思想滲透之處。延續(xù)上一節(jié)思路,我們在測得H的值時,僅僅考慮了漢字在文本中出現(xiàn)概率的差異,而忽略了漢字在文本中出現(xiàn)概率之間的相互影響。實際上,在任何一個自然語言的文本中,各個語言符號的出現(xiàn)是相互影響的。我們把語言看成是一個隨機(jī)過程,在這個過程中,語言符號是隨機(jī)試驗的結(jié)果,語言就是一系列具有不同隨機(jī)試驗結(jié)果的鏈。如果

25、在隨機(jī)試驗中,每個語言符號的出現(xiàn)相互獨立,那么這種鏈就是獨立鏈。反之,則稱為馬爾可夫鏈。實際上,語言是馬爾可夫鏈而非獨立鏈,因為前面的語言符號對后面語言符號會產(chǎn)生影響。所以上一節(jié)所測得的熵可以視為是不等概率獨立鏈條件下的熵。這里我們引用概率論知識具體給出馬爾可夫鏈的定義:設(shè)隨即序列滿足下列條件(這里N一般包括有窮或可列無窮個非負(fù)整數(shù)):1. 對每一只取非負(fù)整數(shù)值;2. 對任意非負(fù)整數(shù)與任意非負(fù)整數(shù)與,有.當(dāng)上式左方有意義時,則稱該隨機(jī)序列為馬爾可夫鏈。因此,考慮到前面語言符號對后面語言符號出現(xiàn)概率的影響,那么可得出條件熵,馬爾可夫鏈的熵就是條件熵,其計算公式如下:.假設(shè)我們只考慮前文一個語言符

26、號對后文一個語言符號出現(xiàn)概率的影響,那么這樣的語言成分鏈稱之為一重馬爾可夫鏈;同理,假設(shè)考慮前面兩個語言符號的影響,則叫做二重馬爾可夫鏈。以此類推,我們可以得到三重馬爾可夫鏈,四重馬爾可夫鏈等等。而應(yīng)用上式,我們可求得一階馬爾可夫鏈條件熵為.二階馬爾可夫鏈條件熵為.以此類推,我們可以求得任意階馬爾可夫鏈的條件熵。而隨著馬爾可夫鏈重數(shù)的增大,條件熵將越來越小,因此可以得到.所以可以得到 .這一式子說明,熵存在下限,當(dāng)n值逐漸增大時,熵值趨于穩(wěn)定而不再減少。此時的熵,就叫做極限熵。如何求得漢字的極限熵?這是一個艱巨的任務(wù)。前文在計算不等概率獨立鏈熵值時,已是困難重重,要計算多重馬爾可夫鏈的熵將是難

27、上加難。為避免復(fù)雜的統(tǒng)計與測算,這里通過英漢文本的容量對比來簡介推算。但是必須指出的是,這僅僅是作為一個估值,要精確得到漢字極限熵仍然還很遙遠(yuǎn),需要學(xué)者們的后續(xù)努力。通盤考慮漢譯英和英譯漢文本的容量情況,可以得出,一個漢字大致等于3.25個英文字母。而英文字母的極限熵存在一個公認(rèn)區(qū)間,0.9296到1.5640,因此漢字的極限熵介于3.0212到5.0713之間,取其平均值為4.0462。本節(jié)重點并非在于求得漢字的極限熵,而是介紹了極限熵的概念以與在未來如何更好地去求值,因為當(dāng)前的條件還無法得到準(zhǔn)確的數(shù)據(jù)。相信在不久的將來,概率語言學(xué)將會有更好的發(fā)展,漢字的熵值也將得到精確解決。3統(tǒng)計與其語言

28、學(xué)應(yīng)用相比較概率,統(tǒng)計在語言學(xué)上的應(yīng)用更為人所知,因而這一學(xué)科的開展也更為蓬勃積極。本節(jié)將介紹統(tǒng)計的幾個應(yīng)用極其數(shù)學(xué)發(fā)展,從中大致能夠看出統(tǒng)計語言學(xué)的研究領(lǐng)域和研究模式。3.1齊普夫定律統(tǒng)計語言學(xué)這門學(xué)科的誕生,正是源于齊普夫定律在上世紀(jì)30年代的提出。其在統(tǒng)計語言學(xué)中的核心地位,不亞于牛頓定律之于力學(xué)。定律的表述并不復(fù)雜,如果把英文單詞出現(xiàn)的頻率按由大到小的順序排列,則每個單詞出現(xiàn)的頻率p與它的名次n的常數(shù)次冪存在簡單反比關(guān)系,即.其中c經(jīng)測得為0.1該定律的應(yīng)用十分廣泛,我們在前文求漢字的熵時已經(jīng)用到,不僅于此,我們按以上原則編排的詞表中取前1000個詞的頻率累加起來, 就可知道這1000

29、個最常用的詞在該語言中的覆蓋面,這個計算結(jié)果表明,這1000個頻率最高的詞語占到了整個詞庫的74.8%,換言之,只需要掌握這種語言中的1000個頻率最高的詞語,就可以應(yīng)對該書面材料的絕大多數(shù)內(nèi)容。同樣的計算,我們?nèi)绻?000個詞,則可以讀懂99%的內(nèi)容。這個結(jié)果可以廣泛應(yīng)用到語言教學(xué)和自然語言的處理中去。上述1000詞頻的具體計算方法如下: .3000詞頻的計算方法同上。3.2 語言單位頻率統(tǒng)計語言單位包括字母、音節(jié)、音素、字符等等,統(tǒng)計語言單位的頻率有其實際意義,我們以英文字母試舉例。由概率論定義:設(shè)在同一條件組下進(jìn)行n次試驗(n足夠大),時間A發(fā)生m次,則時間A發(fā)生的頻率定義為我們用作為

30、時間A的概率的一個量度。因此由定義我們可以以字母出現(xiàn)的頻率表示概率,統(tǒng)計大量的文本,可以得到每個英文字母在文句中出現(xiàn)的頻率,如下所示,字母概率字母概率字母概率空格0.2S0.052Y.W0.012E0.105H0.047G0.011T0.072D0.035B0.0105O0.0654L0.029V0.008A0.063C0.023K0.003N0.059F.U0.0225X0.002I0.055M0.021J.Q.Z0.001R0.054P0.0175這一表格顯示,每個字母出現(xiàn)的頻率極不均勻,這一結(jié)論對密碼的破譯有重要作用。另外,由于通訊技術(shù)的發(fā)展,要對負(fù)載信息的語言尋求最佳編碼方法,目的是提

31、高通訊傳輸?shù)男?。每個字母出現(xiàn)的概率不同就表示每個字母的熵不同,因此可以考慮為不同的字母編不同長度碼來提高效率。3.3 計算風(fēng)格學(xué)計算風(fēng)格學(xué).即語言風(fēng)格統(tǒng)計學(xué),簡單地說,就是利用數(shù)理統(tǒng)計的方法來分析出語言作品的種種風(fēng)格特征。試舉一例來說明該學(xué)科的應(yīng)用。 陳大康對文學(xué)作品紅樓夢進(jìn)行了統(tǒng)計,利用計算機(jī)對作品中的臟字進(jìn)行了分析。所謂的臟字是指“屁”“放屁”“屎”之類的詞語。這類詞語在文雅作品中一般是比較少見的。最后得出的結(jié)論是,該類詞語在前78回合中出現(xiàn)頻率為0.0129%,而在后40回合出現(xiàn)的頻率只有0.000854%,兩者相差了15倍。這充分說明了該作品的前后兩部分風(fēng)格存在很大差異,顯然并非同一

32、作者所寫。這個例子說明,對語言風(fēng)格的統(tǒng)計可以用來判別文學(xué)作品的真?zhèn)我耘c鑒定匿名文章的歸屬。具體數(shù)學(xué)方法如下:假設(shè)某一作家的二階相關(guān)矩陣為m(i,j),定義偏離指數(shù)為:.這其中為標(biāo)準(zhǔn)語言的二階相關(guān)矩陣。這里引入統(tǒng)計學(xué)中的切普曼-柯爾莫哥洛夫方程:設(shè)為一馬爾可夫鏈,則對任意非負(fù)整數(shù)有.我們可以得到結(jié)論,即值越小,作家的語言同標(biāo)準(zhǔn)語就越接近。如果是比較兩位作家的風(fēng)格,則用相關(guān)指數(shù)S:.其中與表示作家m和n的二階相關(guān)矩陣。S值越大,則兩位作家的風(fēng)格就越接近。3.4 語言年代學(xué)語言年代學(xué)屬于歷史語言學(xué)的范疇,而在歷史語言學(xué)中學(xué)者也普遍應(yīng)用了數(shù)理統(tǒng)計的方法。這一方法的核心思想是利用詞匯的消亡速度或者保留的

33、百分比來確定語言關(guān)系。在語言的詞匯中,有一類基本詞匯,特征是穩(wěn)固,消亡速度很慢,總體上能夠基本穩(wěn)定保留下來。經(jīng)統(tǒng)計檢測,基本詞匯在任何時期的保留率為一固定常數(shù),即在1000年的時間跨度中,基本詞匯能夠保留86%。根據(jù)公式 .我們可以計算一種語言的絕對年代t。假設(shè)某種語言在當(dāng)前的基本詞匯保留率測得為60%,則代入計算可得.38.可以得到結(jié)論,該語言存在的絕對年代大約在三千四百年左右。也可以利用該理論估算兩種現(xiàn)代語言從共同語分化的時間。利用公式,式中L表示兩種現(xiàn)代語言中的同源詞比例。假設(shè)兩種現(xiàn)代語言A和B,測得同源詞比例為0.82,則.即兩種語言A和B是在大約1300年前分離出來。結(jié)論以上只是對數(shù)

34、理語言學(xué)的一小部分做了簡要分析,之所以選擇這一課題,與我大學(xué)的愛好興趣相關(guān)。我在大學(xué)里閱讀了大量語言學(xué)方面書籍,產(chǎn)生了很大的興趣,因此希望能將所得知識應(yīng)用于論文中去。本文立足于數(shù)學(xué)和語言學(xué)的交叉學(xué)科即數(shù)理語言學(xué),并通過簡要介紹其子學(xué)科,分析其現(xiàn)狀,并分析具體數(shù)學(xué)方法是如何應(yīng)用到該學(xué)科上去。概率方面著重講述語言的熵這一概念,并以漢字的熵為例作了具體計算分析。得出的結(jié)論也具有普遍應(yīng)用性,在其他領(lǐng)域可以得到進(jìn)一步拓展應(yīng)用。統(tǒng)計方面的介紹比較基礎(chǔ),更多的是普與這一方向的知識,介紹了幾個比較有趣味的小學(xué)科,相信能吸引更多人關(guān)注語言學(xué)。而數(shù)學(xué)方法在語言學(xué)上的應(yīng)用,也需要注意一些問題:1、數(shù)學(xué)方法從根本上說

35、,還不能完全代替語言學(xué)原有的研究手段,畢竟社會科學(xué)有其不可忽視的特點。2、數(shù)學(xué)是抽象的學(xué)科,不能僅僅停留在初等數(shù)學(xué)的階段,防止數(shù)學(xué)方法的簡單化。當(dāng)然,數(shù)理語言學(xué)的內(nèi)容不止如此,有待繼續(xù)深研。正如前文所言,本文僅是作管中窺豹之用,權(quán)當(dāng)拋磚引玉,希望數(shù)理語言學(xué)能得到更多重視,并能引入更多的數(shù)學(xué)方法用作這方面研究。總之,概率統(tǒng)計的應(yīng)用十分廣泛,還需要我們不斷地學(xué)習(xí)和研究。在本文的寫作過程中,我最大的體會就是,學(xué)科之間的聯(lián)系可以很容易地建立,而并非是像表面上看到的那樣簡單直觀。而數(shù)學(xué),我們可以發(fā)掘其更大的潛力,對于更多的應(yīng)用問題,我們都可以嘗試用數(shù)學(xué)的方法去試探,去解決。本文中的概率統(tǒng)計方法,是我所舉

36、的例子。通過這一階段的努力,我對這部分?jǐn)?shù)學(xué)內(nèi)容印象更加深刻了。加上考研階段的學(xué)習(xí),可以說,概率統(tǒng)計是我學(xué)的最好的一門專業(yè)課程了。這是我最直接的收獲,也將對我研究生階段的后續(xù)學(xué)習(xí)大有裨益,因為概率統(tǒng)計在會計學(xué)上的應(yīng)用可以說是很成熟了,今后我必將受益于現(xiàn)在的努力。更加重要的收獲則是,研究的思路以與治學(xué)的態(tài)度。正如前文所言,思維的僵化對于問題的研究是最大的阻滯,今后無論遇到什么問題,多開拓思路,多角度地觀察,都會對解決問題有所幫助。以語言學(xué)作為題材寫作這篇文章,并非是我刻意獨樹一幟。因為在我看來,單純地介紹書本上的公式定理,只能體現(xiàn)數(shù)學(xué)的理論,卻無法反映出數(shù)學(xué)的應(yīng)用性。我不滿足于那種傳統(tǒng)的形式,我想應(yīng)用數(shù)學(xué)專業(yè)應(yīng)該更多地介紹關(guān)于如何應(yīng)用數(shù)學(xué)方法,因此不惴谫陋大膽做了這一嘗試。雖然很難寫,且在這一過程中確實遇到了很多的困難和阻礙,但也得到了很多收獲。我相信閱讀本文將有助于大家了解這一學(xué)科,因為大家可能對這一領(lǐng)域并不是很熟悉,而多學(xué)科的交叉研究也有助于拓展視野,或許能得到研究的新靈感也未可知。學(xué)科不分軒輊,每門科學(xué)都是為人類謀求福利,都是為社會的進(jìn)步和發(fā)展作自己的貢獻(xiàn)。可以很輕易地想見,概率統(tǒng)計也可以對分子物理學(xué)、量子力學(xué)、生命科學(xué)等等學(xué)科提供幫助,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論