下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
信息內(nèi)容的離散分布規(guī)律分析綜述目錄TOC\o"1-2"\h\u6487信息內(nèi)容的離散分布規(guī)律分析綜述 1327481.1布拉德福定律的概念 127541.2布拉德福定律在信息管理中的表現(xiàn) 170201.3齊夫定律的概念 2202501.4齊夫定律在信息管理中的表現(xiàn) 3224001.5馬太效應(yīng)的概念 41.1布拉德福定律的概念布拉德福定律(LawofBradford)也被稱為文學(xué)散逸定律和文獻(xiàn)分散定律,英國化學(xué)家和語言學(xué)家布拉德福德在上世紀(jì)五十年代提出的一個描述文獻(xiàn)秩序結(jié)構(gòu)的經(jīng)驗法則,適合于測量教育文學(xué).它的內(nèi)容簡單來說就是:如果將某雜志按照發(fā)布某一學(xué)術(shù)領(lǐng)域的文獻(xiàn)數(shù)目以逐漸減少的方式排列,就能夠在全部文獻(xiàn)里面找出載文率最高的主要部分和包含著與主要部分等數(shù)量論文的之后幾區(qū),這時核心區(qū)和后續(xù)各區(qū)中所含的雜志數(shù)成的關(guān)系(a>1).同一年,維克利通過分析對布拉德福定律作出了修改,而且把雜志分區(qū)的數(shù)目推廣到了大于三個的更普遍的情形,提出了布氏定律的維克利修正式:(為常數(shù),稱為維氏分布系數(shù),為前個區(qū)的雜志數(shù)量之和).1.2布拉德福定律在信息管理中的表現(xiàn)在布拉德福德定律在網(wǎng)絡(luò)環(huán)境里面是否適用的問題上,上世紀(jì)九十年代,國外專家學(xué)者提出了網(wǎng)絡(luò)計量學(xué)的概念,并進(jìn)行了相應(yīng)的研究.美國專家巴伊蘭將論文及其發(fā)表信息的分布情況與各雜志及其論文進(jìn)行了比較分析,確定了核心新聞組根據(jù)布拉德福定律,主題“瘋牛”,發(fā)現(xiàn)布拉德福定律也存在于網(wǎng)絡(luò)環(huán)境,但這個研究針對某一特定主題,它的數(shù)據(jù)有一定的局限性,通過對美國醫(yī)學(xué)院校排名前二十多位的網(wǎng)站進(jìn)行鏈接分析,發(fā)現(xiàn)網(wǎng)站鏈接存在集中、分散的現(xiàn)象,網(wǎng)站數(shù)量之比為78:452:1201,比較符合1:4:42,這說明醫(yī)學(xué)院的網(wǎng)絡(luò)鏈接是符合布拉德福德的法律的,但這一定律是否適用于所有網(wǎng)絡(luò)環(huán)境,這一事實必須進(jìn)一步審查.兩位美國學(xué)者對MEDLINE數(shù)據(jù)庫中關(guān)于RCT的文獻(xiàn)作了文獻(xiàn)計量分析,發(fā)現(xiàn)通過區(qū)域分析可知第四區(qū)的期刊數(shù)明顯大于預(yù)測值,但是四個區(qū)的期刊數(shù)之比較接近于1:2.5:2.52(6.25):2.53(15.6)符合傳統(tǒng)的布拉德福定律,但又有明顯區(qū)別,文中對布拉德福定律的驗證方法比較單調(diào),不能從各個層面證明這種適用性.貝倫斯和盧克對無機(jī)晶體結(jié)構(gòu)數(shù)據(jù)庫中晶體學(xué)主題的文獻(xiàn)進(jìn)行分析,利用函數(shù)模型對數(shù)據(jù)樣本進(jìn)行分析研究,發(fā)現(xiàn)了晶體學(xué)題目的文獻(xiàn)符合布拉德福定律的分布,這一研究主要針對數(shù)據(jù)庫里面的數(shù)據(jù)并且只進(jìn)行了單一方式的分析,并不具有非常顯著的代表性.克里斯蒂娜·法巴·佩雷斯通過對我那個上空間鏈接狀態(tài)的圖像分析得出,有些圖像并不符合標(biāo)準(zhǔn)的布拉德福分布且通過模塊分析可知每個區(qū)域的比例數(shù)也都不符合的關(guān)系.1.3齊夫定律的概念齊夫定律是由美國哈佛大學(xué)的一位人類語言學(xué)家喬治·金斯利·齊夫于上世紀(jì)五十年代發(fā)表的實驗定律.定律內(nèi)容可以簡單表述為:在人類自然語言的數(shù)據(jù)庫里,某一個詞出現(xiàn)的頻率與它在頻率分布表里的順序形成反比例函數(shù).因此,出現(xiàn)次數(shù)最高的這個詞出現(xiàn)的次數(shù)大約是出現(xiàn)次數(shù)第二位的單詞的兩倍,而出現(xiàn)次數(shù)稍微減少的單詞則是出現(xiàn)次數(shù)第四位的某個詞的兩倍.這個發(fā)現(xiàn)被用來做所有與冪定律概率分布相關(guān)聯(lián)的數(shù)據(jù)的分析.舉個例子,在英語數(shù)據(jù)庫中,“the”是最經(jīng)常出現(xiàn)單詞,它在這個數(shù)據(jù)庫中出現(xiàn)了大概百分之七(每一百萬單詞中出現(xiàn)大約七萬次).正如齊夫定律中所說的一樣,出現(xiàn)頻率其次的單詞“of”占了整個數(shù)據(jù)庫中的百分之三點五(約四萬次),第三位的是“and”(約三萬次).僅僅一百三十多個單詞就占了英語數(shù)據(jù)庫的一半.齊夫定律是通過實踐得來的定律,而不是一個理論.齊夫定律可以在很多地方中被觀察到.齊夫分布的在現(xiàn)實中的起源一直沒有具體的令人信服的說法.齊夫定律可以用圖像來觀察,坐標(biāo)為(排名)和(頻率).比如,“the”這個單詞就可以描述為的點.如果所有的數(shù)據(jù)分布點幾乎是一條直線,那么它就符合齊夫定律.最容易明白的的例子是“”.如果有一些齊夫分布的數(shù)據(jù),以出現(xiàn)的頻率多少來排列,那么排在第二位的頻率會是第一位的一半,第三位則是第一位的三分之一,以此類推.然而,這并不非常精確,因為每一個項必須出現(xiàn)一個整數(shù)次數(shù),一個單詞不可能出現(xiàn)二點五次.但是,在一個較大區(qū)域內(nèi)而且做出合適的約算,很多自然的現(xiàn)象都可以用齊夫定律描述.1.4齊夫定律在信息管理中的表現(xiàn)巴塞羅那自治大學(xué)數(shù)學(xué)研究中心的研究者最近使用數(shù)學(xué)和統(tǒng)計學(xué)的專業(yè)知識,對齊夫定律進(jìn)行了嚴(yán)格的研究.該研究是對古登堡計劃(一個將沒有著作權(quán)的英文著作進(jìn)行電子化的網(wǎng)絡(luò)工程,里面有許多的資料可以無償使用)的數(shù)據(jù)進(jìn)行分析.這是一項非常大的試驗工程,因為在早先的工作中一般只會使用一百篇以內(nèi)的數(shù)據(jù)庫.而實驗結(jié)果顯示,假如不統(tǒng)計那些出現(xiàn)頻率非常低的詞語,有百分之五十五的數(shù)據(jù)是符合的,如果全部統(tǒng)計在內(nèi),適用齊夫定律的數(shù)據(jù)也還有百分之四十.而且據(jù)這項實驗的發(fā)言人所描述,假如把只出現(xiàn)了三次至五次的詞語也不計算在內(nèi),那么符合定律的數(shù)據(jù)數(shù)量會更加龐大.在自然語言中通過齊夫定律我們可以發(fā)現(xiàn),文章中詞語出現(xiàn)的次數(shù)和其排序等級呈反比例關(guān)系,即是說這兩個數(shù)的積是一個固定的數(shù).對式子兩邊求自然對數(shù)可知:如果我們對于統(tǒng)計數(shù)據(jù)數(shù)據(jù)結(jié)果繪制一個與的關(guān)系曲線,即可得到截距和斜率.在我國也有很多專家展開了對齊夫定律還有齊夫定律相關(guān)應(yīng)用的調(diào)研.就在前不久,江南大學(xué)的專家學(xué)者以諾貝爾文學(xué)獎得主莫言的作品《紅高粱》,《蛙》還有《透明的紅蘿卜》來做了一個研究調(diào)查,他們研究了莫言的作品中字?jǐn)?shù)出現(xiàn)次數(shù)和單詞出現(xiàn)頻率,得出了滿足齊夫定律的結(jié)論.他們的研究發(fā)現(xiàn)包括西班牙語、法語、英語等在內(nèi)的許多種類語言的成果是一樣的.這個數(shù)據(jù)從統(tǒng)計學(xué)這一方面說明了莫言可以成為中國大陸第一位獲諾獎文學(xué)獎的其中一個原因.在詞語出現(xiàn)次數(shù)的研究中,主要采用了兩種方法確定詞語等級:1)隨機(jī)法:齊夫第一定律在第一次被發(fā)現(xiàn)時,就是使用的隨機(jī)法.隨機(jī)法通俗來說就是在明確詞語的等級的過程中,如果出現(xiàn)頻率一樣的詞,那么就用統(tǒng)計文本中詞語的自然詞序或隨機(jī)詞序排列確定詞語的等級,這樣每個詞的等級就是它的自然或隨機(jī)詞序.例如詞序為第5-8的詞是同頻詞,那么它們的詞級隨機(jī)排列則是5,6,7,8.2)并列法:并列法是指把遇到的同頻詞并列為一個詞級,并延承上一個詞級例如詞序為第5-8的詞是同頻詞,那么它們的詞級就是5;若詞序為第9-12的詞也是同頻詞,那么這些詞的詞級則要延承上一個詞級成為6.分詞原則:(一)采用計算機(jī)來進(jìn)行自動分詞統(tǒng)計時,拿齊夫定律理論為根本,根據(jù)漢語自身的語言特點,參考《現(xiàn)代漢語詞典》目錄所給出的單詞語言的詞性,把保留詞語意思的完整無缺作為前提條件.(二)地名、人名等這些專有名詞要作為獨立的詞來進(jìn)行劃分.(三)統(tǒng)計時不計算標(biāo)點或者不是漢字的符號.如果對一份報告里面出現(xiàn)的字詞頻率與序號以及等級的數(shù)據(jù)進(jìn)行統(tǒng)計,就可以建立一個平面直角坐標(biāo)系,那么橫坐標(biāo)久表示這個詞的序號也就是等級,那么頻次就是縱坐標(biāo),那么就會得到一條曲線,這就是齊夫分布曲線,它類似于雙曲線的一半.然后我們再將等級序號與頻次都求得對數(shù)坐標(biāo),那么我們所說的齊夫規(guī)律,也就是齊夫分布對數(shù)曲線.如果符合這種類型的分布,那么就可以說是是齊夫分布.齊夫定律已經(jīng)在許多方面,例如語言、地理、經(jīng)濟(jì)、情報、信息科學(xué)、網(wǎng)絡(luò)方面有了廣泛的應(yīng)用,而且有了很多有實際意義的成果.齊夫定律作為一種數(shù)學(xué)統(tǒng)計工具,在詞語頻率的規(guī)律描述上作用很大,但還是有很多的改進(jìn)空間值得我么去探究.1.5馬太效應(yīng)的概念馬太效應(yīng)是在信息生產(chǎn)和分布中產(chǎn)生的一種規(guī)律,信息生產(chǎn)之后在時間和空間上傳遞時,可以形成優(yōu)勢與劣勢兩種情況.古時候的人將形成的這種優(yōu)勢與劣勢稱做信息分布里的馬太效應(yīng).馬太效應(yīng)這一詞語,來自于古代圣經(jīng)中《新約·馬太福音》這一篇文章中的“…誰如果有,就給他,并不斷增加;而誰沒有,就連已有的都要被奪走”.二十世紀(jì)六十年代,默頓--美國著名的社會學(xué)家,曾說:越有名的學(xué)者所發(fā)表的文章,越能人民所發(fā)現(xiàn)、所認(rèn)識、所重視,越能聚焦更多的學(xué)術(shù)資源,越能更容易的把握熱點、發(fā)表文章.這就是非常典型的一種馬太效應(yīng).馬太效應(yīng)實際上是在描述一種優(yōu)勢與劣勢的積累過程,一旦你處于比較優(yōu)勢的地位,這種優(yōu)勢便可以不斷增強(qiáng),變得更加優(yōu)勢;反之,如果你處于劣勢地位,這種不利地位也會隨意加深,達(dá)到更劣的程度.同時,馬太效應(yīng)也可以支配社會信息流,比如說,某些對象,它被選擇的次數(shù)是不一樣的,有的經(jīng)常被人們或者其他事物所選擇,有的卻不經(jīng)常被選擇,而這些都是這個對象或者事物的特征的表現(xiàn),同時這個特征又成為再次被選擇的依據(jù),從而就使信息分布與生產(chǎn)達(dá)到一種“富集”與“貧集”的情況.馬太效應(yīng)具有集中取向和核心趨勢兩個特點,集中取向是社會選擇的結(jié)果,因為某些對象或事物具有某些特征,而被他人所接受,所利用.比如說一首音樂,它的點擊率
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 波浪中船載液氫晃蕩機(jī)理研究
- SDGs背景下綠色農(nóng)產(chǎn)品消費行為影響機(jī)理研究
- 二零二五年度藥店藥品廣告宣傳合作協(xié)議
- 二零二五年度銷售人員勞動協(xié)議書(含團(tuán)隊協(xié)作與激勵措施)
- 2025年度二零二五年度診所護(hù)士專業(yè)成長聘用合同
- 二零二五年度退休返聘人員知識產(chǎn)權(quán)授權(quán)使用合同
- 二零二五年度電子商務(wù)平臺電子協(xié)議與支付安全合同
- 二零二五年度客戶關(guān)系管理系統(tǒng)軟件購銷合同
- 2025年度酒店客房裝飾裝修工程承攬合同
- 2025年度理發(fā)店入股及品牌形象設(shè)計合作書
- 2025年上半年江蘇連云港灌云縣招聘“鄉(xiāng)村振興專干”16人易考易錯模擬試題(共500題)試卷后附參考答案
- DB3301T 0382-2022 公共資源交易開評標(biāo)數(shù)字見證服務(wù)規(guī)范
- 人教版2024-2025學(xué)年八年級上學(xué)期數(shù)學(xué)期末壓軸題練習(xí)
- 江蘇省無錫市2023-2024學(xué)年八年級上學(xué)期期末數(shù)學(xué)試題(原卷版)
- 俄語版:中國文化概論之中國的傳統(tǒng)節(jié)日
- 2022年湖南省公務(wù)員錄用考試《申論》真題(縣鄉(xiāng)卷)及答案解析
- 婦科一病一品護(hù)理匯報
- 哪吒之魔童降世
- 2024年全國統(tǒng)一高考數(shù)學(xué)試卷(新高考Ⅱ)含答案
- 繪本《汪汪的生日派對》
- 助產(chǎn)護(hù)理畢業(yè)論文
評論
0/150
提交評論