信息計量學課件09-第5章_第1頁
信息計量學課件09-第5章_第2頁
信息計量學課件09-第5章_第3頁
信息計量學課件09-第5章_第4頁
信息計量學課件09-第5章_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

信息計量學

鄭重——第五章齊普夫定律15.1齊普夫定律的形成(I)爭論對象:詞頻,即某一個單詞在文章或講話中消失的次數(shù)?!病跋鄬Υ螖?shù)”或“確定次數(shù)”〕“齊普夫定律”——“文獻中的詞頻分布規(guī)律”1932年,哈佛大學的語言學專家齊普夫在爭論英文單詞消失的頻率時,覺察假設(shè)把單詞消失的頻率按由大到小的挨次排列,則每個單詞消失的頻率與它的名次的常數(shù)次冪存在簡潔的反比關(guān)系,這種分布就稱為齊普夫定律。它說明在英語單詞中,只有極少數(shù)的詞被常常使用,而絕大多數(shù)詞很少被使用。實際上,包括漢語在內(nèi)的很多國家的語言都有這種特點。2喬治·齊普夫(GeorgeZipf)指出,使用最多的英語單詞“the”占到了人們?nèi)繒捔康?%,排名其次的“of”的使用頻率正好是“the”的一半,依此類推,第100個最常用單詞的使用頻率是“the”的百分之一。齊普夫定律示意,在任何序列中,后繼者的價值會定量地削減。3早期爭論:1898年,[德],編寫了世界上第一部頻率詞典——《德語頻率詞典》;5.1齊普夫定律的形成(II)兩個數(shù)量指標:“詞的〔降序〕序號r”和“詞頻nr”1916年,[法]J.Estoup,覺察了在較長的文章中“詞頻nr”和“詞序r”之間存在肯定的規(guī)律;r×nr=K〔K為常數(shù)〕1928年,[美]E.Condon,覺察了“詞的相對頻率fr”和“詞序r”滿足以下關(guān)系;fr=Cr-1〔fr=nr/N〕C為常數(shù)嗎?4湯姆?索耶中的齊夫定律

〔Zipf’sLawinTomSawye〕

單詞〔word〕頻率〔Freq.(f)〕排名〔Rank(r)〕f?r

the333213332

and297225944

a177535235

he877108770

but410208400

be294308820

there222408880

one172508600

about158609480

never124809920

Oh1169010440

55.1齊普夫定律的形成(III)齊普夫(GeorgeKingslyeZipf)的爭論:1935年,出版《動態(tài)語言學導論》,對詞頻分布規(guī)律進展了系統(tǒng)爭論,初步確立了“齊普夫定律”。1949年,出版《人類行為與最省力法則——人類生態(tài)學引論》,系統(tǒng)論述了“最省力法則”,奠定了“齊普夫定律”的理論根底,標志著該定律正式形成。爭論樣本:M.Hanley為《Ulysses》所編撰的頻率詞典。65.2齊普夫定律的根本內(nèi)容5.2.1齊普夫第肯定律5.2.2朱斯的雙參數(shù)公式75.2.1齊普夫第肯定律(I)文字表述:設(shè)有一篇文獻包含N個詞〔N≥5000〕,統(tǒng)計其中每個詞消失的頻次Fr,依據(jù)頻次遞減的挨次排列,并用自然數(shù)給這些詞編上等級序號r〔L≥r≥1〕,則:

Fr×r=C〔齊普夫公式一〕或者

fr=c×r-1〔齊普夫公式二〕其中:fr=Fr/N,c=C/N參數(shù)c的性質(zhì):c等于“最高頻詞的相對頻率”;一個與文獻性質(zhì)有關(guān)的參數(shù),且0<C<0.1

。由可得:;85.2.1齊普夫第肯定律(II)圖像:“齊普夫分布曲線”:負冪曲線〔雙曲線〕“齊普夫分布對數(shù)曲線”:直線〔斜率為-1〕95.2.2朱斯的雙參數(shù)公式1936年,[美]M.Joos,對“齊普夫公式”進展修正,提出了“雙參數(shù)詞頻分布公式”:

〔b>0〕“齊普夫公式”是“朱斯公式”的一種特殊狀況?!瞓=1〕105.3齊普夫定律的機理分析(I)最省力法則〔thePrincipleofLeastEffort〕定義:一個人在解決面臨的問題時,將盡量使自己付出的“力”最小。根本性質(zhì):“力”而是一種多種因素共同作用的總體代價,與問題的具體狀況有關(guān)?!白钍×Α笔菐в兄饔^涵義的,與決策主體有關(guān)。在各種人為選擇中,人們都自覺或不自覺地共同遵循“最省力法則”。其他名稱:最小功原則、最小努力原則、……11他認為,在語言溝通過程中,“省力法則”同時表達在說話人和聽話人身上。說話人希望組成語言的詞少,而且一詞多義,以節(jié)省其精力。聽話人認為最好是一詞一義,使聽到的詞與其準確涵義簡潔匹配,削減他理解的功夫。這2種節(jié)省精力的傾向最終平衡的結(jié)果,便是詞頻的雙曲線型分布。125.3齊普夫定律的機理分析(II)“最省力法則”與“詞頻分布規(guī)律”“作者”“讀者”“單一化的力”:只用一個詞就可以表達全部概念為“最省力”;“多樣化的力”:每個概念都用一個不同的詞來表達為“最省力”;在“單一化的力”和“多樣化的力”的共同作用下,文獻中的詞頻分布滿足“齊普夫分布規(guī)律”。135.4齊普夫定律的應用(I)信息治理領(lǐng)域:圖書館學、情報學、文獻學、科技治理等。其他社會科學領(lǐng)域:語言學、科學學、經(jīng)濟學、社會學等。在文獻標引和詞表編制中的應用;在情報檢索中的應用;在科學評價中的應用。145.4齊普夫定律的應用(II)在文獻標引和詞表編制中的應用詞表編制依據(jù)齊普夫定律,可以使詞表的編制有規(guī)律可循并建立在科學方法的根底之上,把詞匯掌握在一個恰當?shù)姆秶?,從而提高詞表的質(zhì)量。自動標引定義:用計算機處理原文信息,將待處理的原文輸入系統(tǒng)后,通過程序掌握對每個詞的頻率進展統(tǒng)計分析,篩選出適于標引的詞進展標引;或者與一個特定的分類體系比較,進展分類處理。1958年,[美],提出了基于“詞頻統(tǒng)計”的自動標引方法:依據(jù)齊普夫定律,可以選用詞頻適當、功能較強、最能代表文獻內(nèi)容的詞來進展標引。155.4齊普夫定律的應用(III)在情報檢索中的應用倒排檔〔invertedfile〕:把文獻記錄中一切可檢字段或?qū)傩灾党槌觯罁?jù)某種挨次重新加以組織后所得到的一種文檔。依據(jù)齊普夫定律,可以估算文獻數(shù)據(jù)庫所需的存儲量,使得“倒排檔”的建立有規(guī)律可循,從而更合理地組織情報檢索文檔。165.4齊普夫定律的應用(IV)在科學評價中的應用依據(jù)齊普夫定律,通過詞頻分析方法,來分析一個學科領(lǐng)域的爭論現(xiàn)狀和將來的進展方向。實例:1、加拿大蒙特利爾大學的納米科技爭論與進展報告

〔課本p152〕2、2023年國內(nèi)外情報學進展動向分析

〔課本p154〕175齊普夫定律5.1齊普夫定律的形成5.2齊普夫定律的根本內(nèi)容5.3齊普夫定律的機理分析5.4齊普夫定律的應用18案例爭論Twitter是國外的一個社交網(wǎng)絡(luò)及微博客效勞的網(wǎng)站,它利用無線網(wǎng)絡(luò),有線網(wǎng)絡(luò),通信技術(shù),進展即時通訊,是微博客的典型應用。它允許用戶將自己的最新動態(tài)和想法以短信息的形式發(fā)送給手機和共性化網(wǎng)站群,而不僅僅是發(fā)送給個人。2023年,博客技術(shù)先驅(qū)blogger創(chuàng)始人埃文·威廉姆斯(EvanWilliams)創(chuàng)立的新興公司Obvious推出了大圍脖效勞。在最初階段,這項效勞只是用于向好友的手機發(fā)送文本信息。2023年底,Obvious對效勞進展了升級,用戶無需輸入自己的手機號碼,而可以通過即時信息效勞和共性化Twitter網(wǎng)站接收和發(fā)送信息。19

梅特卡夫定律網(wǎng)絡(luò)的有用性〔價值〕隨著用戶數(shù)量的平方數(shù)增加而增加。換句話說,某種網(wǎng)絡(luò),比方的價值隨著使用用戶數(shù)量的增加而增加?!?50定律〔鄧巴數(shù)字〕”該定律指出,人類智力將允許人類擁有穩(wěn)定社交網(wǎng)絡(luò)的人數(shù)是148人,四舍五入大約是150人。該定律由羅賓·鄧巴〔RobinDunbar〕提出,羅

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論