基于語料庫的工作-2_第1頁
基于語料庫的工作-2_第2頁
基于語料庫的工作-2_第3頁
基于語料庫的工作-2_第4頁
基于語料庫的工作-2_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于語料庫的工作張宇*1中文信息處理--基于語料庫的工作大綱什么是語料庫語料庫的發(fā)展簡史語料庫建設(shè)中處理的問題數(shù)據(jù)標注2/1/2021中文信息處理--基于語料庫的工作2什么是語料庫語料庫,英文為Corpus存儲語言材料的倉庫現(xiàn)代的語料庫是指存放在計算機里的原始語料文本或經(jīng)過加工后帶有語言學(xué)信息標注的語料文本.2/1/2021中文信息處理--基于語料庫的工作3關(guān)于語料庫的三點基本認識語料庫中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎(chǔ)資源;真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源;2/1/2021中文信息處理--基于語料庫的工作4語料庫示例2/1/2021中文信息處理--基于語料庫的工作5北京大學(xué)計算語言所富士通人民日報標注語料庫樣例:歷史/n將/d銘記/v這個/r坐標/n:/w北緯/b41.1/m度/q、/w東經(jīng)/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時刻/n:/w1998年/t1月/t10日/t1

50分/t。/w……[中國/ns政府/n]nt順利/ad恢復(fù)/v對/p香港/ns行使/v主權(quán)/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩(wěn)定/an。/w語料庫的分類2/1/2021中文信息處理--基于語料庫的工作6生語料庫/熟語料庫生語料庫就是未經(jīng)加工的,沒有任何切分,標注標記的原始語料庫熟語料庫就是指經(jīng)過加工,帶有切分,標注標記的語料庫系統(tǒng)型語料庫/專用型語料庫系統(tǒng)型語料庫就是依據(jù)事先確定的選材原則和比例選取語料的語料庫專用型語料庫就是指專門服務(wù)于某個特定目的的語料庫單語種語料庫/多語種語料庫語料庫發(fā)展簡史第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代-)2/1/2021中文信息處理--基于語料庫的工作7第一代語料庫Brown語料庫LOB語料庫LLC語料庫百萬詞級以語言研究為導(dǎo)向2/1/2021中文信息處理--基于語料庫的工作8第二代語料庫COBUILD語料庫Longman語料庫千萬詞級詞典編纂-應(yīng)用導(dǎo)向2/1/2021中文信息處理--基于語料庫的工作9第三代語料庫ACL/DCI語料庫The

Association

forComputationalLinguisticsData

Collection

InitiativeUPenn樹庫LDC(

Linguistic

Data

Consortium

)超大規(guī)模(上億詞級)標準編碼體系深度標注/多語種NLP應(yīng)用2/1/2021中文信息處理--基于語料庫的工作10語料庫建設(shè)中處理的問題文本生文本標注文本語料庫建設(shè)中處理的問題低級格式問題標記化:什么是一個詞?詞法句子2/1/2021中文信息處理--基于語料庫的工作11低級格式問題垃圾格式由于語料庫的來源復(fù)雜,語料庫中可能存在無法處理的各種各樣的格式或內(nèi)容,他們是沒有用處的,需要過濾掉。文檔頁眉、分隔符、排版代碼、表和圖表如果數(shù)據(jù)來源于OCR,會引入錯誤識別的問題2/1/2021中文信息處理--基于語料庫的工作12低級格式問題大小寫the,The,THERichard

Brown

brown

paint識別句子中人名的啟發(fā)式方法把每個句子開頭的大寫字母轉(zhuǎn)換成小寫字母把一串連續(xù)大寫的詞當(dāng)作標題和副標題這樣,其余的大寫字母就可以認為是名字2/1/2021中文信息處理--基于語料庫的工作13標記化:什么是一個詞什么是詞前后有空格的連續(xù)字母組成的字符串,可以包含連字符和省略號,但是不能包含其它的標點符號。–

Kucera

and

Francis(1967)$22.50,Micro$oft,C|net2/1/2021中文信息處理--基于語料庫的工作14標記化:什么是一個詞句點大多數(shù)句點的作用是表明句子結(jié)束,其它情況表示縮寫,例如:etc.,Calif.。保留句點的意義Wash.(Washington)--

Washetc.出現(xiàn)在句子的末尾的時候,只保留一個句點,這個句點同時表示兩種意思。2/1/2021中文信息處理--基于語料庫的工作15標記化:什么是一個詞2/1/2021中文信息處理--基于語料庫的工作16單撇號I’m,isn’t

……I

am,is

notdog’s表示什么?dog

is,dog

has,還是所有格形式?詞末尾的單撇號如何處理??通常代表一對引號的結(jié)束,不是該詞的一部分如果它跟著一個s出現(xiàn)boys’

toys標記化:什么是一個詞2/1/2021中文信息處理--基于語料庫的工作17連字符:不同形式表示相同形式的詞–

帶有連字符的一串字母應(yīng)該看成一個詞還是兩個?(有時候是一個,有時候是兩個)?–一個,來源于排版印刷找到一行中最后的連字符,丟棄它,把本行的詞和下一行的連起來?e-mail,

co-operate連字符用于表示引用的短語或者數(shù)量、比率the

26-year-olddatabase,

data

base,

data-base破折號和詞語之間的空格標記化:什么是一個詞相同形式表示不同的“詞語”saw–工具saw–see的過去時2/1/2021中文信息處理--基于語料庫的工作18標記化:什么是一個詞其它語言中的分詞?–

中文、日文、泰文嚴守一把手機關(guān)上—嚴守一把手機關(guān)上–

德語中大多數(shù)的詞語有空格分割,但是復(fù)合名詞寫成單獨的詞Lebensversicherungsgesellschaftsangestellterdisk2/1/2021harddisk

hard19人身保險公司的雇員–

database

data

base中文信息處理--基于語料庫的工作標記化:什么是一個詞非詞語分界的空格data

base

database,

9365

1873

–93651873New

York,

San

Francisco如果和連字符一起出現(xiàn),問題就更加復(fù)雜了?the

New

York

New

Haven

Railroad–

習(xí)慣搭配形成的詞Work

out– I

couldn’t

work

the

answer

out.2/1/2021中文信息處理--基于語料庫的工作20標記化:什么是一個詞2/1/2021中文信息處理--基于語料庫的工作21電話號碼國家電話號碼國家0171

378

0647UK+45

43

48

60

60Denmark(44.171

830

1007)UK95-51-279648Pakistan+44

(0)

1225

753678UK+411/284

3797Switzerland01256

468661UK(94-1)

866854Sri

Lanka(202)

522-2239USA+49

69

136-2

98

05Germany1-925-225-3000USA33

1

34

43

32

36France212.995.5402USA++31-20-5200161The

Netherlands詞法詞干化去除詞綴只留詞干的過程operating-operate,

computing-compute詞干化的優(yōu)點對詞的各種變化形式進行歸類,減少了詞的數(shù)目意味著一定水平上的詞義消歧Lying—lie,

lay(臥倒)

lie,

lied(欺騙)2/1/2021中文信息處理--基于語料庫的工作22詞法2/1/2021中文信息處理--基于語料庫的工作23詞干化中的問題??–

詞干化會浪費一些信息operating

system—operate

systembusiness—busy–

詞法分析把詞切分成詞次,但是有的時候把密切相關(guān)的信息組合到一起是有意義的?––保衛(wèi)祖國—保衛(wèi)祖國公民有保衛(wèi)祖國,依法服兵役的義務(wù)保衛(wèi)社會主義建設(shè),戰(zhàn)斗在祖國邊疆及各個崗位上–英語中只有很少的詞態(tài),所以對其進行詞態(tài)處理不是很有必要。而其它語言中,進行詞態(tài)處理可能會有很大的意義?芬蘭語,每個動詞有百萬種變化形式句子2/1/2021中文信息處理--基于語料庫的工作24句子:以一個“?!?、“,”、“!”或者

“?”結(jié)尾的內(nèi)容。90%的情況都是這樣句子可能會被其它的分隔符號切分開(e.g.,:;--)句子的順序可能會被打亂?“You

should

be

here,”

she

said,

“before

I

knowit!”引號可能在句子的最后一個標點的后面識別句子的邊界,可以采用一些啟發(fā)式的方法,也有一些學(xué)者嘗試自動的方法來識別句子的邊界。啟發(fā)式的方法2/1/2021中文信息處理--基于語料庫的工作25在.?!(和可能的:;--)出現(xiàn)位置之后加一個假設(shè)的句子邊界如果假設(shè)邊界后面有引號,那么把假設(shè)邊界轉(zhuǎn)移到引號后面如果在句點之前是一個不縱出現(xiàn)在句子末尾的眾所周知的縮寫形式,而且通常后面會跟一個大寫的名字,例如:prof.如果句點前面是一個眾所周知的縮寫形式,但是句點后面沒有大寫詞。這樣即可正確地處理像etc.這樣的大多數(shù)縮寫用法,這些縮寫一般出現(xiàn)在句子的中間或者末尾如果下面的條件成立,則刪除?或者!的邊界資格這些符號后面跟著一個小寫字母(或者一個已知的名字)認為其它假設(shè)邊界就是句子的邊界自適應(yīng)的句子邊界檢測Dr.

J.

M.

Freeman

and

T.Boone

PickensJr.David

D.

Palmer,

Marti

A.

Hearst,Adaptive

Sentence

BoundaryDisambiguation,

Technical

Report,

97/94

,UC

Berkeley:

98-99%

correct2/1/2021中文信息處理--基于語料庫的工作26數(shù)據(jù)標注—標注方案2/1/2021中文信息處理--基于語料庫的工作27我們可以在普通文本的語料庫上做很多工作,在此之上,如果增加一些信息,那么會得到更多的東西句子的邊界,段落的邊界,……Lexical

tags句法結(jié)構(gòu)語義表達語義類別不同的標注方案COCOA

format(文本的頭信息,例如作者、時間、日期、題目等):使用尖括號,第一個字母表示某個域的主要語義通用標記語言SGML(related:HTML,TEI,XML)SGML例子2/1/2021中文信息處理--基于語料庫的工作28<p>

<s>

This

book

does

not

delve

very

deeply

intoSGML.

</s>

<s>

In

XML,

such

empty

elements

may

be

specifically

marked

by

ending

the

tag

name

with

aforward

slash

character.

</s></p><utt

speak=“Mary”,

date

=

“now”>

SGML

canbe

very

useful.

</utt>Character

and

Entity

codes:

begin

with

ampersandand

end

with

semicolonC

is

the

less

than

symbol→

<

is

the

less

than

symbolrésumé

rèsumè語法標注2/1/2021中文信息處理--基于語料庫的工作29?

Tagging

corresponds

to

indicating

the

variousconventional

parts

of

speech.

Tagging

can

be

doneautomatically

(we

will

talk

about

that

in

a

later

lecture).多種標注集,e.g.,Brown

Tag

Set,University

ofLancaster

Tag

Set,

Penn

Treebank

Tag

Set,

BritishNational

Corpus

(CLAWS*),

Czech

National

Corpus標注集的設(shè)計–

標注集的特征–Target

Features:useful

information

on

thegrammatical

class–

Predictive

Features:

useful

for

predicting

behavior

oother

words

in

context

(e.g.,

distinguish

modals

andauxiliary

verbs

from

regular

verbs)Pen

Treebank標注集2/1/2021中文信息處理--基于語料庫的工作30Adjective:

JJ,

JJR,JJSCardinal:

CDAdverb:

RB,

RBR,RBS,

WRBConjunction:

CC,IN

(subordinating

andthat)Determiner:

DT,PDT,

WDTNoun:

NN,

NNS,NNP,

NNPS

(nodistinction

foradverbial)Pronoun:

PRP,

PRP$,WP,

WP$,

EXVerb:

VB,

VBP,

VBZ,VBD,

VBG,

VBN

(have,

be,and

do

are

notdistinguished)Infinitive

marker

(to)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論