版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
基于語料庫的工作張宇*1中文信息處理--基于語料庫的工作大綱什么是語料庫語料庫的發(fā)展簡史語料庫建設(shè)中處理的問題數(shù)據(jù)標注2/1/2021中文信息處理--基于語料庫的工作2什么是語料庫語料庫,英文為Corpus存儲語言材料的倉庫現(xiàn)代的語料庫是指存放在計算機里的原始語料文本或經(jīng)過加工后帶有語言學(xué)信息標注的語料文本.2/1/2021中文信息處理--基于語料庫的工作3關(guān)于語料庫的三點基本認識語料庫中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎(chǔ)資源;真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源;2/1/2021中文信息處理--基于語料庫的工作4語料庫示例2/1/2021中文信息處理--基于語料庫的工作5北京大學(xué)計算語言所富士通人民日報標注語料庫樣例:歷史/n將/d銘記/v這個/r坐標/n:/w北緯/b41.1/m度/q、/w東經(jīng)/b114.3/m度/q;/w人們/n將/d銘記/v這/r一/m時刻/n:/w1998年/t1月/t10日/t1
50分/t。/w……[中國/ns政府/n]nt順利/ad恢復(fù)/v對/p香港/ns行使/v主權(quán)/n,/w并/c按照/p“/w一國兩制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方針/n保持/v香港/ns的/u繁榮/an穩(wěn)定/an。/w語料庫的分類2/1/2021中文信息處理--基于語料庫的工作6生語料庫/熟語料庫生語料庫就是未經(jīng)加工的,沒有任何切分,標注標記的原始語料庫熟語料庫就是指經(jīng)過加工,帶有切分,標注標記的語料庫系統(tǒng)型語料庫/專用型語料庫系統(tǒng)型語料庫就是依據(jù)事先確定的選材原則和比例選取語料的語料庫專用型語料庫就是指專門服務(wù)于某個特定目的的語料庫單語種語料庫/多語種語料庫語料庫發(fā)展簡史第一代(1970-80年代)第二代(1980-90年代)第三代(1990年代-)2/1/2021中文信息處理--基于語料庫的工作7第一代語料庫Brown語料庫LOB語料庫LLC語料庫百萬詞級以語言研究為導(dǎo)向2/1/2021中文信息處理--基于語料庫的工作8第二代語料庫COBUILD語料庫Longman語料庫千萬詞級詞典編纂-應(yīng)用導(dǎo)向2/1/2021中文信息處理--基于語料庫的工作9第三代語料庫ACL/DCI語料庫The
Association
forComputationalLinguisticsData
Collection
InitiativeUPenn樹庫LDC(
Linguistic
Data
Consortium
)超大規(guī)模(上億詞級)標準編碼體系深度標注/多語種NLP應(yīng)用2/1/2021中文信息處理--基于語料庫的工作10語料庫建設(shè)中處理的問題文本生文本標注文本語料庫建設(shè)中處理的問題低級格式問題標記化:什么是一個詞?詞法句子2/1/2021中文信息處理--基于語料庫的工作11低級格式問題垃圾格式由于語料庫的來源復(fù)雜,語料庫中可能存在無法處理的各種各樣的格式或內(nèi)容,他們是沒有用處的,需要過濾掉。文檔頁眉、分隔符、排版代碼、表和圖表如果數(shù)據(jù)來源于OCR,會引入錯誤識別的問題2/1/2021中文信息處理--基于語料庫的工作12低級格式問題大小寫the,The,THERichard
Brown
brown
paint識別句子中人名的啟發(fā)式方法把每個句子開頭的大寫字母轉(zhuǎn)換成小寫字母把一串連續(xù)大寫的詞當(dāng)作標題和副標題這樣,其余的大寫字母就可以認為是名字2/1/2021中文信息處理--基于語料庫的工作13標記化:什么是一個詞什么是詞前后有空格的連續(xù)字母組成的字符串,可以包含連字符和省略號,但是不能包含其它的標點符號。–
Kucera
and
Francis(1967)$22.50,Micro$oft,C|net2/1/2021中文信息處理--基于語料庫的工作14標記化:什么是一個詞句點大多數(shù)句點的作用是表明句子結(jié)束,其它情況表示縮寫,例如:etc.,Calif.。保留句點的意義Wash.(Washington)--
Washetc.出現(xiàn)在句子的末尾的時候,只保留一個句點,這個句點同時表示兩種意思。2/1/2021中文信息處理--基于語料庫的工作15標記化:什么是一個詞2/1/2021中文信息處理--基于語料庫的工作16單撇號I’m,isn’t
……I
am,is
notdog’s表示什么?dog
is,dog
has,還是所有格形式?詞末尾的單撇號如何處理??通常代表一對引號的結(jié)束,不是該詞的一部分如果它跟著一個s出現(xiàn)boys’
toys標記化:什么是一個詞2/1/2021中文信息處理--基于語料庫的工作17連字符:不同形式表示相同形式的詞–
帶有連字符的一串字母應(yīng)該看成一個詞還是兩個?(有時候是一個,有時候是兩個)?–一個,來源于排版印刷找到一行中最后的連字符,丟棄它,把本行的詞和下一行的連起來?e-mail,
co-operate連字符用于表示引用的短語或者數(shù)量、比率the
26-year-olddatabase,
data
base,
data-base破折號和詞語之間的空格標記化:什么是一個詞相同形式表示不同的“詞語”saw–工具saw–see的過去時2/1/2021中文信息處理--基于語料庫的工作18標記化:什么是一個詞其它語言中的分詞?–
中文、日文、泰文嚴守一把手機關(guān)上—嚴守一把手機關(guān)上–
德語中大多數(shù)的詞語有空格分割,但是復(fù)合名詞寫成單獨的詞Lebensversicherungsgesellschaftsangestellterdisk2/1/2021harddisk
–
hard19人身保險公司的雇員–
database
–
data
base中文信息處理--基于語料庫的工作標記化:什么是一個詞非詞語分界的空格data
base
–
database,
9365
1873
–93651873New
York,
San
Francisco如果和連字符一起出現(xiàn),問題就更加復(fù)雜了?the
New
York
–
New
Haven
Railroad–
習(xí)慣搭配形成的詞Work
out– I
couldn’t
work
the
answer
out.2/1/2021中文信息處理--基于語料庫的工作20標記化:什么是一個詞2/1/2021中文信息處理--基于語料庫的工作21電話號碼國家電話號碼國家0171
378
0647UK+45
43
48
60
60Denmark(44.171
830
1007)UK95-51-279648Pakistan+44
(0)
1225
753678UK+411/284
3797Switzerland01256
468661UK(94-1)
866854Sri
Lanka(202)
522-2239USA+49
69
136-2
98
05Germany1-925-225-3000USA33
1
34
43
32
36France212.995.5402USA++31-20-5200161The
Netherlands詞法詞干化去除詞綴只留詞干的過程operating-operate,
computing-compute詞干化的優(yōu)點對詞的各種變化形式進行歸類,減少了詞的數(shù)目意味著一定水平上的詞義消歧Lying—lie,
lay(臥倒)
lie,
lied(欺騙)2/1/2021中文信息處理--基于語料庫的工作22詞法2/1/2021中文信息處理--基于語料庫的工作23詞干化中的問題??–
詞干化會浪費一些信息operating
system—operate
systembusiness—busy–
詞法分析把詞切分成詞次,但是有的時候把密切相關(guān)的信息組合到一起是有意義的?––保衛(wèi)祖國—保衛(wèi)祖國公民有保衛(wèi)祖國,依法服兵役的義務(wù)保衛(wèi)社會主義建設(shè),戰(zhàn)斗在祖國邊疆及各個崗位上–英語中只有很少的詞態(tài),所以對其進行詞態(tài)處理不是很有必要。而其它語言中,進行詞態(tài)處理可能會有很大的意義?芬蘭語,每個動詞有百萬種變化形式句子2/1/2021中文信息處理--基于語料庫的工作24句子:以一個“?!?、“,”、“!”或者
“?”結(jié)尾的內(nèi)容。90%的情況都是這樣句子可能會被其它的分隔符號切分開(e.g.,:;--)句子的順序可能會被打亂?“You
should
be
here,”
she
said,
“before
I
knowit!”引號可能在句子的最后一個標點的后面識別句子的邊界,可以采用一些啟發(fā)式的方法,也有一些學(xué)者嘗試自動的方法來識別句子的邊界。啟發(fā)式的方法2/1/2021中文信息處理--基于語料庫的工作25在.?!(和可能的:;--)出現(xiàn)位置之后加一個假設(shè)的句子邊界如果假設(shè)邊界后面有引號,那么把假設(shè)邊界轉(zhuǎn)移到引號后面如果在句點之前是一個不縱出現(xiàn)在句子末尾的眾所周知的縮寫形式,而且通常后面會跟一個大寫的名字,例如:prof.如果句點前面是一個眾所周知的縮寫形式,但是句點后面沒有大寫詞。這樣即可正確地處理像etc.這樣的大多數(shù)縮寫用法,這些縮寫一般出現(xiàn)在句子的中間或者末尾如果下面的條件成立,則刪除?或者!的邊界資格這些符號后面跟著一個小寫字母(或者一個已知的名字)認為其它假設(shè)邊界就是句子的邊界自適應(yīng)的句子邊界檢測Dr.
J.
M.
Freeman
and
T.Boone
PickensJr.David
D.
Palmer,
Marti
A.
Hearst,Adaptive
Sentence
BoundaryDisambiguation,
Technical
Report,
97/94
,UC
Berkeley:
98-99%
correct2/1/2021中文信息處理--基于語料庫的工作26數(shù)據(jù)標注—標注方案2/1/2021中文信息處理--基于語料庫的工作27我們可以在普通文本的語料庫上做很多工作,在此之上,如果增加一些信息,那么會得到更多的東西句子的邊界,段落的邊界,……Lexical
tags句法結(jié)構(gòu)語義表達語義類別不同的標注方案COCOA
format(文本的頭信息,例如作者、時間、日期、題目等):使用尖括號,第一個字母表示某個域的主要語義通用標記語言SGML(related:HTML,TEI,XML)SGML例子2/1/2021中文信息處理--基于語料庫的工作28<p>
<s>
This
book
does
not
delve
very
deeply
intoSGML.
</s>
…
<s>
In
XML,
such
empty
elements
may
be
specifically
marked
by
ending
the
tag
name
with
aforward
slash
character.
</s></p><utt
speak=“Mary”,
date
=
“now”>
SGML
canbe
very
useful.
</utt>Character
and
Entity
codes:
begin
with
ampersandand
end
with
semicolonC
is
the
less
than
symbol→
<
is
the
less
than
symbolrésumé
→
rèsumè語法標注2/1/2021中文信息處理--基于語料庫的工作29?
Tagging
corresponds
to
indicating
the
variousconventional
parts
of
speech.
Tagging
can
be
doneautomatically
(we
will
talk
about
that
in
a
later
lecture).多種標注集,e.g.,Brown
Tag
Set,University
ofLancaster
Tag
Set,
Penn
Treebank
Tag
Set,
BritishNational
Corpus
(CLAWS*),
Czech
National
Corpus標注集的設(shè)計–
標注集的特征–Target
Features:useful
information
on
thegrammatical
class–
Predictive
Features:
useful
for
predicting
behavior
oother
words
in
context
(e.g.,
distinguish
modals
andauxiliary
verbs
from
regular
verbs)Pen
Treebank標注集2/1/2021中文信息處理--基于語料庫的工作30Adjective:
JJ,
JJR,JJSCardinal:
CDAdverb:
RB,
RBR,RBS,
WRBConjunction:
CC,IN
(subordinating
andthat)Determiner:
DT,PDT,
WDTNoun:
NN,
NNS,NNP,
NNPS
(nodistinction
foradverbial)Pronoun:
PRP,
PRP$,WP,
WP$,
EXVerb:
VB,
VBP,
VBZ,VBD,
VBG,
VBN
(have,
be,and
do
are
notdistinguished)Infinitive
marker
(to)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2030年中國入境游行業(yè)經(jīng)營管理策略與投資風(fēng)險預(yù)警研究報告
- 2024-2030年中國光伏背板行業(yè)市場深度調(diào)研及發(fā)展前景與投資戰(zhàn)略研究報告
- 2024-2030年中國兒童環(huán)保漆市場銷售模式及發(fā)展前景分析研究報告
- 2024-2030年中國健身腰帶行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2024-2030年中國保險箱行業(yè)市場運行分析及發(fā)展前景與投資研究報告
- 2024-2030年中國便攜式分析儀行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2024-2030年中國體聲波傳感器行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2024-2030年中國休閑皮劃艇行業(yè)營銷策略建議與未來發(fā)展趨勢研究報告
- 2024-2030年中國五金嬰兒門行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2024-2030年中國中草藥沐浴露市場營銷戰(zhàn)略分析及競爭格局展望研究報告
- 小學(xué)生美術(shù)課件-第2課-蔬菜蘇少版-(共18張PPT)ppt課件
- 安全與生產(chǎn)的關(guān)系
- 圖紙會審紀要封面(可蓋章)
- 與大眾汽車公司有關(guān)的德語詞匯
- 縣煙草專賣局(分公司)市管員、客戶經(jīng)理、配送員聯(lián)動工作機制
- 《小兒推拿》PPT課件(完整版)
- 煙氣混合計算程序[共3頁]
- 10以內(nèi)帶括號加減法(精華版)
- 新版不動產(chǎn)權(quán)證英文翻譯模板.doc
- 古典吉他譜《回憶組曲》五個樂章
- (完整版)Be-going-to-專項練習(xí)
評論
0/150
提交評論