自然語言處理:文本預(yù)處理:機器翻譯預(yù)處理_第1頁
自然語言處理:文本預(yù)處理:機器翻譯預(yù)處理_第2頁
自然語言處理:文本預(yù)處理:機器翻譯預(yù)處理_第3頁
自然語言處理:文本預(yù)處理:機器翻譯預(yù)處理_第4頁
自然語言處理:文本預(yù)處理:機器翻譯預(yù)處理_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

自然語言處理:文本預(yù)處理:機器翻譯預(yù)處理1自然語言處理簡介1.1NLP的基本概念自然語言處理(NaturalLanguageProcessing,簡稱NLP)是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究如何處理和運用自然語言;自然語言認(rèn)知則是指讓計算機“懂”人類的語言。NLP建立于20世紀(jì)50年代,隨著計算機技術(shù)的飛速發(fā)展,NLP技術(shù)在信息檢索、文本挖掘、自動文摘、情感分析、機器翻譯、問答系統(tǒng)、語音識別、語音合成等眾多領(lǐng)域得到了廣泛的應(yīng)用。1.1.1詞法分析詞法分析是NLP的基礎(chǔ),它包括分詞、詞性標(biāo)注、命名實體識別等。例如,使用Python的jieba庫進(jìn)行中文分詞:importjieba

sentence="自然語言處理在機器翻譯中扮演著重要角色。"

words=jieba.lcut(sentence)

print(words)1.1.2句法分析句法分析主要涉及依存關(guān)系分析和成分結(jié)構(gòu)分析,用于理解句子的結(jié)構(gòu)。例如,使用spaCy庫進(jìn)行英文句法分析:importspacy

nlp=spacy.load('en_core_web_sm')

doc=nlp("Naturallanguageprocessingplaysacrucialroleinmachinetranslation.")

fortokenindoc:

print(token.text,token.dep_,token.head.text)1.1.3語義分析語義分析旨在理解文本的深層含義,包括詞義消歧、語義角色標(biāo)注等。例如,使用NLTK庫進(jìn)行英文語義角色標(biāo)注:fromnltkimportsem

sentence="JohngaveMaryabook."

result=sem.relextract(sentence)

print(result)1.2NLP在機器翻譯中的應(yīng)用機器翻譯(MachineTranslation,簡稱MT)是NLP領(lǐng)域的一個重要應(yīng)用,它旨在將一種語言的文本自動轉(zhuǎn)換為另一種語言的文本。機器翻譯的預(yù)處理階段對于提高翻譯質(zhì)量至關(guān)重要,包括文本清洗、分詞、詞性標(biāo)注、命名實體識別等步驟。1.2.1文本清洗文本清洗是預(yù)處理的第一步,用于去除文本中的噪聲,如HTML標(biāo)簽、特殊字符等。例如,使用Python的BeautifulSoup庫去除HTML標(biāo)簽:frombs4importBeautifulSoup

html_text="<p>Naturallanguageprocessingisfascinating.</p>"

clean_text=BeautifulSoup(html_text,'html.parser').get_text()

print(clean_text)1.2.2分詞與詞性標(biāo)注分詞和詞性標(biāo)注是機器翻譯預(yù)處理的關(guān)鍵步驟,它們幫助模型理解文本的基本組成和語法結(jié)構(gòu)。例如,使用spaCy庫進(jìn)行英文分詞和詞性標(biāo)注:importspacy

nlp=spacy.load('en_core_web_sm')

doc=nlp("Naturallanguageprocessingisfascinating.")

fortokenindoc:

print(token.text,token.pos_)1.2.3命名實體識別命名實體識別(NamedEntityRecognition,簡稱NER)用于識別文本中的實體,如人名、地名、組織名等。這對于機器翻譯的準(zhǔn)確性和流暢性至關(guān)重要。例如,使用spaCy庫進(jìn)行英文命名實體識別:importspacy

nlp=spacy.load('en_core_web_sm')

doc=nlp("AppleislookingatbuyingU.K.startupfor$1billion.")

forentindoc.ents:

print(ent.text,ent.label_)1.2.4平行語料庫構(gòu)建平行語料庫是機器翻譯訓(xùn)練的基礎(chǔ),它由源語言和目標(biāo)語言的對應(yīng)文本組成。構(gòu)建高質(zhì)量的平行語料庫是提高機器翻譯性能的關(guān)鍵。例如,從雙語對照的文本中構(gòu)建平行語料庫:source_text="自然語言處理是計算機科學(xué)的一個分支。"

target_text="Naturallanguageprocessingisabranchofcomputerscience."

#假設(shè)我們有一個函數(shù)用于存儲平行語料庫

defstore_parallel_corpus(source,target):

#存儲到數(shù)據(jù)庫或文件中

pass

store_parallel_corpus(source_text,target_text)1.2.5對齊與預(yù)訓(xùn)練對齊是將源語言和目標(biāo)語言的句子進(jìn)行匹配,確保它們在語義上的一致性。預(yù)訓(xùn)練則是使用大規(guī)模語料庫對模型進(jìn)行初步訓(xùn)練,以提高其初始性能。例如,使用fastText進(jìn)行詞向量預(yù)訓(xùn)練:fromgensim.modelsimportFastText

#假設(shè)我們有一份語料庫

sentences=[["自然","語言","處理"],["是","計算機","科學(xué)","的","一個","分支"]]

model=FastText(sentences,size=100,window=5,min_count=1,workers=4)1.2.6翻譯模型訓(xùn)練訓(xùn)練翻譯模型是機器翻譯的核心步驟,常見的模型包括基于規(guī)則的模型、統(tǒng)計機器翻譯模型和神經(jīng)機器翻譯模型。例如,使用OpenNMT訓(xùn)練神經(jīng)機器翻譯模型:#假設(shè)我們已經(jīng)準(zhǔn)備好了訓(xùn)練數(shù)據(jù)

#訓(xùn)練模型

onmt_train-datadata/-savemodel/-layers2-rnn_size500-word_vec_size500-batch_size64-learning_rate0.0011.2.7后處理與評估后處理包括對翻譯結(jié)果的修正和優(yōu)化,如去噪、重新排序等。評估則是通過BLEU、TER等指標(biāo)來衡量翻譯質(zhì)量。例如,使用nltk庫計算BLEU得分:fromnltk.translate.bleu_scoreimportsentence_bleu

reference=["自然","語言","處理","是","計算機","科學(xué)","的","一個","分支"]

candidate=["自然","語言","處理","是","計算機","科學(xué)","的","一個","領(lǐng)域"]

score=sentence_bleu([reference],candidate)

print(score)通過以上步驟,我們可以構(gòu)建一個基本的機器翻譯系統(tǒng),從文本預(yù)處理到模型訓(xùn)練,再到后處理和評估,每個環(huán)節(jié)都對最終的翻譯質(zhì)量有著直接的影響。在實際應(yīng)用中,還需要根據(jù)具體場景和需求,不斷優(yōu)化和調(diào)整預(yù)處理和模型訓(xùn)練的策略,以達(dá)到最佳的翻譯效果。2文本預(yù)處理基礎(chǔ)2.1文本清洗文本清洗是自然語言處理(NLP)中一個至關(guān)重要的步驟,它旨在去除文本中的噪聲,如HTML標(biāo)簽、特殊字符、數(shù)字、停用詞等,以提高后續(xù)處理步驟的效率和準(zhǔn)確性。下面,我們將通過一個具體的例子來展示如何進(jìn)行文本清洗。假設(shè)我們有以下一段文本:這是一段包含HTML標(biāo)簽的文本,<b>它</b>需要被清洗。此外,文本中還包含一些特殊字符,如:@、#、$、%、^、&、*、(、)、-、=、+、[、]、{、}、|、\、:、;、"、'、<、>、,、.、/、?、!、~、`、。2.1.1Python代碼示例我們將使用Python的re模塊來清洗這段文本,去除HTML標(biāo)簽和特殊字符。importre

#原始文本

text="這是一段包含HTML標(biāo)簽的文本,<b>它</b>需要被清洗。此外,文本中還包含一些特殊字符,如:@、#、$、%、^、&、*、(、)、-、=、+、[、]、{、}、|、\\、:、;、\"、'、<、>、,、.、/、?、!、~、`、。"

#去除HTML標(biāo)簽

text_no_html=re.sub(r'<[^>]+>','',text)

#去除特殊字符

text_cleaned=re.sub(r'[^\w\s]','',text_no_html)

#輸出清洗后的文本

print(text_cleaned)2.1.2代碼解釋re.sub(r'<[^>]+>','',text):使用正則表達(dá)式<[^>]+>來匹配并替換所有HTML標(biāo)簽。<[^>]+>表示匹配任何以<開始,以>結(jié)束的字符串,其中[^>]表示除了>之外的任何字符,+表示一個或多個這樣的字符。re.sub(r'[^\w\s]','',text_no_html):進(jìn)一步清洗文本,去除所有非字母數(shù)字和非空白字符。[^\w\s]表示匹配任何不是字母、數(shù)字或空白字符的字符。2.2分詞與詞性標(biāo)注分詞是將連續(xù)的文本切分成獨立的詞匯單元的過程,而詞性標(biāo)注則是為每個詞匯單元標(biāo)注其在句子中的語法角色。在中文NLP中,分詞尤為重要,因為中文沒有像英文那樣的空格來自然地分隔單詞。2.2.1Python代碼示例我們將使用jieba庫進(jìn)行中文分詞,并使用hanlp庫進(jìn)行詞性標(biāo)注。importjieba

frompyhanlpimport*

#原始文本

text="這是一段中文文本,用于演示分詞和詞性標(biāo)注。"

#使用jieba進(jìn)行分詞

words=jieba.cut(text)

#使用hanlp進(jìn)行詞性標(biāo)注

tagged_words=HanLP.tagCC(words)

#輸出分詞和詞性標(biāo)注結(jié)果

forword,tagintagged_words:

print(f"{word}/{tag}")2.2.2代碼解釋jieba.cut(text):使用jieba庫的cut函數(shù)對文本進(jìn)行分詞,返回一個可迭代的詞匯列表。HanLP.tagCC(words):使用hanlp庫的tagCC函數(shù)對分詞后的結(jié)果進(jìn)行詞性標(biāo)注,返回一個包含詞匯和其對應(yīng)詞性的元組列表。forword,tagintagged_words::遍歷標(biāo)注后的詞匯列表,打印每個詞匯及其詞性。2.2.3數(shù)據(jù)樣例輸出這/r

是/v

一/m

段/q

中文/n

文本/n

,/w

用于/v

演示/v

分詞/v

和/c

詞性/n

標(biāo)注/v

。/w在這個輸出中,/后面跟著的字母表示詞性,例如r表示代詞,v表示動詞,m表示數(shù)詞,q表示量詞,n表示名詞,w表示標(biāo)點符號。通過分詞和詞性標(biāo)注,我們可以更好地理解文本的結(jié)構(gòu)和含義,為后續(xù)的自然語言處理任務(wù),如機器翻譯,提供更準(zhǔn)確的輸入。3機器翻譯預(yù)處理技術(shù)3.1語言模型與詞嵌入3.1.1原理語言模型是自然語言處理中用于預(yù)測給定上下文下一個詞出現(xiàn)概率的模型。在機器翻譯預(yù)處理中,語言模型幫助理解源語言和目標(biāo)語言的語法結(jié)構(gòu)和詞序,從而提高翻譯質(zhì)量。詞嵌入是將詞匯轉(zhuǎn)換為向量表示的技術(shù),這些向量能夠捕捉詞與詞之間的語義和語法關(guān)系。詞嵌入在機器翻譯中用于將文本轉(zhuǎn)換為機器可以處理的數(shù)值形式,同時保留語義信息。3.1.2內(nèi)容3.1.2.1語言模型N-gram模型:基于統(tǒng)計的模型,預(yù)測下一個詞的概率基于前N-1個詞。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN):利用神經(jīng)網(wǎng)絡(luò)處理序列數(shù)據(jù),能夠捕捉更長的上下文依賴。Transformer模型:基于自注意力機制,能夠并行處理序列,提高訓(xùn)練效率。3.1.2.2詞嵌入Word2Vec:通過連續(xù)詞袋(CBOW)或Skip-gram模型訓(xùn)練詞向量。GloVe:結(jié)合全局統(tǒng)計信息和局部上下文信息,生成詞向量。FastText:考慮詞的內(nèi)部結(jié)構(gòu),使用子詞信息訓(xùn)練詞向量。3.1.3示例:使用Word2Vec進(jìn)行詞嵌入#導(dǎo)入所需庫

fromgensim.modelsimportWord2Vec

fromgensim.test.utilsimportcommon_texts

#準(zhǔn)備數(shù)據(jù)

sentences=common_texts

#訓(xùn)練Word2Vec模型

model=Word2Vec(sentences,vector_size=100,window=5,min_count=1,workers=4)

#獲取詞向量

vector=model.wv['computer']

#計算詞相似度

similarity=model.wv.similarity('computer','machine')

#輸出結(jié)果

print("詞向量:",vector)

print("相似度:",similarity)3.2序列到序列模型預(yù)處理3.2.1原理序列到序列(Seq2Seq)模型是一種用于處理序列輸入并生成序列輸出的神經(jīng)網(wǎng)絡(luò)架構(gòu),廣泛應(yīng)用于機器翻譯。預(yù)處理階段包括文本清洗、分詞、構(gòu)建詞匯表、序列編碼等步驟,確保輸入數(shù)據(jù)適合模型訓(xùn)練。3.2.2內(nèi)容3.2.2.1文本清洗去除標(biāo)點符號和數(shù)字:避免對模型訓(xùn)練造成干擾。轉(zhuǎn)換為小寫:減少詞匯量,提高模型效率。3.2.2.2分詞基于空格的分詞:適用于英語等語言?;谝?guī)則的分詞:適用于中文等沒有明顯詞界語言?;谀P偷姆衷~:如BPE(BytePairEncoding)和WordPiece,適用于多種語言。3.2.2.3構(gòu)建詞匯表統(tǒng)計詞頻:用于確定詞匯表中詞的順序和重要性。添加特殊標(biāo)記:如<PAD>、<UNK>、<SOS>、<EOS>,分別用于填充、未知詞、序列開始和序列結(jié)束。3.2.2.4序列編碼將詞轉(zhuǎn)換為索引:使用詞匯表將詞映射為整數(shù)索引。序列填充:確保所有輸入序列長度一致,便于模型處理。3.2.3示例:使用Python進(jìn)行序列到序列模型預(yù)處理#導(dǎo)入所需庫

importre

fromnltk.tokenizeimportword_tokenize

fromcollectionsimportCounter

#文本清洗函數(shù)

defclean_text(text):

text=re.sub(r'\d+','',text)#去除數(shù)字

text=re.sub(r'[^\w\s]','',text)#去除非字母和空格字符

returntext.lower()#轉(zhuǎn)換為小寫

#分詞函數(shù)

deftokenize(text):

returnword_tokenize(text)

#構(gòu)建詞匯表函數(shù)

defbuild_vocab(tokenized_texts):

word_counts=Counter([wordfortextintokenized_textsforwordintext])

vocab={word:idxforidx,(word,_)inenumerate(word_counts.most_common())}

returnvocab

#序列編碼函數(shù)

defencode_sequences(tokenized_texts,vocab,max_length):

encoded=[[vocab.get(word,vocab['<UNK>'])forwordintext]fortextintokenized_texts]

padded=[seq+[vocab['<PAD>']]*(max_length-len(seq))forseqinencoded]

returnpadded

#示例文本

texts=["Thisisatestsentence.","Anothertestsentencehere."]

#清洗文本

cleaned_texts=[clean_text(text)fortextintexts]

#分詞

tokenized_texts=[tokenize(text)fortextincleaned_texts]

#構(gòu)建詞匯表

vocab=build_vocab(tokenized_texts)

#序列編碼

max_length=10

encoded_sequences=encode_sequences(tokenized_texts,vocab,max_length)

#輸出結(jié)果

print("清洗后的文本:",cleaned_texts)

print("分詞后的文本:",tokenized_texts)

print("詞匯表:",vocab)

print("編碼后的序列:",encoded_sequences)以上示例展示了如何使用Python進(jìn)行文本清洗、分詞、構(gòu)建詞匯表和序列編碼,為序列到序列模型的訓(xùn)練準(zhǔn)備數(shù)據(jù)。4高級預(yù)處理策略4.1神經(jīng)機器翻譯的預(yù)處理神經(jīng)機器翻譯(NeuralMachineTranslation,NMT)預(yù)處理是機器翻譯領(lǐng)域中一個關(guān)鍵步驟,它直接影響到翻譯模型的訓(xùn)練效率和翻譯質(zhì)量。預(yù)處理包括文本清洗、分詞、構(gòu)建詞匯表、序列編碼等步驟,下面將詳細(xì)介紹這些步驟的原理和實現(xiàn)方法。4.1.1文本清洗文本清洗是預(yù)處理的第一步,目的是去除文本中的噪聲,如HTML標(biāo)簽、特殊字符、數(shù)字等,確保輸入數(shù)據(jù)的干凈和一致性。4.1.1.1示例代碼importre

defclean_text(text):

#去除HTML標(biāo)簽

text=re.sub(r'<[^>]+>','',text)

#去除非字母字符

text=re.sub(r'[^a-zA-Z\s]','',text)

#轉(zhuǎn)換為小寫

text=text.lower()

returntext

#示例數(shù)據(jù)

text="<p>這是一個測試文本,包含HTML標(biāo)簽和數(shù)字123。</p>"

cleaned_text=clean_text(text)

print(cleaned_text)4.1.2分詞分詞是將連續(xù)的文本切分成獨立的詞匯單元,對于NMT來說,通常使用空格或標(biāo)點符號作為分隔符,但在一些語言中,如中文,需要使用專門的分詞工具。4.1.2.1示例代碼importjieba

deftokenize_zh(text):

#使用jieba進(jìn)行中文分詞

tokens=jieba.cut(text)

returnlist(tokens)

#示例數(shù)據(jù)

text="這是一個測試文本,用于中文分詞。"

tokens=tokenize_zh(text)

print(tokens)4.1.3構(gòu)建詞匯表構(gòu)建詞匯表是為每個詞匯分配一個唯一的ID,以便于模型處理。通常,詞匯表會包含一個特殊標(biāo)記,如<UNK>,用于表示未知詞匯。4.1.3.1示例代碼fromcollectionsimportCounter

defbuild_vocab(texts,vocab_size):

#合并所有文本

all_tokens=''.join(texts).split()

#統(tǒng)計詞頻

freq=Counter(all_tokens)

#選擇最頻繁的詞匯

vocab=freq.most_common(vocab_size)

#構(gòu)建詞匯表

vocab_dict={word:idxforidx,(word,_)inenumerate(vocab)}

#添加特殊標(biāo)記

vocab_dict['<UNK>']=len(vocab_dict)

returnvocab_dict

#示例數(shù)據(jù)

texts=["這是一個測試文本。","用于構(gòu)建詞匯表的示例。"]

vocab=build_vocab(texts,10)

print(vocab)4.1.4序列編碼序列編碼是將文本轉(zhuǎn)換為模型可以理解的數(shù)字序列。這通常涉及到將詞匯轉(zhuǎn)換為其在詞匯表中的ID,以及對序列進(jìn)行填充或截斷,以保持序列長度一致。4.1.4.1示例代碼defencode_sequences(sequences,vocab,max_length):

#將詞匯轉(zhuǎn)換為ID

encoded=[[vocab.get(token,vocab['<UNK>'])fortokeninseq.split()]forseqinsequences]

#序列填充

encoded=pad_sequences(encoded,maxlen=max_length,padding='post')

returnencoded

#示例數(shù)據(jù)

sequences=["這是一個測試文本。","用于序列編碼的示例。"]

encoded=encode_sequences(sequences,vocab,10)

print(encoded)注意:在上述代碼中,pad_sequences函數(shù)需要從tensorflow.keras.preprocessing.sequence模塊導(dǎo)入。4.2多語言預(yù)處理方法在多語言機器翻譯中,預(yù)處理需要考慮到不同語言的特性,如分詞規(guī)則、詞匯表構(gòu)建等。此外,還需要處理語言間的對齊問題,確保源語言和目標(biāo)語言的文本在預(yù)處理后能夠正確對應(yīng)。4.2.1多語言分詞多語言分詞需要使用能夠處理多種語言的工具,如NLTK、spaCy等,或者使用統(tǒng)一的分詞方法,如BytePairEncoding(BPE)。4.2.1.1示例代碼fromnltk.tokenizeimportword_tokenize

deftokenize_en(text):

#使用NLTK進(jìn)行英文分詞

returnword_tokenize(text)

#示例數(shù)據(jù)

text="ThisisatesttextforEnglishtokenization."

tokens=tokenize_en(text)

print(tokens)4.2.2多語言詞匯表構(gòu)建構(gòu)建多語言詞匯表時,可以將所有語言的詞匯合并到一個詞匯表中,或者為每種語言構(gòu)建獨立的詞匯表。合并詞匯表可以減少模型的復(fù)雜度,但獨立詞匯表能夠更好地捕捉每種語言的特性。4.2.2.1示例代碼defbuild_multilingual_vocab(texts_list,vocab_size):

#合并所有文本

all_tokens=''.join([''.join(texts)fortextsintexts_list]).split()

#統(tǒng)計詞頻

freq=Counter(all_tokens)

#選擇最頻繁的詞匯

vocab=freq.most_common(vocab_size)

#構(gòu)建詞匯表

vocab_dict={word:idxforidx,(word,_)inenumerate(vocab)}

#添加特殊標(biāo)記

vocab_dict['<UNK>']=len(vocab_dict)

returnvocab_dict

#示例數(shù)據(jù)

texts_list=[["這是一個測試文本。"],["ThisisatesttextforEnglish."]]

vocab=build_multilingual_vocab(texts_list,10)

print(vocab)4.2.3多語言序列對齊在多語言機器翻譯中,源語言和目標(biāo)語言的序列長度可能不同,需要進(jìn)行對齊處理,確保翻譯時的輸入輸出對應(yīng)。4.2.3.1示例代碼defalign_sequences(src_sequences,tgt_sequences,max_length):

#序列填充

src_encoded=pad_sequences(src_sequences,maxlen=max_length,padding='post')

tgt_encoded=pad_sequences(tgt_sequences,maxlen=max_length,padding='post')

#確保源序列和目標(biāo)序列長度一致

assertsrc_encoded.shape==tgt_encoded.shape

returnsrc_encoded,tgt_encoded

#示例數(shù)據(jù)

src_sequences=["這是一個測試文本。"]

tgt_sequences=["ThisisatesttextforEnglish."]

src_encoded,tgt_encoded=align_sequences(src_sequences,tgt_sequences,10)

print(src_encoded)

print(tgt_encoded)以上代碼示例展示了神經(jīng)機器翻譯和多語言預(yù)處理的基本步驟和實現(xiàn)方法,通過這些預(yù)處理策略,可以顯著提高機器翻譯模型的性能和翻譯質(zhì)量。5實戰(zhàn)案例分析5.1預(yù)處理在實際翻譯任務(wù)中的應(yīng)用在機器翻譯中,預(yù)處理步驟是至關(guān)重要的,它直接影響到翻譯模型的性能和最終的翻譯質(zhì)量。預(yù)處理包括文本清洗、分詞、詞性標(biāo)注、命名實體識別、句法分析等,這些步驟有助于模型更好地理解輸入文本的結(jié)構(gòu)和語義。5.1.1文本清洗文本清洗是預(yù)處理的第一步,主要目的是去除文本中的噪聲,如HTML標(biāo)簽、特殊字符、數(shù)字、停用詞等,以減少模型訓(xùn)練時的干擾。5.1.1.1示例代碼importre

defclean_text(text):

#去除HTML標(biāo)簽

text=re.sub(r'<[^>]+>','',text)

#去除非字母字符

text=re.sub(r'[^a-zA-Z\s]','',text)

#轉(zhuǎn)換為小寫

text=text.lower()

#去除多余的空格

text=re.sub(r'\s+','',text)

returntext

#示例文本

text="Thisisa<b>sample</b>textwithHTMLtags,numbers123,andspecialcharacters!@#."

#清洗文本

cleaned_text=clean_text(text)

print(cleaned_text)5.1.2分詞分詞是將連續(xù)的文本切分成獨立的詞匯單元,對于中文文本,由于沒有明顯的詞界,分詞尤為重要。5.1.2.1示例代碼fromjiebaimportcut

deftokenize_chinese(text):

#使用jieba進(jìn)行分詞

tokens=list(cut(text))

re

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論