自然語言處理：文本預(yù)處理：機器翻譯預(yù)處理

上傳人：陳*** IP屬地：河北上傳時間：2024-10-07 格式：DOCX 頁數(shù)：16 大?。?8.26KB 積分：6 舉報 版權(quán)申訴

已閱讀5頁，還剩11頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

自然語言處理：文本預(yù)處理：機器翻譯預(yù)處理1自然語言處理簡介1.1NLP的基本概念自然語言處理（NaturalLanguageProcessing，簡稱NLP）是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究如何處理和運用自然語言；自然語言認(rèn)知則是指讓計算機“懂”人類的語言。NLP建立于20世紀(jì)50年代，隨著計算機技術(shù)的飛速發(fā)展，NLP技術(shù)在信息檢索、文本挖掘、自動文摘、情感分析、機器翻譯、問答系統(tǒng)、語音識別、語音合成等眾多領(lǐng)域得到了廣泛的應(yīng)用。1.1.1詞法分析詞法分析是NLP的基礎(chǔ)，它包括分詞、詞性標(biāo)注、命名實體識別等。例如，使用Python的jieba庫進(jìn)行中文分詞：importjieba

sentence="自然語言處理在機器翻譯中扮演著重要角色。"

words=jieba.lcut(sentence)

print(words)1.1.2句法分析句法分析主要涉及依存關(guān)系分析和成分結(jié)構(gòu)分析，用于理解句子的結(jié)構(gòu)。例如，使用spaCy庫進(jìn)行英文句法分析：importspacy

nlp=spacy.load('en_core_web_sm')

doc=nlp("Naturallanguageprocessingplaysacrucialroleinmachinetranslation.")

fortokenindoc:

print(token.text,token.dep_,token.head.text)1.1.3語義分析語義分析旨在理解文本的深層含義，包括詞義消歧、語義角色標(biāo)注等。例如，使用NLTK庫進(jìn)行英文語義角色標(biāo)注：fromnltkimportsem

sentence="JohngaveMaryabook."

result=sem.relextract(sentence)

print(result)1.2NLP在機器翻譯中的應(yīng)用機器翻譯（MachineTranslation，簡稱MT）是NLP領(lǐng)域的一個重要應(yīng)用，它旨在將一種語言的文本自動轉(zhuǎn)換為另一種語言的文本。機器翻譯的預(yù)處理階段對于提高翻譯質(zhì)量至關(guān)重要，包括文本清洗、分詞、詞性標(biāo)注、命名實體識別等步驟。1.2.1文本清洗文本清洗是預(yù)處理的第一步，用于去除文本中的噪聲，如HTML標(biāo)簽、特殊字符等。例如，使用Python的BeautifulSoup庫去除HTML標(biāo)簽：frombs4importBeautifulSoup

html_text="Naturallanguageprocessingisfascinating."

clean_text=BeautifulSoup(html_text,'html.parser').get_text()

print(clean_text)1.2.2分詞與詞性標(biāo)注分詞和詞性標(biāo)注是機器翻譯預(yù)處理的關(guān)鍵步驟，它們幫助模型理解文本的基本組成和語法結(jié)構(gòu)。例如，使用spaCy庫進(jìn)行英文分詞和詞性標(biāo)注：importspacy

nlp=spacy.load('en_core_web_sm')

doc=nlp("Naturallanguageprocessingisfascinating.")

fortokenindoc:

print(token.text,token.pos_)1.2.3命名實體識別命名實體識別（NamedEntityRecognition，簡稱NER）用于識別文本中的實體，如人名、地名、組織名等。這對于機器翻譯的準(zhǔn)確性和流暢性至關(guān)重要。例如，使用spaCy庫進(jìn)行英文命名實體識別：importspacy

nlp=spacy.load('en_core_web_sm')

doc=nlp("AppleislookingatbuyingU.K.startupfor$1billion.")

forentindoc.ents:

print(ent.text,ent.label_)1.2.4平行語料庫構(gòu)建平行語料庫是機器翻譯訓(xùn)練的基礎(chǔ)，它由源語言和目標(biāo)語言的對應(yīng)文本組成。構(gòu)建高質(zhì)量的平行語料庫是提高機器翻譯性能的關(guān)鍵。例如，從雙語對照的文本中構(gòu)建平行語料庫：source_text="自然語言處理是計算機科學(xué)的一個分支。"

target_text="Naturallanguageprocessingisabranchofcomputerscience."

#假設(shè)我們有一個函數(shù)用于存儲平行語料庫

defstore_parallel_corpus(source,target):

#存儲到數(shù)據(jù)庫或文件中

pass

store_parallel_corpus(source_text,target_text)1.2.5對齊與預(yù)訓(xùn)練對齊是將源語言和目標(biāo)語言的句子進(jìn)行匹配，確保它們在語義上的一致性。預(yù)訓(xùn)練則是使用大規(guī)模語料庫對模型進(jìn)行初步訓(xùn)練，以提高其初始性能。例如，使用fastText進(jìn)行詞向量預(yù)訓(xùn)練：fromgensim.modelsimportFastText

#假設(shè)我們有一份語料庫

sentences=[["自然","語言","處理"],["是","計算機","科學(xué)","的","一個","分支"]]

model=FastText(sentences,size=100,window=5,min_count=1,workers=4)1.2.6翻譯模型訓(xùn)練訓(xùn)練翻譯模型是機器翻譯的核心步驟，常見的模型包括基于規(guī)則的模型、統(tǒng)計機器翻譯模型和神經(jīng)機器翻譯模型。例如，使用OpenNMT訓(xùn)練神經(jīng)機器翻譯模型：#假設(shè)我們已經(jīng)準(zhǔn)備好了訓(xùn)練數(shù)據(jù)

#訓(xùn)練模型

onmt_train-datadata/-savemodel/-layers2-rnn_size500-word_vec_size500-batch_size64-learning_rate0.0011.2.7后處理與評估后處理包括對翻譯結(jié)果的修正和優(yōu)化，如去噪、重新排序等。評估則是通過BLEU、TER等指標(biāo)來衡量翻譯質(zhì)量。例如，使用nltk庫計算BLEU得分：fromnltk.translate.bleu_scoreimportsentence_bleu

reference=["自然","語言","處理","是","計算機","科學(xué)","的","一個","分支"]

candidate=["自然","語言","處理","是","計算機","科學(xué)","的","一個","領(lǐng)域"]

score=sentence_bleu([reference],candidate)

print(score)通過以上步驟，我們可以構(gòu)建一個基本的機器翻譯系統(tǒng)，從文本預(yù)處理到模型訓(xùn)練，再到后處理和評估，每個環(huán)節(jié)都對最終的翻譯質(zhì)量有著直接的影響。在實際應(yīng)用中，還需要根據(jù)具體場景和需求，不斷優(yōu)化和調(diào)整預(yù)處理和模型訓(xùn)練的策略，以達(dá)到最佳的翻譯效果。2文本預(yù)處理基礎(chǔ)2.1文本清洗文本清洗是自然語言處理（NLP）中一個至關(guān)重要的步驟，它旨在去除文本中的噪聲，如HTML標(biāo)簽、特殊字符、數(shù)字、停用詞等，以提高后續(xù)處理步驟的效率和準(zhǔn)確性。下面，我們將通過一個具體的例子來展示如何進(jìn)行文本清洗。假設(shè)我們有以下一段文本：這是一段包含HTML標(biāo)簽的文本，它需要被清洗。此外，文本中還包含一些特殊字符，如：@、#、$、%、^、&、*、(、)、-、=、+、[、]、{、}、|、\、:、;、"、'、<、>、,、.、/、?、!、~、`、。2.1.1Python代碼示例我們將使用Python的re模塊來清洗這段文本，去除HTML標(biāo)簽和特殊字符。importre

#原始文本

text="這是一段包含HTML標(biāo)簽的文本，它需要被清洗。此外，文本中還包含一些特殊字符，如：@、#、$、%、^、&、*、(、)、-、=、+、[、]、{、}、|、\\、:、;、\"、'、<、>、,、.、/、?、!、~、`、。"

#去除HTML標(biāo)簽

text_no_html=re.sub(r'<[^>]+>','',text)

#去除特殊字符

text_cleaned=re.sub(r'[^\w\s]','',text_no_html)

#輸出清洗后的文本

print(text_cleaned)2.1.2代碼解釋re.sub(r'<[^>]+>','',text)：使用正則表達(dá)式<[^>]+>來匹配并替換所有HTML標(biāo)簽。<[^>]+>表示匹配任何以<開始，以>結(jié)束的字符串，其中[^>]表示除了>之外的任何字符，+表示一個或多個這樣的字符。re.sub(r'[^\w\s]','',text_no_html)：進(jìn)一步清洗文本，去除所有非字母數(shù)字和非空白字符。[^\w\s]表示匹配任何不是字母、數(shù)字或空白字符的字符。2.2分詞與詞性標(biāo)注分詞是將連續(xù)的文本切分成獨立的詞匯單元的過程，而詞性標(biāo)注則是為每個詞匯單元標(biāo)注其在句子中的語法角色。在中文NLP中，分詞尤為重要，因為中文沒有像英文那樣的空格來自然地分隔單詞。2.2.1Python代碼示例我們將使用jieba庫進(jìn)行中文分詞，并使用hanlp庫進(jìn)行詞性標(biāo)注。importjieba

frompyhanlpimport*

#原始文本

text="這是一段中文文本，用于演示分詞和詞性標(biāo)注。"

#使用jieba進(jìn)行分詞

words=jieba.cut(text)

#使用hanlp進(jìn)行詞性標(biāo)注

tagged_words=HanLP.tagCC(words)

#輸出分詞和詞性標(biāo)注結(jié)果

forword,tagintagged_words:

print(f"{word}/{tag}")2.2.2代碼解釋jieba.cut(text)：使用jieba庫的cut函數(shù)對文本進(jìn)行分詞，返回一個可迭代的詞匯列表。HanLP.tagCC(words)：使用hanlp庫的tagCC函數(shù)對分詞后的結(jié)果進(jìn)行詞性標(biāo)注，返回一個包含詞匯和其對應(yīng)詞性的元組列表。forword,tagintagged_words:：遍歷標(biāo)注后的詞匯列表，打印每個詞匯及其詞性。2.2.3數(shù)據(jù)樣例輸出這/r

是/v

一/m

段/q

中文/n

文本/n

，/w

用于/v

演示/v

分詞/v

和/c

詞性/n

標(biāo)注/v

。/w在這個輸出中，/后面跟著的字母表示詞性，例如r表示代詞，v表示動詞，m表示數(shù)詞，q表示量詞，n表示名詞，w表示標(biāo)點符號。通過分詞和詞性標(biāo)注，我們可以更好地理解文本的結(jié)構(gòu)和含義，為后續(xù)的自然語言處理任務(wù)，如機器翻譯，提供更準(zhǔn)確的輸入。3機器翻譯預(yù)處理技術(shù)3.1語言模型與詞嵌入3.1.1原理語言模型是自然語言處理中用于預(yù)測給定上下文下一個詞出現(xiàn)概率的模型。在機器翻譯預(yù)處理中，語言模型幫助理解源語言和目標(biāo)語言的語法結(jié)構(gòu)和詞序，從而提高翻譯質(zhì)量。詞嵌入是將詞匯轉(zhuǎn)換為向量表示的技術(shù)，這些向量能夠捕捉詞與詞之間的語義和語法關(guān)系。詞嵌入在機器翻譯中用于將文本轉(zhuǎn)換為機器可以處理的數(shù)值形式，同時保留語義信息。3.1.2內(nèi)容3.1.2.1語言模型N-gram模型：基于統(tǒng)計的模型，預(yù)測下一個詞的概率基于前N-1個詞。循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）：利用神經(jīng)網(wǎng)絡(luò)處理序列數(shù)據(jù)，能夠捕捉更長的上下文依賴。Transformer模型：基于自注意力機制，能夠并行處理序列，提高訓(xùn)練效率。3.1.2.2詞嵌入Word2Vec：通過連續(xù)詞袋（CBOW）或Skip-gram模型訓(xùn)練詞向量。GloVe：結(jié)合全局統(tǒng)計信息和局部上下文信息，生成詞向量。FastText：考慮詞的內(nèi)部結(jié)構(gòu)，使用子詞信息訓(xùn)練詞向量。3.1.3示例：使用Word2Vec進(jìn)行詞嵌入#導(dǎo)入所需庫

fromgensim.modelsimportWord2Vec

fromgensim.test.utilsimportcommon_texts

#準(zhǔn)備數(shù)據(jù)

sentences=common_texts

#訓(xùn)練Word2Vec模型

model=Word2Vec(sentences,vector_size=100,window=5,min_count=1,workers=4)

#獲取詞向量

vector=model.wv['computer']

#計算詞相似度

similarity=model.wv.similarity('computer','machine')

#輸出結(jié)果

print("詞向量：",vector)

print("相似度：",similarity)3.2序列到序列模型預(yù)處理3.2.1原理序列到序列（Seq2Seq）模型是一種用于處理序列輸入并生成序列輸出的神經(jīng)網(wǎng)絡(luò)架構(gòu)，廣泛應(yīng)用于機器翻譯。預(yù)處理階段包括文本清洗、分詞、構(gòu)建詞匯表、序列編碼等步驟，確保輸入數(shù)據(jù)適合模型訓(xùn)練。3.2.2內(nèi)容3.2.2.1文本清洗去除標(biāo)點符號和數(shù)字：避免對模型訓(xùn)練造成干擾。轉(zhuǎn)換為小寫：減少詞匯量，提高模型效率。3.2.2.2分詞基于空格的分詞：適用于英語等語言?；谝?guī)則的分詞：適用于中文等沒有明顯詞界語言?；谀Ｐ偷姆衷~：如BPE（BytePairEncoding）和WordPiece，適用于多種語言。3.2.2.3構(gòu)建詞匯表統(tǒng)計詞頻：用于確定詞匯表中詞的順序和重要性。添加特殊標(biāo)記：如<PAD>、<UNK>、<SOS>、<EOS>，分別用于填充、未知詞、序列開始和序列結(jié)束。3.2.2.4序列編碼將詞轉(zhuǎn)換為索引：使用詞匯表將詞映射為整數(shù)索引。序列填充：確保所有輸入序列長度一致，便于模型處理。3.2.3示例：使用Python進(jìn)行序列到序列模型預(yù)處理#導(dǎo)入所需庫

importre

fromnltk.tokenizeimportword_tokenize

fromcollectionsimportCounter

#文本清洗函數(shù)

defclean_text(text):

text=re.sub(r'\d+','',text)#去除數(shù)字

text=re.sub(r'[^\w\s]','',text)#去除非字母和空格字符

returntext.lower()#轉(zhuǎn)換為小寫

#分詞函數(shù)

deftokenize(text):

returnword_tokenize(text)

#構(gòu)建詞匯表函數(shù)

defbuild_vocab(tokenized_texts):

word_counts=Counter([wordfortextintokenized_textsforwordintext])

vocab={word:idxforidx,(word,_)inenumerate(word_counts.most_common())}

returnvocab

#序列編碼函數(shù)

defencode_sequences(tokenized_texts,vocab,max_length):

encoded=[[vocab.get(word,vocab['<UNK>'])forwordintext]fortextintokenized_texts]

padded=[seq+[vocab['<PAD>']]*(max_length-len(seq))forseqinencoded]

returnpadded

#示例文本

texts=["Thisisatestsentence.","Anothertestsentencehere."]

#清洗文本

cleaned_texts=[clean_text(text)fortextintexts]

#分詞

tokenized_texts=[tokenize(text)fortextincleaned_texts]

#構(gòu)建詞匯表

vocab=build_vocab(tokenized_texts)

#序列編碼

max_length=10

encoded_sequences=encode_sequences(tokenized_texts,vocab,max_length)

#輸出結(jié)果

print("清洗后的文本：",cleaned_texts)

print("分詞后的文本：",tokenized_texts)

print("詞匯表：",vocab)

print("編碼后的序列：",encoded_sequences)以上示例展示了如何使用Python進(jìn)行文本清洗、分詞、構(gòu)建詞匯表和序列編碼，為序列到序列模型的訓(xùn)練準(zhǔn)備數(shù)據(jù)。4高級預(yù)處理策略4.1神經(jīng)機器翻譯的預(yù)處理神經(jīng)機器翻譯（NeuralMachineTranslation,NMT）預(yù)處理是機器翻譯領(lǐng)域中一個關(guān)鍵步驟，它直接影響到翻譯模型的訓(xùn)練效率和翻譯質(zhì)量。預(yù)處理包括文本清洗、分詞、構(gòu)建詞匯表、序列編碼等步驟，下面將詳細(xì)介紹這些步驟的原理和實現(xiàn)方法。4.1.1文本清洗文本清洗是預(yù)處理的第一步，目的是去除文本中的噪聲，如HTML標(biāo)簽、特殊字符、數(shù)字等，確保輸入數(shù)據(jù)的干凈和一致性。4.1.1.1示例代碼importre

defclean_text(text):

#去除HTML標(biāo)簽

text=re.sub(r'<[^>]+>','',text)

#去除非字母字符

text=re.sub(r'[^a-zA-Z\s]','',text)

#轉(zhuǎn)換為小寫

text=text.lower()

returntext

#示例數(shù)據(jù)

text="這是一個測試文本，包含HTML標(biāo)簽和數(shù)字123。"

cleaned_text=clean_text(text)

print(cleaned_text)4.1.2分詞分詞是將連續(xù)的文本切分成獨立的詞匯單元，對于NMT來說，通常使用空格或標(biāo)點符號作為分隔符，但在一些語言中，如中文，需要使用專門的分詞工具。4.1.2.1示例代碼importjieba

deftokenize_zh(text):

#使用jieba進(jìn)行中文分詞

tokens=jieba.cut(text)

returnlist(tokens)

#示例數(shù)據(jù)

text="這是一個測試文本，用于中文分詞。"

tokens=tokenize_zh(text)

print(tokens)4.1.3構(gòu)建詞匯表構(gòu)建詞匯表是為每個詞匯分配一個唯一的ID，以便于模型處理。通常，詞匯表會包含一個特殊標(biāo)記，如<UNK>，用于表示未知詞匯。4.1.3.1示例代碼fromcollectionsimportCounter

defbuild_vocab(texts,vocab_size):

#合并所有文本

all_tokens=''.join(texts).split()

#統(tǒng)計詞頻

freq=Counter(all_tokens)

#選擇最頻繁的詞匯

vocab=freq.most_common(vocab_size)

#構(gòu)建詞匯表

vocab_dict={word:idxforidx,(word,_)inenumerate(vocab)}

#添加特殊標(biāo)記

vocab_dict['<UNK>']=len(vocab_dict)

returnvocab_dict

#示例數(shù)據(jù)

texts=["這是一個測試文本。","用于構(gòu)建詞匯表的示例。"]

vocab=build_vocab(texts,10)

print(vocab)4.1.4序列編碼序列編碼是將文本轉(zhuǎn)換為模型可以理解的數(shù)字序列。這通常涉及到將詞匯轉(zhuǎn)換為其在詞匯表中的ID，以及對序列進(jìn)行填充或截斷，以保持序列長度一致。4.1.4.1示例代碼defencode_sequences(sequences,vocab,max_length):

#將詞匯轉(zhuǎn)換為ID

encoded=[[vocab.get(token,vocab['<UNK>'])fortokeninseq.split()]forseqinsequences]

#序列填充

encoded=pad_sequences(encoded,maxlen=max_length,padding='post')

returnencoded

#示例數(shù)據(jù)

sequences=["這是一個測試文本。","用于序列編碼的示例。"]

encoded=encode_sequences(sequences,vocab,10)

print(encoded)注意：在上述代碼中，pad_sequences函數(shù)需要從tensorflow.keras.preprocessing.sequence模塊導(dǎo)入。4.2多語言預(yù)處理方法在多語言機器翻譯中，預(yù)處理需要考慮到不同語言的特性，如分詞規(guī)則、詞匯表構(gòu)建等。此外，還需要處理語言間的對齊問題，確保源語言和目標(biāo)語言的文本在預(yù)處理后能夠正確對應(yīng)。4.2.1多語言分詞多語言分詞需要使用能夠處理多種語言的工具，如NLTK、spaCy等，或者使用統(tǒng)一的分詞方法，如BytePairEncoding(BPE)。4.2.1.1示例代碼fromnltk.tokenizeimportword_tokenize

deftokenize_en(text):

#使用NLTK進(jìn)行英文分詞

returnword_tokenize(text)

#示例數(shù)據(jù)

text="ThisisatesttextforEnglishtokenization."

tokens=tokenize_en(text)

print(tokens)4.2.2多語言詞匯表構(gòu)建構(gòu)建多語言詞匯表時，可以將所有語言的詞匯合并到一個詞匯表中，或者為每種語言構(gòu)建獨立的詞匯表。合并詞匯表可以減少模型的復(fù)雜度，但獨立詞匯表能夠更好地捕捉每種語言的特性。4.2.2.1示例代碼defbuild_multilingual_vocab(texts_list,vocab_size):

#合并所有文本

all_tokens=''.join([''.join(texts)fortextsintexts_list]).split()

#統(tǒng)計詞頻

freq=Counter(all_tokens)

#選擇最頻繁的詞匯

vocab=freq.most_common(vocab_size)

#構(gòu)建詞匯表

vocab_dict={word:idxforidx,(word,_)inenumerate(vocab)}

#添加特殊標(biāo)記

vocab_dict['<UNK>']=len(vocab_dict)

returnvocab_dict

#示例數(shù)據(jù)

texts_list=[["這是一個測試文本。"],["ThisisatesttextforEnglish."]]

vocab=build_multilingual_vocab(texts_list,10)

print(vocab)4.2.3多語言序列對齊在多語言機器翻譯中，源語言和目標(biāo)語言的序列長度可能不同，需要進(jìn)行對齊處理，確保翻譯時的輸入輸出對應(yīng)。4.2.3.1示例代碼defalign_sequences(src_sequences,tgt_sequences,max_length):

#序列填充

src_encoded=pad_sequences(src_sequences,maxlen=max_length,padding='post')

tgt_encoded=pad_sequences(tgt_sequences,maxlen=max_length,padding='post')

#確保源序列和目標(biāo)序列長度一致

assertsrc_encoded.shape==tgt_encoded.shape

returnsrc_encoded,tgt_encoded

#示例數(shù)據(jù)

src_sequences=["這是一個測試文本。"]

tgt_sequences=["ThisisatesttextforEnglish."]

src_encoded,tgt_encoded=align_sequences(src_sequences,tgt_sequences,10)

print(src_encoded)

print(tgt_encoded)以上代碼示例展示了神經(jīng)機器翻譯和多語言預(yù)處理的基本步驟和實現(xiàn)方法，通過這些預(yù)處理策略，可以顯著提高機器翻譯模型的性能和翻譯質(zhì)量。5實戰(zhàn)案例分析5.1預(yù)處理在實際翻譯任務(wù)中的應(yīng)用在機器翻譯中，預(yù)處理步驟是至關(guān)重要的，它直接影響到翻譯模型的性能和最終的翻譯質(zhì)量。預(yù)處理包括文本清洗、分詞、詞性標(biāo)注、命名實體識別、句法分析等，這些步驟有助于模型更好地理解輸入文本的結(jié)構(gòu)和語義。5.1.1文本清洗文本清洗是預(yù)處理的第一步，主要目的是去除文本中的噪聲，如HTML標(biāo)簽、特殊字符、數(shù)字、停用詞等，以減少模型訓(xùn)練時的干擾。5.1.1.1示例代碼importre

defclean_text(text):

#去除HTML標(biāo)簽

text=re.sub(r'<[^>]+>','',text)

#去除非字母字符

text=re.sub(r'[^a-zA-Z\s]','',text)

#轉(zhuǎn)換為小寫

text=text.lower()

#去除多余的空格

text=re.sub(r'\s+','',text)

returntext

#示例文本

text="ThisisasampletextwithHTMLtags,numbers123,andspecialcharacters!@#."

#清洗文本

cleaned_text=clean_text(text)

print(cleaned_text)5.1.2分詞分詞是將連續(xù)的文本切分成獨立的詞匯單元，對于中文文本，由于沒有明顯的詞界，分詞尤為重要。5.1.2.1示例代碼fromjiebaimportcut

deftokenize_chinese(text):

#使用jieba進(jìn)行分詞

tokens=list(cut(text))

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

自然語言處理：文本預(yù)處理：機器翻譯預(yù)處理

文檔簡介

溫馨提示

最新文檔

評論

自然語言處理：文本預(yù)處理：機器翻譯預(yù)處理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔