版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
非物質(zhì)文化資源是指各種以非物質(zhì)形態(tài)存在的與群眾生活密切相關、世代相承的傳統(tǒng)文化表現(xiàn)形式1。他是中華民族傳統(tǒng)文化不可或缺的一部分,也包含著中華民族最重要的精神和情感,更是先賢智慧的載體。而現(xiàn)如今在科學技術(shù)發(fā)展的潮流中,傳統(tǒng)民族文化正受到當代文化的強勢撞擊。由于人們對非物質(zhì)文化資源的保護不夠重視,導致一些優(yōu)秀的傳統(tǒng)文化被遺失,這種情況不利于我國的發(fā)展與進步。現(xiàn)在,人們需要有更多的警示與思考,重視非物質(zhì)文化資源的保護,留住民族記憶的背影。信息化時代的出現(xiàn)帶來了全民信息化水平的提高,也直接或間接地導致非物使我們忽視非物質(zhì)文化資源對祖國發(fā)展和自身發(fā)展的意義。數(shù)據(jù)挖掘技術(shù)的出現(xiàn),為互聯(lián)網(wǎng)時代的數(shù)據(jù)采集提供了新的思路和獲取渠道。人們利用數(shù)據(jù)挖掘技術(shù)挖掘非物質(zhì)文化資源,獲取非物質(zhì)文化資源信息,使非物質(zhì)文化資源信息能夠系統(tǒng)全面的展示在人們面前。并通過文本聚類,將相似的非物質(zhì)文化資源聚類在一起,了解其聚類效果,讓人們更好的了解,保護和傳承非物質(zhì)文化資源,也讓人們更好的了解數(shù)據(jù)挖掘技術(shù),并將其運用于實際生活中。1.2國內(nèi)外研究現(xiàn)狀隨著數(shù)字化大時代的來臨,非物質(zhì)文化資源的口傳身教已經(jīng)逐漸不再符合時代發(fā)展的腳步,尤其是口頭文學(京劇,秦腔,相聲等等),手工工藝(竹編,蘇繡等等),傳統(tǒng)表演藝術(shù)(舞獅,川劇變臉等等),而如今的我們都通過數(shù)字采集、數(shù)字存儲、數(shù)字處理、數(shù)字展示和傳播等技術(shù),將非物質(zhì)文化遺產(chǎn)轉(zhuǎn)換成可共享的數(shù)字形態(tài)并加以保存。美國的非物質(zhì)文化資源雖然有限,但對其的挖掘與保護手段卻走在世界的最前沿,其中有名的“美國記憶”工程運用先進的大數(shù)據(jù),將承載美國印象的非物質(zhì)文化資源做成了可教育和終身學習的公眾資源。日本是最早提出保護非物質(zhì)文2化資源的國家。早在1950年便提出了無形文化財產(chǎn)的概念并頒布了《文化財保護法》誤!未找到引州溉·,積極的將非物質(zhì)文化資源數(shù)字化并形成了相關的非物質(zhì)文化遺產(chǎn)數(shù)據(jù)庫:貴重圖書圖像數(shù)據(jù)庫(2000年3月上網(wǎng))。而且該網(wǎng)頁的電子展覽會上,還公開了《數(shù)字式貴重圖書展覽會》和《世界中的日本》兩個項目。而中國作為走過五千年文化長河的歷史古國,從古至今流傳的文化精華數(shù)不勝數(shù),大到氣勢恢宏的古典音樂,小到精美絕倫的瓷器,散發(fā)著古老氣息的甲骨文,凝聚著民族情感的京劇,都是我國珍貴的非物質(zhì)文化資源。他們源于生活,卻形成一種高于生活的文化藝術(shù)。然而隨著數(shù)字化時代的推進,這些承載著美好生活的文化卻受到前所未有的打擊,人們對非物質(zhì)文化資源的不重視,大數(shù)據(jù)時代所帶來的快節(jié)奏生活讓他們漸漸的流失在時代的巨大齒輪中。而面對非物質(zhì)文化遺產(chǎn)被步步蠶食的情況之下,我們也有了相應的措施。早在2005年,中國國務院便公布了《關于加強中國非物質(zhì)文化遺產(chǎn)保護工作的意見》,并且提出“要運用文字、錄音、錄像、數(shù)字化多媒體等各種方式,對非物質(zhì)文化遺產(chǎn)進行真實、系統(tǒng)和全面的記錄,建立檔案和數(shù)據(jù)庫?!贝_切的說就是通過計算機等設備把非物質(zhì)文化進行文字、音頻、視頻的多媒處理,在儲存、傳播、應用等方面的突出優(yōu)勢來傳承和發(fā)展非物質(zhì)文化。例如為了使挖掘到得曲藝有得到足夠的重視[4]。目前與曲藝相關的數(shù)據(jù)庫有國曲藝家協(xié)會的“中國曲藝網(wǎng)”,星海音樂學院的“嶺南音樂全文數(shù)據(jù)庫”“嶺南音樂音響數(shù)據(jù)庫”等,在國家的政策之下,我國的學者們也紛紛對非物質(zhì)文化資源的保護出謀劃起來,與三維動態(tài)技術(shù)和動作模型結(jié)合,通過數(shù)據(jù)采集將非物質(zhì)文化遺產(chǎn)生動靈活地展現(xiàn)出來;張博通過Web數(shù)據(jù)挖掘技術(shù)對少數(shù)民族非物質(zhì)文化資源進行研究,實現(xiàn)少數(shù)民族非物質(zhì)文化資源原型系統(tǒng),對非物質(zhì)文化進行信息化保護,實現(xiàn)非物質(zhì)文化資源的傳承和利用!本找到引;雷明將大數(shù)據(jù)處理技術(shù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合,對海量的少數(shù)民族文化資源數(shù)據(jù)挖掘方法進行了研究,為促進少數(shù)民族文化的保護和傳承提供有效途徑[]。從這些實例可以看出,數(shù)字化手段對非物質(zhì)文化遺產(chǎn)的保護正在被我們廣泛應用。3要知道,在如今的大數(shù)據(jù)時代的推動下,越來越多的非物質(zhì)文化資源走向式應用廣泛等優(yōu)點,并且數(shù)字化手段有著十分可觀的應用前景。(1)可以用數(shù)字化手段對非物質(zhì)文化資源所進行的場所,工具,產(chǎn)品甚至是非物質(zhì)文化資源進行時的動態(tài)資料記錄為圖片,影像等并存儲,保證(2)可以在小的存儲器中存儲大量由文獻,圖片,碑刻,影像的非物質(zhì)文化資源實物資料轉(zhuǎn)化而成的數(shù)字化信息,借助現(xiàn)代化科技可隨時瀏覽。(3)可以在網(wǎng)絡中建立虛擬的檔案館,圖書館,資料庫等,并將非物質(zhì)文化資源的各類資料進行整合,歸納分類,形成一個專門挖掘與保護非物質(zhì)文化資源的(4)數(shù)字化手段突破了以往非物質(zhì)文化資源的傳統(tǒng)表演方式與場合,物質(zhì)條件的限制可以打破,可利用數(shù)字化技術(shù)通過高清掃描,虛擬3D等讓非物質(zhì)文化資源跨空間與地域的限制,真實,動態(tài)的展現(xiàn)在我們眼前。(5)數(shù)字化后的非物質(zhì)文化資源,應用十分靈活,并且對龐大的數(shù)據(jù)有自動分析,整理的能力,同時對我們有更方便的查詢與檢索。綜上所述數(shù)字化手段對非物質(zhì)文化資源的挖掘與保護有十分有效的作用。不僅僅是我國在使用,世界各國也將其投入了不同的,更加廣泛的領域。在將來的時代中,數(shù)字化手段也應對非物質(zhì)文化資源的挖掘與保護起到巨大的作用。非物質(zhì)文化資源并不是獨立的存在,反而它的存在與我們的生活息息相關,比如說歌謠和舞蹈是為了歡慶某些特定的日子;瓷器工藝和竹編則是為了方便生活中東西的存放;各種傳說是人們對某些生活或者精神的向往??梢哉f,非物質(zhì)文化的誕生基本上是為了滿足人們的一些生活需求,不僅是物質(zhì)方面的需求,同時也包含精神的需求。4和釉層十分粗糙,燒紙溫度較低的“原始瓷”,到如今的瓷片質(zhì)地細膩,釉面有而空間特征則是與空間地理相關的.一個地區(qū)的地理環(huán)境是該地區(qū)相應文化產(chǎn)生的前提條件2·地理環(huán)境對文化的影響可謂十分巨大中,草原之上便有了獨特的文化,比較有名的有傳統(tǒng)節(jié)日“那達慕”,是蒙古族等等都是由樺樹皮制作的,這些也便恰好證明了為物5所謂傳承,是后人繼承前人留下的非物質(zhì)文化資源,并在其基礎上,進行研究,發(fā)展,享用。當然,不同的非物質(zhì)文化資源的傳承方式各不相同,在以前的傳承方式中,口傳身教的傳承方式較為常用,比如京劇,華陰老腔的傳承,通過口傳來傳承。當然,非物質(zhì)文化資源的傳承也有以物傳承或通過節(jié)日活動傳承,彝族的“火把節(jié)”錯說!未找到調(diào)源。,都是每年所擁有的傳統(tǒng)節(jié)日。然而,以前的傳承而被譽為象形文字“活化石”的水書也面臨著失傳的危險。因此數(shù)字化傳承應運而生,我們將非物質(zhì)文化資源的圖片,物品,影像資料等儲存在網(wǎng)絡檔案館,使得非物質(zhì)文化遺產(chǎn)更加立體化,全面化的被我們了解,學習。這也同時體現(xiàn)了非6第2章數(shù)據(jù)挖掘數(shù)據(jù)挖掘(DM)是20世紀90年代新興的學科,學名叫做數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD),并在此后發(fā)展迅速,它以數(shù)據(jù)庫系統(tǒng)以及數(shù)據(jù)庫應用作為主要工作領域,其作用在于能夠從應用數(shù)據(jù)中提取隱藏的關鍵信息與知識,無論是不完整的數(shù)據(jù),還是受干擾的數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)都能夠?qū)?shù)據(jù)進行識別與篩選,并選關鍵數(shù)據(jù),發(fā)現(xiàn)被忽略的數(shù)據(jù),從而尋找數(shù)據(jù)中的規(guī)律,為決策者提供合理7選擇數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)預處理數(shù)據(jù)解釋模式知識數(shù)據(jù)挖掘過程的用戶需要的數(shù)據(jù)(3)轉(zhuǎn)換:消減數(shù)據(jù)維數(shù)或降維,使得數(shù)據(jù)能夠更好的應用確定可以根據(jù)數(shù)據(jù)的不同特點,也可以根據(jù)用戶或?qū)嶋H運行系統(tǒng)的需求。冗余或無關的模式,這時需要剔除,使用戶更容易理解和應用。3.3數(shù)據(jù)挖掘的主要功能數(shù)據(jù)挖掘綜合了各個學科技術(shù),有很多的功能,當前的主要功能如下:(2)分類:目的是構(gòu)造一個分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定類別中的某一個。要構(gòu)造分類器,需要有一個訓練樣本數(shù)據(jù)集作為輸入。訓練集由一組數(shù)據(jù)庫記錄或元組構(gòu)成,每個元組是一個由有關字段(又稱屬性或特征)值組成的特征向量。8(3)聚類:是把整個數(shù)據(jù)庫分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細分,在開始細分之前不知道要把用戶分成幾類,因此通過聚類分析可以找出客戶特性相似的群體。(4)關聯(lián)分析:是尋找數(shù)據(jù)庫中值的相關性。兩種常用的技術(shù)是關聯(lián)規(guī)則和序列模式。關聯(lián)規(guī)則是尋找在同一個事件中出現(xiàn)的不同項的相關性;序列模式尋找的是事件之間時間上的相關性,(5)預測:把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預見。(6)偏差的檢測:對分析對象的少數(shù)的、極端的特例的描述,揭示內(nèi)在的原2.2文本挖掘文本挖掘(TextMing,簡稱TM),是數(shù)據(jù)挖掘挖掘的一個分支。它的概念是取隱含的、以前未知的、潛在有用的模式的過程[9]。一般來說,文本挖掘和文本數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinTextualDatabase被認為是具有相同含義的兩個詞,最早由RonenFeldman等人提出[25].文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來,但并不意味著簡單地將數(shù)據(jù)挖掘技術(shù)運用到大量文本的集合上就可以實現(xiàn)文本挖掘。文本挖掘的準備工作山文本收集、文本分析和特征修剪三個步驟組成。(1)文本收集需要挖掘的文本數(shù)據(jù)可能具有不同的類型,且分散在很多地方。需要尋找和檢索那些所有被認為可能與當前工作相關的文本。(2)文本分析9此外文檔的內(nèi)容是人類所使用的白然語言,計算機很難處理其語義,數(shù)據(jù)挖掘技術(shù)無法直接應用文本,需要對文本進行分析,抽取代表其特征的元數(shù)據(jù),這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中問表示形式。(2)特征修剪特征修剪包括橫向選擇和縱向投影兩種方式。橫向選擇是指剔除噪聲文檔以改進挖掘精度,或者在文檔數(shù)量過多時僅選取一部分樣本以提高挖掘效率。縱向投影是指按照挖掘日標選取有用的特征,通過特征修剪,就可以得到代表文檔集合的有效的、精簡的特征子集,在此基礎上可以開展各種文檔挖掘工作。2.2.3文本挖掘的關鍵技術(shù)經(jīng)特征修剪之后,可以開展數(shù)據(jù)文本挖掘工作。目前研究和應用最多的幾種文本挖掘技術(shù)有:文檔聚類、文檔分類和摘要抽取。(1)文檔聚類首先,文檔聚類可以發(fā)現(xiàn)與某文檔相似的一批文檔,幫助知識工作者發(fā)現(xiàn)相關知識;其次,文檔聚類可以將一個文檔聚類成若干個類,提供一種組織文檔集合的方法;再次,文檔聚類還可以生成分類器以對文檔進行分類。文本挖掘中的聚類可用于:提供大規(guī)模文檔集內(nèi)容的總括;識別隱藏的文檔問的相似度;減輕瀏覽相關、相似信息的過程。聚類方法通常有:層次聚類法、平面劃分法、簡單貝葉斯聚類法、K-最近鄰參照聚類法、分級聚類法、基于概念的文本聚類等。(2)文檔分類分類和聚類的區(qū)別在丁:分類是基丁已有的分類體系表的,而聚類則沒有分類表,只是基于文檔之間的相似度。(3)白動文摘白動文摘能夠生成簡短的關于文檔內(nèi)容的指示性信息,將文檔的主要內(nèi)容呈現(xiàn)給用戶,以決定是否要閱讀文檔的原文,這樣能夠節(jié)省大量的瀏覽時間。簡單地說白動文摘就是利用計算機白動地從原始文檔中提取全面準確地反映該文檔中心內(nèi)容的簡單連貫的短文。(1)白動文摘應能將原文的主題思想或中心內(nèi)容白動提取出來。(2)文摘應具有概況性、客觀性、可理解性和可讀性。(3)可適用于任意領域。按照生成文摘的句子來源,自動文摘方法可以分成兩類,用原文中的句子來生成文摘,另一類是可以白動生成句子來表達文檔的內(nèi)容。后者的功能更強大,但在實現(xiàn)的時候,自動生成句子是一個比較復雜的問題,經(jīng)常出現(xiàn)產(chǎn)生的新句子不能被理解的情況,因此日前大多用的是抽取2.4文本聚類文本聚類主要是依據(jù)著名的聚類假設:同類的文檔相似度較大,而不同類的文檔相似度較小銀!未找到引用懈。。作為一種無監(jiān)督的機器學習方法,聚類由于不需要訓練過程,以及不需要預先對文檔手工標注類別,因此具有一定的靈活性和較高的自動化處理能力,已經(jīng)成為對文本信息進行有效地組織、摘要和導航的重要手段。文本聚類的一般流程如下:自動分詞處理自動分詞處理詞頻統(tǒng)計停用詞過濾特征項提取權(quán)重計算聚類算法聚類結(jié)果及評估圖2-1文本聚類流程圖數(shù)據(jù)搜索挖掘?qū)嶒炇?北京市海量語言信息處理與云計算應用工程技術(shù)研究中心)),thulac(清華大學自然語言處理與社會人文計算實驗室)等。停用詞就是我們在實際生活中常用的不能用于區(qū)分文檔之間關系的一些詞語。如“的”,“你”,“我”,“他”等。step3:構(gòu)建詞袋空間VSM(vectorspacemodel)(1)將所有文檔讀入到程序中,再將每個文檔切詞。(2)去除每個文檔中的停用詞。(3)統(tǒng)計所有文檔的詞集合(sk-learn相關函數(shù))。(4)對每個文檔,都將構(gòu)建一個向量,向量的值是對應詞語在本文檔中出現(xiàn)的Step4:TF-IDF構(gòu)建詞權(quán)重TF-IDF(termfrequency-inversedocumentfrequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計方法,用以評估文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。除了TF-IDF以外,互聯(lián)網(wǎng)上的搜尋引擎還會使用基于連①以上式子中n;j是該詞在文件d,中的出現(xiàn)次數(shù),而分母則是在文件d;中所有②逆向文件頻率(inversedocumentfrequency,IDF)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再A:|D|:語料庫中的文件總數(shù)B:|{d:d>t;}|:包含詞語t;的文件數(shù)目(即n?≠0的文件數(shù)目)tfidf=tf;●idf公式(2-3)某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻到了這一步,就可以使用聚類算法進行文本聚類了,常用的聚類算法包括第3章基于K-means的非物質(zhì)文化文本聚類研究K-means聚類算法是1955年由Steinhaus分別在他們各自研究的不同的科學領域獨立提出的??臻g聚類分析方法是空間數(shù)據(jù)挖掘中一個十分重要的方法!未技州用述,,是從數(shù)據(jù)中發(fā)掘知識的一種手段。k-means算法是空間聚類算法中間數(shù)據(jù)挖掘技術(shù)應運而生。雖然k-means聚類算法被提出已經(jīng)快60年了,但隨機選取K個對象作為初始的聚類中心,根據(jù)每個對象與各個種子聚類中心之沒有(或最小數(shù)目)對象被重新分配給不同的聚類,沒有(或最小數(shù)目)聚類中(1)、首先確定一個k值,即我們希望將數(shù)據(jù)集經(jīng)過聚類得到k個集合。(2)、從數(shù)據(jù)集中隨機選擇k個數(shù)據(jù)點作為質(zhì)心。(3)、對數(shù)據(jù)集中每一個點,計算其與每一個質(zhì)心的距離(如歐式距離),然后示重新計算的質(zhì)心的位置變化不大,趨于穩(wěn)定,或者說收斂),我們可以認為聚(6)、如果新質(zhì)心和原質(zhì)心距離變化很大,需要迭代3~5步驟。12:將當前均值向量μ;更新為μ14:保持當前均值向量不變17:until當前均值向量為更新輸出:簇劃分c={C?,C?…,Ck}3.1.4優(yōu)缺點:優(yōu)點:(1)解決聚類問題的經(jīng)典算法,簡單、快速(2)當處理大數(shù)據(jù)集時,該算法保持可伸縮性和高效率(3)當簇近似為高斯分布時,它的效果較好缺點:(2)必須實現(xiàn)給出k(要生成簇的數(shù)目),而且對初值敏感,即對于不同的初值,可能會導致不同結(jié)果(3)不適合非凸形狀的簇或者大小差別很大的簇(4)對噪聲和孤立點敏感Jieba分詞算法,主要有以下三種:①基于統(tǒng)計詞典,構(gòu)造前綴詞典,基于前綴詞典對句子進行切分,得到所有切分可能,根據(jù)切分位置,構(gòu)造一個有向無環(huán)圖(DAG);②基于DAG圖,采用動態(tài)規(guī)劃計算最大概率路徑(最有可能的分詞結(jié)果),根據(jù)最大概率路徑分詞;①對于新詞(詞庫中沒有的詞),采用有漢字成詞能力的HMM模型進行切分。Jieba分詞是目前最好用的中文分詞組件,主要有3種分詞模式:精確模式、全模式、搜索引擎模式1未找到調(diào)源,。同時,Jieba提供了兩種關鍵詞提取方法,分別基于TF-IDF算法和TextRank算法.我們重點介紹基于TF-IDF算法的關鍵詞提取。TF-IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆文件頻率)是一種統(tǒng)計方法,用以評估一個詞語對于一個文件集或一個語料庫中的一份文件的重要程度,其原理可概括為:一個詞語在一篇文章中出現(xiàn)次數(shù)越多,同時在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章.計算公式:TF-IDF=TF*IDF,其中:TF(termfrequency,TF):詞頻,某一個給定的詞語在該文件中出現(xiàn)的次數(shù),計算公式:IDF(inversedocumentfrequency,IDF):逆文件頻率,如果包含詞條的文件越少,則說明詞條具有很好的類別區(qū)分能力,計算公式:本文中,我們使用Jieba分詞結(jié)合TF-IDF算法進行文本信息提取,并使用K-means算法進行文本聚類,挖掘文本的相似特征。第4章:實驗驗證本實驗所用的語料數(shù)據(jù)來自于“中國非物質(zhì)文化遺產(chǎn)網(wǎng)”獲得的文本文檔。對語料數(shù)據(jù)所做的處理如下:第一,采用正則表達式刪除標點及無效語料例如“你”“我”和“他”等對聚類效果不產(chǎn)生任何影響的語料特征。制,另一方面,使用開發(fā)環(huán)境pycharm2019設置合適的虛擬內(nèi)存也無法滿足大篇幅語料的聚類效果。4.2實驗結(jié)果美術(shù)、體育十個部分,對每個部分分別作文本數(shù)據(jù)挖掘,并對比算法性能。將1440種舞蹈種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為13042,根據(jù)樣本距其最近的聚類中心的平方距離之和,度量算法性能為1440.2581770287636;圖1-2舞蹈聚類圖將1771種舞蹈種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為13953,根據(jù)樣本距其最近的聚類中心的平方距離之和,度量算法性能為1771.637532606441圖4-3音樂聚類圖將782種民間文學種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為7757,根據(jù)樣本距其最近的聚類中心的平方距離之和,度量算法性能為782.9073155431148圖4-4民間文學聚類圖將1853種戲劇種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為12587,根據(jù)樣本距其最近的聚類中心的平方距離之和,度量算法性能為1853.3149909287383圖4-5戲劇聚類圖將790種曲藝種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為7629,根據(jù)樣本距其最近的聚類中心的平方距離之和,用來度圖4-6曲藝聚類圖F民俗將1899種民俗種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重用來度量算法性能為1899.2547467349318圖4-7民俗聚類圖G醫(yī)藥將457種醫(yī)藥種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為5342,根據(jù)樣本距其最近的聚類中心的平方距離之和,用來度量算法性能為457.86448115297344圖4-8醫(yī)藥聚類圖H技藝將1899種技藝種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為16927,根據(jù)樣本距其最近的聚類中心的平方距離之和,用來度量算法性能為1972.048757958373圖4-9技藝聚類圖I美術(shù)將1972種美術(shù)種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為12849,根據(jù)樣本距其最近的聚類中心的平方距離之和,用來度量算法性能為1242.086589346825圖4-10美術(shù)聚類圖J體雜將1242種體育和雜技種類聚類在一起,對其進行文本挖掘,計算其TF-IDF權(quán)重(wordfeaturelength)為6437,根據(jù)樣本距其最近的聚類中心的平方距離之和,用來度量算法性能為441.49016114919914圖4-11體雜聚類圖表4-1語料聚類精準度舞蹈音樂文學戲劇曲藝民俗醫(yī)藥技藝美術(shù)體雜表4-2語料詞袋空間最大特征值舞蹈音樂文學戲劇曲藝民俗醫(yī)藥技藝美術(shù)體雜圖4-12語料聚類精準度對比(1)文本聚類效果中詞袋向量最大特征值是算法中最為關鍵的一環(huán),能夠準確(2)由圖4-12不難看出,文本聚類效果準確度最高的是I美術(shù),最低的則是G醫(yī)藥,說明在所有樣本聚類中,美術(shù)的文本聚類效果最好,醫(yī)藥的文本聚類效果(3)通過對不同預料特征的本文數(shù)據(jù)挖掘,對比了不同預料特征下,K-means類算法的聚類準確度,聚類算法作為一種無監(jiān)督學習算法,不需要人工預先知道特征,將具有相似特征的類別聚在一起,用于本文數(shù)據(jù)挖掘,發(fā)現(xiàn)錢潛藏在文本中的信息和價值。第5章總結(jié)與展望隨著時代的進步,經(jīng)濟的發(fā)展,大數(shù)據(jù)已經(jīng)成為了世界的主流,雖然人類對發(fā)現(xiàn)的非物質(zhì)文化資源進行了保護,但是很多非物質(zhì)文化資源仍面臨著滅絕的危險。而當前人類正處于的信息化時代,信息化技術(shù)也成為了保護和發(fā)展非物質(zhì)文化資源的重要手段。非物質(zhì)文化資源對我們有著不可磨滅的印記,他們是先賢們耗費了無數(shù)的精力與光陰,將他們的思想,智慧全部封存在那一件件充滿古老韻味的“物件”之中,我們也會用諸多手段將非物質(zhì)文化資源進行整理,并且從其中挖掘更大的研究價值,對現(xiàn)在乃至未來都有著無法想象的作用。本文的具體工(1)主要介紹論文的研究背景,了解該研究問題的理論意義和現(xiàn)實意義;分析國內(nèi)外研究現(xiàn)狀,對相關概念概述,特性方面進行描述,(2)通過將K均值聚類算法用于本實驗所劃分的不同語料,發(fā)現(xiàn)聚類效果最好的是美術(shù)類預料,最差的是醫(yī)藥類語料,說明在所有語料聚類中,美術(shù)的文本聚類效果最好,醫(yī)藥的文本聚類效果最差。(3)數(shù)據(jù)挖掘提供了很好的資源整和方式,結(jié)合非物質(zhì)形態(tài)文化的特點,對數(shù)據(jù)挖掘算法和用于中文文本聚類的K-means算法進行了深入對比,使用K-means算法挖掘中文文本特征,從而更好地為下一步有關的研究開展提供了前5.2展望面對著現(xiàn)在的科技發(fā)展的時代,我們不難想象,在不可預知的未來,我們的科技水平將會達到一個質(zhì)的飛躍,而文化,思想,精神也會需要很大的供給,而非物質(zhì)文化資源也許會成為我們所需要的“營養(yǎng)”的載體,即便當今的有些非物質(zhì)文化資源逐漸的走向沒落,我們也會用科技手段將他們進行封存,而在未來,我們也會用諸多手段將他們完美地還原,并進行學習,研究。他們歷經(jīng)無數(shù)的歲那樣,他們之中也許存在著更大的,未知的魅力,需要我們?nèi)ダ^續(xù)探索。電腦快捷知識大全編輯本段一、常見用法F1顯示當前程序或者windows的幫助內(nèi)容。F2當你選中一個文件的話,這意味著“重命名”F3當你在桌面上的時候是打開“查找:所有文件”對話框F10或ALT激活當前程序的菜單欄DELETE刪除被選擇的選擇項目,如果是文件,將被放入回收站刪除被選擇的選擇項目,如果是文件,將被直接刪除而不是放入回收站CTRL+N新建一個新的文件CTRL+0打開“打開文件”對話框復制被選擇的項目到剪貼板粘貼剪貼板中的內(nèi)容到當前位置撤銷上一步的操作重做上一步被撤銷的操作Windows鍵+SHIFT+M重新將恢復上一項操作前窗口的大小和位置Windows鍵+E打開資源管理器Windows鍵+F打開“查找:所有文件”對話框Windows鍵+R打開“運行”對話框Windows鍵+CTRL+F打開“查找:計算機”對話框SHIFT+F10或鼠標右擊打開當前活動項目的快捷菜單SHIFT在放入CD的時候按下不放,可以跳過自動播放CD。在打開word的時候按下不放,可以跳過自啟動的宏ALT+F4關閉當前應用程序打開程序最左上角的菜單窗口在窗口和全屏幕狀態(tài)間切換PRINTSCREEN將當前屏幕以圖象方式拷貝到剪貼板將當前活動程序窗口以圖象方式拷貝到剪貼板CTRL+F4關閉當前應用程序中的當前文本(如word中)CTRL+F6切換到當前應用程序中的下一個文本(加shift可以跳到前一個窗口)顯示前一頁(前進鍵)顯示后一頁(后退鍵)在頁面上的各框架中切換(加shift反向)F5刷新目的快捷鍵激活程序中的菜單欄F10執(zhí)行菜單上相應的命令ALT+菜單上帶下劃線的字母關閉多文檔界面程序中的當關閉當前窗口或退出程序ALT+F4顯示所選對話框項目的幫助F1顯示所選項目的快捷菜單SHIFT+F10顯示“開始”菜單CTRL+ESC顯示多文檔界面程序的系統(tǒng)切換到上次使用的窗口或者切換到另一個窗口ALT+TAB編輯本段二、使用“Windows資源管理器”的快捷鍵目的快捷鍵如果當前選擇展開了,要折疊或者選擇父文件夾左箭頭折疊所選的文件夾NUMLOCK+負號(-)如果當前選擇折疊了,要展開或者選擇第一個子文件夾右箭頭在左右窗格間切換F6編輯本段可以使用Microsoft自然鍵盤或含有Windows徽標鍵的其他任何兼容鍵盤的以下快目的快捷鍵撤消最小化所有窗口SHIFT+WINDOWS+M編輯本段四、“我的電腦”和“資源管理器”的快捷鍵目的快捷鍵關閉所選文件夾及其所有父文件夾按住SHIFT鍵再單擊“關閉按鈕(僅適用于“我的電腦”)編輯本段五、使用對話框中的快捷鍵目的快捷鍵取消當前任務ESC如果當前控件是個按鈕,要單擊該按鈕或者如果當前控件是個復選框,要選擇或清除該復選框或者如果當前控件是個選項按鈕,要單擊該選項空格鍵單擊相應的命令ALT+帶下劃線的字母在選項上向后移動SHIFT+TAB在選項卡上向后移動CTRL+SHIFT+TAB如果在“另存為”或“打開”對話框中選擇了某文件夾,在“另存為”或“打開”對話框中打開“保存到”或“查閱”F4刷新“另存為”或“打開”編輯本段六、桌面、我的電腦和“資源管理器”快捷鍵選擇項目時,可以使用以下快捷鍵。目的快捷鍵插入光盤時不用“自動播放”“回收站”顯示“查找:所有文件”F3刷新窗口的內(nèi)容F5重命名項目F2的其他兼容鍵編輯本段七、Microsoft放大程序的快捷鍵這里運用Windows徽標鍵和其他鍵的組合。快捷鍵目的將屏幕復制到剪貼板(包括鼠標光標)將屏幕復制到剪貼板(不包括鼠標光標)Windows徽標+向上箭頭增加放大率Windows徽標+向下箭頭減小放大率編輯本段八、使用輔助選項快捷鍵目的快捷鍵切換篩選鍵開關右SHIFT八秒切換粘滯鍵開關SHIFT鍵五次QQ快捷鍵,玩QQ更方便Alt+S快速回復Alt+C關閉當前窗口Alt+H打開聊天記錄Alt+T更改消息模式Ait+J打開聊天紀錄Ctrl+A全選當前對話框里的內(nèi)容Ctrl+FQQ里直接顯示字體設置工具條Ctrl+J輸入框里回車(跟回車一個效果)Ctrl+M輸入框里回車(跟回車一個效果)Ctrl+L對輸入框里當前行的文字左對齊Ctrl+R對輸入框里當前行的文字右對齊Ctrl+E對輸入框里當前行的文字居中Ctrl+V在qq對話框里實行粘貼Ctrl+Z清空/恢復輸入框里的文字Ctrl+回車快速回復這個可能是聊QQ時最常用到的了Ctrl+Alt+Z快速提取消息最常用的快捷鍵F5刷新DELETE刪除TAB改變焦點CTRL+C復制CTRL+X剪切CTRL+V粘貼CTRL+A全選CTRL+Z撤銷CTRL+S保存ALT+F4關閉CTRL+Y恢復ALT+TAB切換CTRL+F5強制刷新CTRL+W關閉CTRL+F查找菜單消息Alt+1保存當前表單Alt+2保存為通用表單Alt+A展開收藏夾列表HOME顯示當前窗口的頂端數(shù)字鍵盤的減號(-)折疊所選的文件夾數(shù)字鍵盤的加號(+)顯示所選文件夾的內(nèi)容數(shù)字鍵盤的星號(*)顯示所選文件夾的所有子文件夾向左鍵當前所選項處于展開狀態(tài)時折疊該項,或選定其父文件夾向右鍵當前所選項處于折疊狀態(tài)時展開該項,或選定第一個子文件夾【窗口】顯示或隱藏“開始”菜單【窗口】+F1幫助【窗口】+D顯示桌面【窗口】+R打開“運行”【窗口】+E打開“我的電腦”【窗口】+F搜索文件或文件夾【窗口】+U打開“工具管理器”輔助功能按右邊的SHIFT鍵八秒鐘切換篩選鍵的開和關五秒鐘切換切換鍵的開和關運行按“開始”—“運行”,或按WIN鍵+R,在『運行」窗口中輸入:(按英文字符順序排列)%temp%打開臨時文件夾用戶名所在文件夾appwize.cpl添加、刪除程序access.cpl輔助功能選項Accwiz輔助功能向?qū)ommandCMD命令提示符chkdsk.exeChkdsk磁盤檢查certmgr.msc證書管理實用程序calc啟動計算器charmap啟動字符映射表cintsetp倉頡拼音輸入法cliconfgSQLSERVER客戶端網(wǎng)絡實用程序clipbrdcontrolconf剪貼板查看器打開控制面板compmgmt.msc計算機管理cleanmgrciadv.mscdcomcnfgddesharedxdiagdrwtsn32devmgmt.mscdesk.cpldfrg.mscdiskmgmt.msc垃圾整理索引服務程序打開系統(tǒng)組件服務系統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2023六年級數(shù)學下冊 二 圓柱和圓錐第四課時 圓柱的體積教案 蘇教版
- 租賃倉庫合同(2篇)
- 自擔風險的合同(2篇)
- 西南林業(yè)大學《城市規(guī)劃原理》2021-2022學年第一學期期末試卷
- 西京學院《藝術(shù)鑒賞》2021-2022學年第一學期期末試卷
- 西京學院《攝影攝像基礎》2021-2022學年第一學期期末試卷
- 別克新一代君威按鍵操作課件
- 西京學院《電子系統(tǒng)綜合設計實訓》2021-2022學年期末試卷
- 風力發(fā)電 課件
- 浣溪沙課件圖片
- 《雙搖跳》教學課件
- 可疑值的取舍-Q檢驗法
- 010-大遺址保護規(guī)劃規(guī)范-2015送審稿
- 大學輿論學教案
- 壓鑄模及零件結(jié)構(gòu)專業(yè)術(shù)語
- DBJ51-T 188-2022 預拌流態(tài)固化土工程應用技術(shù)標準
- 電工安全培訓課件
- (完整)財務部績效考核方案
- 維修工程技術(shù)標
- 完整解讀中華人民共和國政府信息公開條例課件
- 職業(yè)生涯規(guī)劃-體驗式學習智慧樹知到答案章節(jié)測試2023年
評論
0/150
提交評論