培訓(xùn)課件-TDA0.ppt_第1頁(yè)
培訓(xùn)課件-TDA0.ppt_第2頁(yè)
培訓(xùn)課件-TDA0.ppt_第3頁(yè)
培訓(xùn)課件-TDA0.ppt_第4頁(yè)
培訓(xùn)課件-TDA0.ppt_第5頁(yè)
已閱讀5頁(yè),還剩83頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Thomson Data Analyzer Critical Insight into Competitive and Technical Intelligence,Celine Li Thomson Reuters,分析流程,明確問(wèn)題,檢索并下載數(shù)據(jù),數(shù)據(jù)清理,數(shù)據(jù)分析,仔細(xì)研究分析結(jié)果,提出進(jìn)一步的問(wèn)題,決策者,分析師,提綱,Thomson Data Analyzer概況 數(shù)據(jù)導(dǎo)入與數(shù)據(jù)管理 數(shù)據(jù)規(guī)范/數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)分析 生成報(bào)告,TDA簡(jiǎn)介,Thomson Data Analyzer (TDA),是一個(gè)具有強(qiáng)大分析功能的文本挖掘軟件,可以對(duì)文本數(shù)據(jù)進(jìn)行多角度的數(shù)據(jù)挖掘和可視化的全景分析

2、。 TDA能夠幫助您從大量的專利文獻(xiàn)或科技文獻(xiàn)中發(fā)現(xiàn)競(jìng)爭(zhēng)情報(bào)和技術(shù)情報(bào),為洞察科學(xué)技術(shù)的發(fā)展趨勢(shì)、發(fā)現(xiàn)行業(yè)出現(xiàn)的新興技術(shù)、尋找合作伙伴,確定研究戰(zhàn)略和發(fā)展方向提供有價(jià)值的依據(jù)。 TDA在數(shù)據(jù)的導(dǎo)入,數(shù)據(jù)的清理,數(shù)據(jù)的分析,和分析結(jié)果的報(bào)道方面都具有獨(dú)特的功能。,TDA數(shù)據(jù)導(dǎo)入,結(jié)構(gòu)化的數(shù)據(jù) 不同平臺(tái) Import Engine Editor,數(shù)據(jù)管理,包括數(shù)據(jù)特性和數(shù)據(jù)統(tǒng)計(jì)信息 ( Dataset Properties, field statistics) 字段的更名以及增加刪除等 (Rename/copy/delete/merge fields) 將當(dāng)前的數(shù)據(jù)集拆分 (Create Sub-

3、dataset) 文件的合并 ( Merging files) (Data Fusion) (Record Fusion) 記錄的去重與合并 (Dealing with duplicate),數(shù)據(jù)清理,高質(zhì)量的數(shù)據(jù)分析結(jié)果首先取決于數(shù)據(jù)的準(zhǔn)確性與完整性 標(biāo)引的不一致 輸入的錯(cuò)誤 合并同義詞近義詞 文獻(xiàn)著者或發(fā)明人的不同寫法 科研機(jī)構(gòu)或?qū)@跈?quán)人的不同表達(dá)方式 TDA軟件內(nèi)部設(shè)有多個(gè)敘詞表,為您提供快速的自動(dòng)數(shù)據(jù)清理的功能,只需點(diǎn)擊一個(gè)按鈕,數(shù)據(jù)整理工作即可自動(dòng)完成。 用戶還可建立自己的敘詞表,對(duì)著者/發(fā)明人、科研機(jī)構(gòu)/專利申請(qǐng)人/專利授權(quán)人、國(guó)際專利分類號(hào)、等字段加以清理。,數(shù)據(jù)分析,有效的分

4、析可將無(wú)序的數(shù)據(jù)轉(zhuǎn)化為高附加值的情報(bào) List: 快速排序分析各個(gè)字段, 生成各種圖表。 List comparison: 對(duì)比任何兩個(gè)列表,揭示其共性或發(fā)現(xiàn)某列表的獨(dú)特性。例如對(duì)比分析兩個(gè)科研機(jī)構(gòu)或兩個(gè)競(jìng)爭(zhēng)對(duì)手。 Matrices: 通過(guò)Co-occurance矩陣,Auto-correlation矩陣, Cross-correlation矩陣, 發(fā)現(xiàn)隱含的發(fā)展趨勢(shì)或相關(guān)性。 Maps: 通過(guò)數(shù)據(jù)圖譜將數(shù)據(jù)分析的結(jié)果可視化,例如將主因素分析、相關(guān)性分析的結(jié)果以Map的方式表達(dá)出來(lái),揭示機(jī)構(gòu)間,科研人員間或各類技術(shù)之間的關(guān)系。,分析報(bào)告,TDA幫助您快速生成各種報(bào)告,為決策者更快做出更好的決策

5、提供依據(jù)。只需點(diǎn)擊按鈕即可生成公司報(bào)告、公司間的比較、和對(duì)某一技術(shù)的深入分析。 Technology Report(分別以技術(shù)/機(jī)構(gòu)/發(fā)明人為參照點(diǎn)考量新出現(xiàn)的/消失的/量最大的/獨(dú)特的技術(shù)分布報(bào)告) Top Assignees ( DWPI only,前25位專利權(quán)屬人Derwent 分類/發(fā)明人分析報(bào)告) Trend Analysis (DWPI only,從技術(shù)、市場(chǎng)、專利權(quán)人的角度,分析Derwent分類/Derwent手工代碼/IPC號(hào)對(duì)應(yīng)年份出現(xiàn)的新舊比例,顯示技術(shù)發(fā)展趨勢(shì)),提綱,Thomson Data Analyzer概況 數(shù)據(jù)導(dǎo)入與數(shù)據(jù)管理 數(shù)據(jù)清理/數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)分析

6、生成報(bào)告,案例: 3G通信行業(yè)專利分析 (The 3rd Generation ),3G,全稱為3rd Generation,中文含義就是指第三代數(shù)字通信。 1995年問(wèn)世的第一代模擬制式手機(jī)(1G)只能進(jìn)行語(yǔ)音通話;1996到1997年出現(xiàn)的第二代GSM、TDMA等數(shù)字制式手機(jī)(2G)便增加了接收數(shù)據(jù)的功能,如接受電子郵件或網(wǎng)頁(yè);第三代與前兩代的主要區(qū)別是在傳輸聲音和數(shù)據(jù)的速度上的提升,它能夠在全球范圍內(nèi)更好地實(shí)現(xiàn)無(wú)縫漫游,并處理圖像、音樂(lè)、視頻流等多種媒體形式,提供包括網(wǎng)頁(yè)瀏覽、電話會(huì)議、電子商務(wù)等多種信息服務(wù),同時(shí)也要考慮與已有第二代系統(tǒng)的良好兼容性。為了提供這種服務(wù),無(wú)線網(wǎng)絡(luò)必須能夠支

7、持不同的數(shù)據(jù)傳輸速度,也就是說(shuō)在室內(nèi)、室外和行車的環(huán)境中能夠分別支持至少2Mbps(兆比特每秒)、384kbps(千比特每秒)以及144kbps的傳輸速度。(此數(shù)值根據(jù)網(wǎng)絡(luò)環(huán)境會(huì)發(fā)生變化)。,總體技術(shù)發(fā)展趨勢(shì)宏觀分析,技術(shù)領(lǐng)域內(nèi)重要的專利權(quán)人 (專利權(quán)人名稱) 地區(qū)覆蓋范圍 (國(guó)家、地區(qū)) 創(chuàng)新性活動(dòng)進(jìn)展 時(shí)間序列分析 (優(yōu)先權(quán)年,最近15年) 排名靠前的專利申請(qǐng)者的地區(qū)分布 (Top30) 排名靠前的專利申請(qǐng)者其專利申請(qǐng)活動(dòng)的時(shí)間分布(最近15年) 技術(shù)發(fā)展趨勢(shì)(時(shí)間分布、地區(qū)分布、專利權(quán)人分布)(Manual Code、NLP words、 熱點(diǎn)技術(shù)(時(shí)間分布、地區(qū)分布、專利權(quán)人分布) 高

8、影響力專利,檢索相關(guān)專利分析數(shù)據(jù)源的獲取,數(shù)據(jù)下載,數(shù)據(jù)導(dǎo)入,Novelty:描述發(fā)明的獨(dú)特性,專利家族,DWPI Abstract 的價(jià)值,Novelty (Abstract-DWPI Novelty/NOV): 描述發(fā)明的獨(dú)特性. Detailed Description (Abstract-DWPI Detailed Desc/DTD): 當(dāng)在Novelty字段無(wú)法總結(jié)發(fā)明主要的權(quán)利主張時(shí),摘要中會(huì)出現(xiàn)此字段。 Activity (Abstract-DWPI Activity/ACT): 用于描述生物體或者化合物的生物活性 Mechanism (Abstract-DWPI Mechani

9、sm/MEC): 描述化合物或者生物體的生物機(jī)理. Use (Abstract-DWPI Use/USE): 包括該發(fā)明在不同技術(shù)領(lǐng)域的使用(應(yīng)用). If there are no disclosed uses, this is stated. Advantage (Abstract-DWPI Advantage/ADV): 包括由發(fā)明人所陳述的發(fā)明優(yōu)勢(shì). Tech Focus (Abstract-DWPI Tech Focus/FOC): 描述該發(fā)明包含的核心技術(shù)領(lǐng)域以外的技術(shù)。Technology Focus Abstract is used to group information c

10、oncerning how the invention is carried out into the technology area(s). Drawing Description (Abstract-DWPI Drawing Desc/DRW): 記錄中所包括的技術(shù)圖示的解釋,字段的更名 數(shù)據(jù)集拆分 文件的合并 記錄的去重合并,數(shù)據(jù)管理,數(shù)據(jù)集拆分,將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行合并分析,提綱,Thomson Data Analyzer概況 數(shù)據(jù)導(dǎo)入與數(shù)據(jù)管理 數(shù)據(jù)清理/數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)分析 生成報(bào)告,數(shù)據(jù)清理/數(shù)據(jù)結(jié)構(gòu)化,高質(zhì)量的數(shù)據(jù)分析結(jié)果首先取決于數(shù)據(jù)的準(zhǔn)確性與完整性: 讓數(shù)據(jù)的差異性最

11、小 盡量減少詞匯的拼寫差異、或者同義詞等 清理數(shù)據(jù)的方法包括: List Cleanup- 機(jī)器輔助識(shí)別并聚類相似的術(shù)語(yǔ) Thesauri- 按照規(guī)則識(shí)別并聚類類似的術(shù)語(yǔ) Groups 在一個(gè)字段中標(biāo)記類似的術(shù)語(yǔ),同時(shí)可保留條目細(xì)節(jié) Classifications- 手工將記錄分類到用戶制定的分類中,數(shù)據(jù)清理/數(shù)據(jù)結(jié)構(gòu)化,數(shù)據(jù)規(guī)范/數(shù)據(jù)結(jié)構(gòu)化 為什么要規(guī)范數(shù)據(jù): Alloy, alloys; “human-computer interaction” and “human computer interaction” ;單數(shù)/復(fù)數(shù)變化;拼寫錯(cuò)誤;美式/英式拼寫;公司名稱/機(jī)構(gòu)的不同書寫格式的不同;

12、,數(shù)據(jù)清理之DWPI 自動(dòng)清理,Derwent數(shù)據(jù)的自動(dòng)清理工具,預(yù)制的清理數(shù)據(jù)腳本,規(guī)范數(shù)據(jù),生成(DWPI only): Assignee (cleaned); Inventor ( Cleaned); IPC (Cleaned); Derwent Class (Cleaned),針對(duì)本課題需要清理的數(shù)據(jù),專利權(quán)人 自然語(yǔ)詞(標(biāo)題、摘要、) 專利權(quán)國(guó)家、地區(qū) IPC、Manual Code,數(shù)據(jù)清理之: List Cleanup,TDA 可以將同義詞/等同詞等加以區(qū)分; 當(dāng)使用List Cleanup工具時(shí), 您在使用文件名后綴為 .fuz 的文件對(duì)數(shù)據(jù)進(jìn)行清理. 最常用的模糊匹配文獻(xiàn)包括

13、: 機(jī)構(gòu)(Affiliation ) - 可用于公司/機(jī)構(gòu)字段,忽略常用的機(jī)構(gòu)標(biāo)志詞 (e.g. Corp, AG, KK, Ltd) 作者(Author )-用于作者字段; 發(fā)明人(Inventor )-用于發(fā)明人字段; 一般(General )-可用于所有的文本字段, e.g. cleaning NLP text fields,利用List Clean up清理數(shù)據(jù),相同專利權(quán)人的合并 (光標(biāo)拖動(dòng)放在相應(yīng)名稱下即可),將不應(yīng)該歸并的數(shù)據(jù)從組中去除(選中數(shù)據(jù)并采用右鍵),恢復(fù)繼續(xù)清理,將清理結(jié)果保存為敘詞,用于今后數(shù)據(jù)清理,使用敘詞幫助信息清理,數(shù)據(jù)清理之: Thesaurus- 敘詞表,您

14、可以對(duì)一張數(shù)據(jù)列表利用敘詞進(jìn)行清理 您可以自己編輯敘詞表 可以手工拖拽生成敘詞表 當(dāng)在Cleanup Confirm對(duì)話框內(nèi)點(diǎn)擊Save As Thesaurus或者利用Groups創(chuàng)建敘詞后 (Menu itemGroupsandCreate Thesaurus using Groups .) 再選擇已存在的敘詞文件 (*.the), 您就可以將敘詞表合并到一個(gè)已有的敘詞表里,Insert Major Item/Insert Sub Iterm,數(shù)據(jù)清理之Group,數(shù)據(jù)列表中的項(xiàng)目可以被標(biāo)記到一個(gè)集合或者一個(gè)組之中 分組功能對(duì)于減少共現(xiàn)矩陣的大小非常有幫助 將數(shù)據(jù)集合中的數(shù)據(jù)提取出來(lái)形成一

15、個(gè)新的數(shù)據(jù)集合并對(duì)其加以定義.,形成Top30專利權(quán)人組成(選中并用右鍵),提綱,Thomson Data Analyzer概況 數(shù)據(jù)導(dǎo)入與數(shù)據(jù)管理 數(shù)據(jù)清理/數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)分析 生成報(bào)告,數(shù)據(jù)分析,List:一維分析 矩陣分析:二維分析 Map:最好利用分過(guò)組的數(shù)據(jù)進(jìn)行分析 預(yù)制的分析模塊 :三維分析/分析報(bào)告,地區(qū)覆蓋 ( 專利申請(qǐng)國(guó)一維分析),右鍵選擇數(shù)據(jù)拷貝并做圖,共現(xiàn)值高于或者低于期望的數(shù)值很多時(shí),將會(huì)出現(xiàn)一個(gè)期望值顯示箭頭,箭頭的表示共現(xiàn)值與期望之差距的大小 沒(méi)有箭頭則表明這個(gè)數(shù)值與期望值沒(méi)有太大偏差,綠色向上的箭頭表示共現(xiàn)值大于預(yù)期 紅色向下箭頭表示數(shù)值低于預(yù)期.,二維矩陣分析

16、,矩陣分析的類型:,同現(xiàn)矩陣(Co-occurrence Matrix):尋找同時(shí)出現(xiàn)在兩個(gè)矩陣參數(shù)中的記錄 自相關(guān)系數(shù)矩陣(Auto-Correlation Matrix) :利用矩陣分析在相同的字段中,尋找關(guān)系密切的項(xiàng)目。如尋找合作密切的公司、發(fā)明人,自相關(guān)系數(shù)矩陣只適用于有多個(gè)數(shù)值的字段。 互相關(guān)系數(shù)矩陣(Cross-Correlation Matrix):利用矩陣分析在不同字段中,尋找關(guān)系密切的項(xiàng)目。如在相同領(lǐng)域研發(fā)相似的專利權(quán)人,同現(xiàn)矩陣(Co-occurrence Matrix),時(shí)間序列分析 (優(yōu)先權(quán)年)(共現(xiàn)矩陣),自相關(guān)系數(shù)矩陣(Auto-Correlation Matrix

17、),自相關(guān)矩陣可以顯示某一數(shù)據(jù)列表中的相互關(guān)系。例如,一個(gè)發(fā)明人的自相關(guān)矩陣可以顯示某一個(gè)團(tuán)體中成員的高度相關(guān)關(guān)系。 Correlation function is enabled when a correlation matrix is chosen. Choose from Pearsons r (the default), Cosine, or Max Proportional. Note: For Auto-Correlation Matrix, you should only use fields that have multiple values in most of the re

18、cords. For example, Inventors, Assignees, Authors or Descriptors are good choices. Date of Publication is not a good choice, since there is only one date of publication for each record.,互相關(guān)系數(shù)矩陣(Cross-Correlation Matrix),互相關(guān)系數(shù)矩陣顯示某一數(shù)據(jù)表中各項(xiàng)目基于另外一張數(shù)據(jù)表的相關(guān). 例如,作者的基于敘詞的互相關(guān)系數(shù)矩陣可以顯示有哪些團(tuán)體在寫作相同的作品. 再如:一個(gè)基于敘詞的機(jī)

19、構(gòu)互相關(guān)系數(shù)矩陣可以顯示那些在寫作相同作品的機(jī)構(gòu). 創(chuàng)建互相關(guān)系數(shù)矩陣需選擇兩個(gè)字段,第一個(gè)字段是顯示為矩陣中的行與列- 通常為一個(gè)字段或者自己定義的一小組數(shù)據(jù),選擇的第二個(gè)字段是分析行與列中項(xiàng)目相關(guān)關(guān)系的基礎(chǔ).,總體技術(shù)發(fā)展趨勢(shì)宏觀分析,地區(qū)覆蓋范圍 (國(guó)家、地區(qū)) 創(chuàng)新性活動(dòng)進(jìn)展 時(shí)間序列分析 (優(yōu)先權(quán)年,最近15年) 專利權(quán)人趨勢(shì) (專利權(quán)人名稱) 排名靠前的專利申請(qǐng)者的地區(qū)分布 (Top30) 排名靠前的專利申請(qǐng)者其專利申請(qǐng)活動(dòng)的時(shí)間分布(最近15年) 技術(shù)發(fā)展趨勢(shì)(時(shí)間分布、地區(qū)分布、專利權(quán)人分布)(Manual Code、NLP words、 熱點(diǎn)技術(shù)(時(shí)間分布、地區(qū)分布、專利權(quán)人

20、分布),排名靠前的專利申請(qǐng)者的地區(qū)分布 (Top30),排名靠前的專利申請(qǐng)者其專利申請(qǐng)活動(dòng)的時(shí)間分布(最近15年),技術(shù)發(fā)展趨勢(shì)(不同公司的技術(shù)發(fā)展側(cè)重點(diǎn)),技術(shù)發(fā)展趨勢(shì)(隨年代的變化),熱點(diǎn)技術(shù)(時(shí)間分布、地區(qū)分布、專利權(quán)人分布),Map類型: 自相關(guān)系數(shù)地圖(Auto-Correlation Map) 在相同的字段中,尋找關(guān)系密切的項(xiàng)目。如尋找合作密切的公司、發(fā)明人、國(guó)家。 互相關(guān)系數(shù)地圖(Cross-Correlation Map) 在不同字段中,尋找關(guān)系密切的項(xiàng)目。如尋找哪些公司在相同的研發(fā)領(lǐng)域關(guān)系密切。 主成分地圖 (Factor Map) 尋找經(jīng)常共同出現(xiàn)在相同專利文獻(xiàn)的項(xiàng)目,比如

21、經(jīng)常相伴出現(xiàn)的詞(NLP);經(jīng)常相伴出現(xiàn)的發(fā)明人;IPC;Manual Code,聚成詞簇。,Auto-Correlation Maps,自相關(guān)關(guān)系圖顯示一張數(shù)據(jù)表中各個(gè)條目的相互關(guān)系。例如:一個(gè)作者自相關(guān)關(guān)系圖可以顯示在一起寫作的團(tuán)隊(duì)成員。一個(gè)敘詞的自相關(guān)關(guān)系圖將可以因在同一記錄中被使用顯示它們之間的高度相關(guān)性。 注意: 對(duì)于自相關(guān)地圖而言, 您應(yīng)該選擇那些在絕大多數(shù)記錄中都含有多個(gè)數(shù)據(jù)的字段.例如, 作者或者敘詞等都是好的選擇. 出版日期則不應(yīng)選擇,因?yàn)槊織l記錄只有一個(gè)出版日期.,提綱,Thomson Data Analyzer概況 數(shù)據(jù)導(dǎo)入與數(shù)據(jù)管理 數(shù)據(jù)清理/數(shù)據(jù)結(jié)構(gòu)化 數(shù)據(jù)分析 生成

22、報(bào)告,Clean:Combine Author Networks(發(fā)明人聚組) Clean:DWPI Clean Up ( DWPI Only) Export: Fro Aureka.vpm(生成可以導(dǎo)入Aureka的數(shù)據(jù)文件,記錄之間以*TDA*) Export: Groups to Excel(將“組”導(dǎo)出到Excel) Export: Groups to Text (將“組”導(dǎo)出到Text) Export: Records to Excel (DWPI Only,將記錄中預(yù)選好的字段導(dǎo)入Excel) Export: Records to Word (DWPI Only,將記錄中預(yù)選好的字

23、段導(dǎo)入Word) Export: Records to Word,將記錄導(dǎo)出到Word) Report: Basic Report (DWPI Only,專利數(shù)位居前十位的專利權(quán)屬人報(bào)告) Report: Company Comparison(2個(gè)或5個(gè)公司間的相互比較報(bào)告,相互間比較項(xiàng)目可以選擇) Report: Company Report(報(bào)告:公司/發(fā)明人/年代/國(guó)家/技術(shù),分析數(shù)據(jù)只來(lái)自一個(gè)機(jī)構(gòu)) Report: IPC based Analysis ( DWPI Only,前10位專利權(quán)屬人相關(guān)IPC相對(duì)Basic Patent Year的分析報(bào)告) Report: Make Pivot Chart in Excel(生成二維矩陣分析相應(yīng)的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論