商務(wù)智能原理與方法(第3版)-課件 Lecture10-Information Retrieval_第1頁
商務(wù)智能原理與方法(第3版)-課件 Lecture10-Information Retrieval_第2頁
商務(wù)智能原理與方法(第3版)-課件 Lecture10-Information Retrieval_第3頁
商務(wù)智能原理與方法(第3版)-課件 Lecture10-Information Retrieval_第4頁
商務(wù)智能原理與方法(第3版)-課件 Lecture10-Information Retrieval_第5頁
已閱讀5頁,還剩66頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)挖掘——信息檢索內(nèi)容安排信息檢索基本概念信息檢索模型文本預(yù)處理索引建立搜索結(jié)果排序信息檢索測度搜索引擎廣告互聯(lián)網(wǎng)發(fā)展歷程1987年,中國第一封電子郵件AcrosstheGreatWallwecanreacheverycornerintheworld.1993年,第一個(gè)圖形瀏覽器mosaic誕生1991年,TimBerners-Lee將超文本引入互聯(lián)網(wǎng)WWW雛形,HTTP傳輸協(xié)議,Web服務(wù)器技術(shù)1992年,美國提出“信息高速公路計(jì)劃”1994年,全球主機(jī)超過300萬臺(tái)1995年,超過600萬臺(tái)2002年,互聯(lián)網(wǎng)泡沫破裂互聯(lián)網(wǎng)發(fā)展歷程1996年10月,北京中關(guān)村大街(白頤路)路口一夜之間豎起一面廣告牌子,上書:“中國人離信息高速公路還有多遠(yuǎn)?——向北1500米。”

——瀛海威時(shí)空

(InfoHighWay)張樹新:“進(jìn)入瀛海威時(shí)空,你可以閱讀電子報(bào)紙,到網(wǎng)絡(luò)咖啡屋同不見面的朋友交談,到網(wǎng)絡(luò)論壇中暢所欲言,還可以隨時(shí)到國際互聯(lián)網(wǎng)上走一遭……”信息產(chǎn)業(yè)是中華民族崛起于世界的一個(gè)重要機(jī)會(huì)互聯(lián)網(wǎng)發(fā)展歷程1995年,Yahoo、InfoSeek、FastSearch、AltaVista、Excite成立互聯(lián)網(wǎng)Web站點(diǎn)數(shù)超過100萬1998年,Google成立英文搜索引擎2000年Adwords2011年圖像搜索2000年,Baidu成立中文搜索引擎搜索引擎發(fā)展分類目錄的一代Yahoo,hao123人工收集整理,高質(zhì)量網(wǎng)站分門別類文本檢索的一代AltaVista、Excite采用信息檢索模型,計(jì)算查詢關(guān)鍵詞與網(wǎng)頁文本內(nèi)容的相關(guān)程度用戶中心的一代,多場景搜索(多媒體數(shù)據(jù)、地理數(shù)據(jù))理解用戶需求為核心不同用戶,返回結(jié)果不同同一用戶,返回結(jié)果也不同鏈接分析的一代Google、Baidu引入網(wǎng)頁之間鏈接的分析搜索引擎的目標(biāo)更全商業(yè)搜索引擎索引網(wǎng)頁的覆蓋范圍只占互聯(lián)網(wǎng)頁面的一部分更快一個(gè)檢索的平均響應(yīng)時(shí)間小于0.5秒更準(zhǔn)核心競爭力排序技術(shù)用戶研究搜索的核心問題用戶真正的需求是什么?用戶查詢的平均長度2.7個(gè)單詞同一查詢詞,不同用戶同一用戶,不同時(shí)間和地點(diǎn)哪些信息是和用戶需求真正相關(guān)的?信息匹配的過程基于關(guān)鍵詞的相關(guān)性更準(zhǔn)信息發(fā)布者的情況不知道信息可能是矛盾的信息搜索過程信息檢索InformationRetrieval兩條主線后臺(tái)抓取文檔,建立索引前臺(tái)分析用戶查詢條件信息檢索形式關(guān)鍵詞查詢KeywordQueries用戶將查詢意圖用一個(gè)或若干個(gè)關(guān)鍵詞表達(dá)希望查詢到包含所有查詢關(guān)鍵詞的文檔用戶輸入“數(shù)據(jù)存儲(chǔ)”,“存儲(chǔ)數(shù)據(jù)”布爾查詢BooleanQueries查詢允許用戶使用一些布爾操作符AND、OR、NOT“數(shù)據(jù)OR存儲(chǔ)”信息檢索形式短語查詢PhraseQueries這種查詢一般是包含一個(gè)短語或者句子用雙引號(hào)表達(dá)短語查詢“數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)”近似查詢ProximityQueries用戶希望得到更為寬泛的查詢結(jié)果允許查詢結(jié)果中出現(xiàn)查詢短語中的查詢詞,查詢詞之間可以有其他詞間隔的文檔數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù)信息檢索形式自然語言查詢NaturalLanguagesQuestions用戶通過自然語言表達(dá)查詢要求檢索系統(tǒng)會(huì)在理解用戶查詢意圖的前提下進(jìn)行查詢“問答系統(tǒng)”(Q&ASystems)信息檢索模型不同的信息檢索模型決定了文檔和查詢條件的表達(dá)方式布爾模型空間向量模型統(tǒng)計(jì)語言模型文檔和查詢條件是一系列關(guān)鍵詞的集合關(guān)鍵詞之間的順序以及關(guān)鍵詞在文檔中的位置不會(huì)影響計(jì)算結(jié)果信息檢索模型給定一個(gè)文檔集合D={d1,d2,…,dN}di表示第i個(gè)文檔。V={t1,t2,…,tM}是一組各自不同的詞所構(gòu)成的詞匯表(Vocabulary)ti表示第i個(gè)特定的詞。每個(gè)dj中的詞ti都有一個(gè)相應(yīng)的權(quán)重

ij。D中的每一個(gè)文檔都可以表示成一個(gè)維度為M的向量布爾模型如果一個(gè)詞ti出現(xiàn)在文檔dj中,權(quán)重

ij=1如果一個(gè)詞ti不出現(xiàn)在文檔dj中,權(quán)重

ij=0查詢詞是被布爾運(yùn)算符所組合在一起的系統(tǒng)判斷每一個(gè)文檔與查詢條件的關(guān)系精確匹配空間向量模型VectorSpaceModel(Salton,1975)RepresenttextdocumentsasvectorsFirstusedinSMARTInformationRetrievalSystemTF-IDFModelWordsegmentationTermFrequency,tiindocumentdjDocumentFrequency,tiinalldocuments.統(tǒng)計(jì)語言模型一種以概率為基礎(chǔ)的模型較多應(yīng)用于自然語言處理以及語音識(shí)別中文本預(yù)處理停用詞移除stopwordremoval詞干提取stemming處理數(shù)字、連接詞停用詞移除在語言表達(dá)中常常出現(xiàn),但對(duì)于表達(dá)具體語義沒有太多含義,通??梢院雎缘膯卧~英文表達(dá)中,冠詞、介詞以及連詞都屬于停用詞a,about,an,are,as,at,be,by,for,from,how,in,is,of,on,or,that,the,these,this,to,was,what,when,where,who,will,with中文表達(dá)的,在,和,通常,了,是,為,有,這,多,與,以詞干提取許多種語言中,對(duì)于同一種詞有著不同的表達(dá)方式主要針對(duì)英文一個(gè)名詞具有單數(shù)和復(fù)數(shù)兩種形式如果不進(jìn)行處理,將使得系統(tǒng)的查全率降低“buy”,“bought”,“buying”等詞,詞干提取會(huì)將它們統(tǒng)一轉(zhuǎn)化為“buy”一種較為常用的英文詞干提取算法是由MartinPorter等人提出的一個(gè)動(dòng)詞可能有不同的時(shí)態(tài),進(jìn)行時(shí),過去時(shí),將來時(shí)等詞干提取詞干提取保證了較好的查全率進(jìn)一步降低了索引的難度和所占用的空間降低檢索系統(tǒng)的查準(zhǔn)率網(wǎng)絡(luò)檢索中,查準(zhǔn)率往往更為重要如何進(jìn)行詞干提取時(shí)保證檢索結(jié)果的查準(zhǔn)率不相關(guān)的文檔會(huì)被當(dāng)做相關(guān)文檔檢索出來處理連接詞state-of-the-art將其中的連字號(hào)轉(zhuǎn)化為空格,轉(zhuǎn)化為“stateoftheart”將其中的連字號(hào)直接刪除,轉(zhuǎn)化為“stateoftheart”這樣的兩種方式在一些檢索系統(tǒng)中都會(huì)被索引檢索系統(tǒng)在設(shè)計(jì)連字號(hào)移除的規(guī)則時(shí),也要針對(duì)一些特殊情況設(shè)計(jì)特殊的規(guī)則網(wǎng)頁預(yù)處理辨別不同字段在HTML中,字段出現(xiàn)在不同的域中,標(biāo)題、元數(shù)據(jù)、正文等。在不同域中出現(xiàn)的字段權(quán)重是不同的標(biāo)題中出現(xiàn)字段的權(quán)重應(yīng)高于正文中的相同字段辨別錨文本錨文本通常能夠準(zhǔn)確的概括和描述所指向的網(wǎng)頁的信息移除HTML標(biāo)簽網(wǎng)頁內(nèi)容形式多樣,包含了諸如廣告、導(dǎo)航等大量信息辨別主要內(nèi)容塊搜索索引網(wǎng)絡(luò)搜索和傳統(tǒng)的信息檢索的主要功能是找到符合用戶查詢條件的文檔或網(wǎng)頁這樣的一種方法在處理小規(guī)模檢索數(shù)據(jù)時(shí)是有效的一個(gè)較為直觀的想法是遍歷存儲(chǔ)中的所有文檔或網(wǎng)頁,依次判斷這些文檔或網(wǎng)頁是否包含檢索條件中的關(guān)鍵詞,進(jìn)而將符合要求的查詢結(jié)果返回給用戶搜索索引時(shí)間換空間在存儲(chǔ)中建立起索引結(jié)構(gòu),從而加快檢索和查詢的速度后臺(tái)時(shí)間換前臺(tái)時(shí)間一種流行的索引方法是倒排索引(InvertedIndex)當(dāng)前搜索引擎中十分重要的一種索引方法倒排索引倒排索引的形式是一張列表,該列表包含了每一個(gè)不同的詞和包含該詞的文檔可以利用倒排索引在固定時(shí)間內(nèi)找到包含查詢詞的文檔給定文檔集合D={d1,d2,…,dN},其中每一個(gè)文檔包含一個(gè)特定的ID號(hào)倒排索引倒排索引主要包含兩個(gè)部分第一部分是一個(gè)詞匯表V,這個(gè)詞匯表中包含了文檔集合D中所包含的不同詞idj表示第j個(gè)文檔的ID,fij表示詞ti出現(xiàn)在文檔j中的頻率,o1表示詞ti第一次出現(xiàn)時(shí)的偏移量(如在文檔中所處的詞的位置),ok是詞ti第k次出現(xiàn)時(shí)的偏移量第二部分是每個(gè)詞ti都對(duì)應(yīng)一組倒排列表記錄,這個(gè)記錄存儲(chǔ)了包含詞ti的文檔ID,以及一些其他的信息倒排索引假設(shè)有3個(gè)英文文檔,對(duì)應(yīng)的ID分別是id1,id2和id3。id1:Dataminingispowerful.id2:Usepowerfulminingapplications.id3:Miningsystemisacomplexsystem.id1:Dataminingpowerful.

123id2:Usepowerfulminingapplications。1234id3:Miningsystemcomplexusefulsystem.12345我們將停用詞“a”,“is”和“and”去掉,暫不進(jìn)行詞干提取操作。此時(shí)每個(gè)詞的偏移量為:倒排索引詞匯表V={applications,complex,data,mining,powerful,system,use,useful}詞倒排索引Applications<id2,1,[4]>Complex<id3,1,[3]>Data<id1,1,[1]>Mining<id1,1,[2]>,<id2,1,[3]>,<id3,1,[1]>Powerful<id1,1,[3]>,<id2,1,[2]>System<id3,2,[2,5]>Use<id2,1,[1]>Useful<id3,1,[2,4]>基于倒排索引的檢索搜索詞匯表當(dāng)檢索系統(tǒng)得到用戶的查詢條件之后,它需要在詞匯表中搜索每一個(gè)查詢詞使用B樹、哈?;蛘叨嫠阉鞯人惴ㄟM(jìn)行快速的檢索如果詞匯表的規(guī)模為M(即|V|=M),那么檢索一個(gè)查詢詞的時(shí)間復(fù)雜度可以達(dá)到O(logM)基于倒排索引的檢索結(jié)果合并如果查詢條件中包含多個(gè)詞,那么就需要進(jìn)行結(jié)果的合并在倒排索引中查到每一項(xiàng)之后,需要合并每一項(xiàng)取得它們之間的交集計(jì)算排名根據(jù)相關(guān)度函數(shù)給每個(gè)文檔計(jì)算相關(guān)度,并將所有得到的文檔排名示例查詢“PowerfulMining”得到如下兩個(gè)倒排索引同時(shí)包含這兩個(gè)關(guān)鍵詞的文檔id1和id2Powerful:<id1,1,[3]>,<id2,1,[2]>Mining:<id1,1,[2]>,<id2,1,[3]>,<id3,1,[1]>分別計(jì)算兩個(gè)文檔與查詢條件的相關(guān)性。考慮到兩個(gè)關(guān)鍵詞之間的順序和距離,第二個(gè)文檔的相關(guān)性要高于第一個(gè)文檔id2:Usepowerfulminingapplications.id1:Dataminingpowerful.倒排索引的建立依次掃描文檔集合中每個(gè)文檔的每個(gè)詞查找在索引中是否已經(jīng)有這個(gè)詞如果有這個(gè)詞,則將這個(gè)文檔的ID號(hào)和對(duì)應(yīng)偏移量記錄到索引中。如沒有這個(gè)詞,則在索引中新生成一個(gè)葉子節(jié)點(diǎn),用來表示這個(gè)新詞,并將這個(gè)文檔的ID號(hào)和對(duì)應(yīng)的偏移量記錄到這個(gè)新的節(jié)點(diǎn)上。倒排索引的建立id1:Dataminingpowerful.

123id2:Usepowerfulminingapplications。1234id3:Miningsystemcomplexusefulsystem.12345搜索結(jié)果排序最為經(jīng)典的一種網(wǎng)頁排名方法是PageRank,已在社會(huì)網(wǎng)絡(luò)分析中介紹。另一種經(jīng)典算法為HITSHITS算法是英文HypertextInducedTopicSearch首字母縮寫HITS算法是與查詢相關(guān)的當(dāng)用戶提交一個(gè)查詢請(qǐng)求時(shí),HITS算法首先得到檢索系統(tǒng)返回的相關(guān)頁面,并依此為基礎(chǔ),從鏈入鏈接和鏈出鏈接兩個(gè)角度擴(kuò)展出兩個(gè)頁面集合,并計(jì)算頁面的評(píng)級(jí)權(quán)威等級(jí)(Authorityranking)中心等級(jí)(Hubranking)HITS權(quán)威網(wǎng)頁和中心網(wǎng)頁一個(gè)有權(quán)威(Authority)的網(wǎng)頁,意味著這個(gè)網(wǎng)頁一定擁有數(shù)量眾多的鏈入鏈接。有權(quán)威的網(wǎng)頁會(huì)包含重要或者權(quán)威的信息,會(huì)得到許多外部網(wǎng)頁的信賴和引用一個(gè)中心(Hub)的網(wǎng)頁,意味著這個(gè)網(wǎng)頁一定擁有數(shù)量眾多的鏈出鏈接,這些鏈接分別指向不同的權(quán)威網(wǎng)頁。一個(gè)中心網(wǎng)頁作為某個(gè)特定話題的組織和集成者,它會(huì)指向許多和這個(gè)話題相關(guān)的權(quán)威網(wǎng)頁。HITSHITS算法的核心思想是中心網(wǎng)頁和權(quán)威網(wǎng)頁之間存在互相促進(jìn)的關(guān)系好的中心網(wǎng)頁一定會(huì)有很多的鏈出鏈接指向好的權(quán)威網(wǎng)頁好的權(quán)威網(wǎng)頁也一定會(huì)包含很多好的中心網(wǎng)頁的鏈入鏈接HITS當(dāng)用戶提交查詢條件q之后,檢索系統(tǒng)會(huì)檢索到相關(guān)網(wǎng)頁,并根據(jù)網(wǎng)頁的相關(guān)性將檢索結(jié)果排序。HITS算法一般選取排名在前200的網(wǎng)頁,這些網(wǎng)頁與查詢條件q的相關(guān)性較高。這些網(wǎng)頁所形成的集合稱作為根基W。HITS對(duì)W進(jìn)行擴(kuò)展將指向W集內(nèi)部的網(wǎng)頁和W集所指向的外部網(wǎng)頁加入W,形成擴(kuò)充后的網(wǎng)頁集合,在這里記為S,稱作基集對(duì)于W中的每一個(gè)網(wǎng)頁,為限制最終擴(kuò)充形成的集合S的規(guī)模,HITS算法一般只需要將50個(gè)指向它的外部網(wǎng)頁加入W中。HITS計(jì)算S中每個(gè)網(wǎng)頁的權(quán)威分值和中心分值。假設(shè)待考察的網(wǎng)頁數(shù)目為n,S所形成的有向圖為G=(V,E),其中V是有向圖的節(jié)點(diǎn)集合(網(wǎng)頁集合),E是有向圖中的有向邊集合。假設(shè)L是有向圖的鄰接矩陣HITS每個(gè)網(wǎng)頁都有一個(gè)權(quán)威分值a(i),也都有一個(gè)中心分值h(i)。按HITS算法的核心思想,這兩種分值之間是相互促進(jìn)的將所有網(wǎng)頁的權(quán)威分值構(gòu)成列向量a=(a(1),a(2),…,a(n))T,所有網(wǎng)頁的中心分值構(gòu)成列向量h=(h(1),h(2),…,h(n))THITSak和hk分別代表第k次迭代時(shí)的權(quán)威分值向量和中心分值向量,初始時(shí),a0=h0=(1,1,1,…,1)T為保證迭代過程中權(quán)威向量和中心向量足夠小,每一步迭代結(jié)束之后需要將這兩個(gè)向量歸一化,如果兩次迭代之間的差異小于預(yù)設(shè)定的向量時(shí),迭代停止。HITSHITS算法的優(yōu)點(diǎn)根據(jù)用戶搜索內(nèi)容來計(jì)算網(wǎng)頁的評(píng)級(jí),能夠提供更加相關(guān)的權(quán)威頁面和中心頁面抵御作弊能力較差HITS算法的不足網(wǎng)頁可修改自身的鏈出鏈接而影響HITS算法的效果形成基集S時(shí)加入了大量的外部網(wǎng)頁,可能會(huì)包含與搜索話題不相關(guān)的內(nèi)容初始值敏感效率問題其他搜索結(jié)果排序方法相關(guān)性Apple按查詢結(jié)果與查詢條件的相關(guān)程度排序多樣性查詢結(jié)果之間差異性代表查詢條件的多個(gè)方面代表性查詢結(jié)果能夠反映整個(gè)查詢內(nèi)容代表性信息提取現(xiàn)有查詢結(jié)果排序方法難以滿足代表性Top-kTop-k查詢結(jié)果代表性信息代表性信息提取文本聚類將搜索結(jié)果劃分成不同類別類內(nèi)相似,類間不同每一類提取中心點(diǎn)作為該類搜索結(jié)果的代表元Doc.文本聚類代表性信息子集Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.Doc.代表性信息提取提取中心點(diǎn)作為代表元在線商品評(píng)論提取Comprehensive提取結(jié)果的全面性,表達(dá)所有的featureCharacteristic不同的feature上用戶表達(dá)的情感比例不同考慮時(shí)間、有用性六條評(píng)論,在三個(gè)特征上[f1+,f1-,f2+,f2-,f3+,f3-]的分布為[4/6,2/6,4/6,0/6,2/6,4/6],提取結(jié)果為{r4,r5,r6},它的分布為[2/3,1/3,2/3,0/3,1/3,2/3]信息檢索測度查準(zhǔn)率Precision查全率Recall平均查準(zhǔn)率AveragePrecision查全率衡量檢索出的文檔中相關(guān)文檔占所有相關(guān)文檔的比例查全率反映查詢結(jié)果中是否涵蓋全部相關(guān)文檔查全率越高,查詢結(jié)果中相關(guān)文檔的比例越高如果查全率為1,則該檢索系統(tǒng)將所有與查詢條件相關(guān)的文檔均檢索出來,這也是最為理想的情況查準(zhǔn)率衡量檢索出的文檔中的相關(guān)文檔占本次所有檢索出文檔的比例反映了檢索的噪音情況查準(zhǔn)率越高,查詢結(jié)果中不相關(guān)文檔比例越低查準(zhǔn)率為1,說明本次檢索結(jié)果中所有檢出的文檔均為相關(guān)文檔,沒有任何噪音查全率與查準(zhǔn)率理想情況下查全率和查準(zhǔn)率均越高越好事實(shí)上這兩者在某些情況下是矛盾的一個(gè)將文檔集合中所有文檔返回為結(jié)果集合的系統(tǒng)有100%的查全率,但是查準(zhǔn)率卻很低如果一個(gè)系統(tǒng)只能返回唯一的文檔,會(huì)有很低的查全率,但卻可能有100%的查準(zhǔn)率F-measure將查全率和查準(zhǔn)率綜合起來的一個(gè)評(píng)測指標(biāo)查全率和查準(zhǔn)率的調(diào)和平均F1-measure平均查準(zhǔn)率在網(wǎng)絡(luò)搜索中,系統(tǒng)會(huì)根據(jù)相似度以及其他指標(biāo)給出一個(gè)文檔的排名,因此也會(huì)有一些指標(biāo)被用來評(píng)價(jià)相應(yīng)的排名結(jié)果。給定一個(gè)文檔集合D,D中所有文檔數(shù)量為N。給出一個(gè)查詢條件q,檢索系統(tǒng)根據(jù)查詢結(jié)果與查詢條件之間的相似度分?jǐn)?shù),給出查詢結(jié)果的排名情況Rq,這個(gè)排名情況如下所示:平均查準(zhǔn)率可以對(duì)排序Rq中的每一個(gè)文檔計(jì)算查全率和查準(zhǔn)率第i個(gè)文檔的查全率是從第1到第i個(gè)文檔中相關(guān)文檔數(shù)量在Rq中相關(guān)文檔數(shù)量的占比排在第i位的文檔的查準(zhǔn)率是從第1到第i個(gè)文檔中相關(guān)文檔數(shù)量比上當(dāng)前的位置數(shù)i平均查準(zhǔn)率一個(gè)文檔數(shù)據(jù)集D,包含18個(gè)文檔。一個(gè)用戶輸入一個(gè)查詢條件q,已知其中有9個(gè)文檔是與查詢條件q相關(guān)排名是否相關(guān)Precision(i)Recall(i)1是1/1=100%1/9=11%2是2/2=100%2/9=22%3是3/3=100%3/9=33%4是4/4=100%4/9=44%5是5/5=100%5/9=56%6是6/6=100%6/9=67%7否6/7=86%6/9=67%8是7/8=88%7/9=78%9否7/9=78%7/9=78%10否7/10=70%7/9=78%11是8/11=73%8/9=89%12是9/12=75%9/9=100%13否9/13=69%9/9=100%14否9/14=64%9/9=100%15否9/15=60%9/9=100%16否9/16=56%9/9=100%17否9/17=53%9/9=100%18否9/18=50%9/9=100%平均查準(zhǔn)率在實(shí)際的網(wǎng)絡(luò)查詢中,查全率往往是很難計(jì)算的一種可行的方案為用戶提供代表性查詢結(jié)果大多數(shù)用戶只會(huì)瀏覽查詢結(jié)果的前十幾條查全率對(duì)于網(wǎng)絡(luò)檢索的意義并不是很大代表性信息可以反映原始信息的大多數(shù)內(nèi)容代表性信息本身的內(nèi)容冗余比較小搜索引擎廣告?zhèn)鹘y(tǒng)廣告市場電視、廣播、報(bào)紙、戶外廣告,……傳統(tǒng)的媒體電視CNN,NBA,CCTV,……報(bào)紙人民日?qǐng)?bào),WallstreetJournal,……網(wǎng)絡(luò)時(shí)代的第一代新媒體門戶網(wǎng)站Sina,Yahoo,163,Sohu,AOL,MSN,……網(wǎng)絡(luò)時(shí)代的第一代新媒體網(wǎng)絡(luò)時(shí)代的第一代新媒體第一代媒體的主要?jiǎng)?chuàng)新開辟的新的媒體市場主要廣告業(yè)務(wù)模式是通過在頁面上添加廣告圖標(biāo)和鏈接。存在的局限:所有的客戶都希望在首頁上做廣告;首頁的尺寸有限(甚至比電視還低,電視是帶狀媒體,而網(wǎng)站是頁面媒體);首頁的廣告價(jià)格昂貴;因此,在經(jīng)過2000年之前的快速增長后,2000年之后,第一代媒體的廣告收入增長速度下降。Google的Adwords搜索的價(jià)值按照用戶給出的關(guān)鍵字搜索出最相關(guān)的網(wǎng)站;一個(gè)潛在的推論用戶給定的關(guān)鍵字說明用戶很可能會(huì)對(duì)與此關(guān)鍵字相關(guān)的網(wǎng)站感興趣如果能在用戶的搜索結(jié)果頁面上,添加相應(yīng)的廣告鏈接,則可能形成有效購買行為的可能性更加大。Google的Adwords傳統(tǒng)的營銷問題:1、怎樣對(duì)客戶進(jìn)行細(xì)分,哪些是有價(jià)值的客戶、哪些是沒價(jià)值的用戶?2、如何選擇推廣的渠道,我們根本不知道哪個(gè)推廣渠道效果最好、不知道有哪些轉(zhuǎn)化瓶頸,卡住了我們的客戶?3、怎樣測量廣告的投放效果?到底給哪些人播放了?GoogleAdWords和精準(zhǔn)營銷傳統(tǒng)媒體+第一代網(wǎng)絡(luò)媒體電視+報(bào)紙+門戶網(wǎng)站+…只能關(guān)注20%的優(yōu)良顧客(主流),無法準(zhǔn)確定位80%的普通顧客昂貴的廣告費(fèi)用新一代網(wǎng)絡(luò)媒體Google+Baidu+…通過搜索技術(shù),可以精準(zhǔn)定位到幾乎所有的顧客和需求按照點(diǎn)擊收費(fèi)費(fèi)用低廉實(shí)際上,GoogleAdwords的出現(xiàn),在全世界范圍內(nèi)新增加了上千萬的新的小型廣告用戶。精準(zhǔn)營銷和長尾理論數(shù)據(jù)分析案例如何

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論