《大數(shù)據(jù)導(dǎo)論》課件-3.3.2正則表達式使用_第1頁
《大數(shù)據(jù)導(dǎo)論》課件-3.3.2正則表達式使用_第2頁
《大數(shù)據(jù)導(dǎo)論》課件-3.3.2正則表達式使用_第3頁
《大數(shù)據(jù)導(dǎo)論》課件-3.3.2正則表達式使用_第4頁
《大數(shù)據(jù)導(dǎo)論》課件-3.3.2正則表達式使用_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)導(dǎo)論正則表達式使用數(shù)據(jù)采集

在編寫處理字符串的程序或網(wǎng)頁時,經(jīng)常會有查找符合某些復(fù)雜規(guī)則的字符串的需要。

正則表達式就是用于描述一組字符串特征的模式,用來匹配特定的字符串。通過特殊字符+普通字符來進行模式描述,從而達到文本匹配目的工具。什么是正則表達式例如:

所有以0開頭,后面跟著2-3個數(shù)字,然后是一個連字號“-”,最后是7或8位數(shù)字的字符串(0376-7654321)

對應(yīng)的正則表達式:(0\d{2}-\d{8})|(0\d{3}-\d{7})應(yīng)用場景查找從大量信息中快速提取指定內(nèi)容,在一批url中,查找指定url。替換將指定格式的文本進行正則匹配查找,找到之后進行特定替換。驗證表單提交時,進行用戶名密碼的驗證?;疽胤戳x字符捕獲元字符量詞1324元字符代碼/語法說明.匹配除換行符以外的任意一個字符\w匹配字母或數(shù)字或下劃線或漢字\s匹配任意的空白符\d匹配數(shù)字\b匹配單詞的開始或結(jié)束^匹配字符串的開始$匹配字符串的結(jié)束例子:\ba\w*\b

匹配以字母a開頭的單詞

先是某個單詞開始處(\b),然后是字母a,然后是任意數(shù)量的字母或數(shù)字(\w*),最后是單詞結(jié)束處(\b)。\d+

匹配1個或更多連續(xù)的數(shù)字。

這里的+是和*類似的元字符,不同的是*匹配重復(fù)任意次(可能是0次),而+則匹配重復(fù)1次或更多次。反義字符代碼/語法說明\W匹配任意不是字母,數(shù)字,下劃線,漢字的字符\S匹配任意不是空白符的字符\D匹配任意非數(shù)字的字符\B匹配不是單詞開頭或結(jié)束的位置[^x]匹配除了x以外的任意字符[^abc]匹配除了abc這幾個字母以外的任意字符

有時需要查找不屬于某個能簡單定義的字符類的字符。

比如想查找除了數(shù)字以外,其它任意字符都行的情況例子:\S+

匹配不包含空白符的字符串。<a[^>]+>

匹配用尖括號括起來的以a開頭的字符串量詞代碼/語法說明*重復(fù)零次或更多次+重復(fù)一次或更多次?重復(fù)零次或一次{n}重復(fù)n次{n,}重復(fù)n次或更多次{n,m}重復(fù)n到m次量詞是用于描述量詞的前導(dǎo)字符重復(fù)次數(shù)例如:a*

表示0個或者多個a字符a{3,9}

表示3到9個a字符

一個括號內(nèi)的內(nèi)容就是一個捕獲分組,如"(\d)\d"中的"(\d)"。

一般應(yīng)用于提取括號中的文本內(nèi)容。捕獲分組代碼/語法說明(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本,也不給此分組分配組號例如:

正則表達式:

[^\d]*(\d{3,})[^\d]*,匹配一段字符串,以非數(shù)字字符串開頭,有3位以上的數(shù)字字符串,且非數(shù)字字符串結(jié)尾,同時將匹配到的數(shù)字字符串捕獲出來放到一個分組中。例如:

在采集豆瓣電影top250電影信息的代碼中,涉及到對電影鏈接、電影名稱、電影評分信息進行提取時,分別在對應(yīng)的文本位置設(shè)置了捕獲分組。捕獲分組1.Email地址:

^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$2.域名:

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?3.InternetURL:

[a-zA-z]+://[^\s]*或^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論