




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)導(dǎo)論正則表達式使用數(shù)據(jù)采集
在編寫處理字符串的程序或網(wǎng)頁時,經(jīng)常會有查找符合某些復(fù)雜規(guī)則的字符串的需要。
正則表達式就是用于描述一組字符串特征的模式,用來匹配特定的字符串。通過特殊字符+普通字符來進行模式描述,從而達到文本匹配目的工具。什么是正則表達式例如:
所有以0開頭,后面跟著2-3個數(shù)字,然后是一個連字號“-”,最后是7或8位數(shù)字的字符串(0376-7654321)
對應(yīng)的正則表達式:(0\d{2}-\d{8})|(0\d{3}-\d{7})應(yīng)用場景查找從大量信息中快速提取指定內(nèi)容,在一批url中,查找指定url。替換將指定格式的文本進行正則匹配查找,找到之后進行特定替換。驗證表單提交時,進行用戶名密碼的驗證?;疽胤戳x字符捕獲元字符量詞1324元字符代碼/語法說明.匹配除換行符以外的任意一個字符\w匹配字母或數(shù)字或下劃線或漢字\s匹配任意的空白符\d匹配數(shù)字\b匹配單詞的開始或結(jié)束^匹配字符串的開始$匹配字符串的結(jié)束例子:\ba\w*\b
匹配以字母a開頭的單詞
先是某個單詞開始處(\b),然后是字母a,然后是任意數(shù)量的字母或數(shù)字(\w*),最后是單詞結(jié)束處(\b)。\d+
匹配1個或更多連續(xù)的數(shù)字。
這里的+是和*類似的元字符,不同的是*匹配重復(fù)任意次(可能是0次),而+則匹配重復(fù)1次或更多次。反義字符代碼/語法說明\W匹配任意不是字母,數(shù)字,下劃線,漢字的字符\S匹配任意不是空白符的字符\D匹配任意非數(shù)字的字符\B匹配不是單詞開頭或結(jié)束的位置[^x]匹配除了x以外的任意字符[^abc]匹配除了abc這幾個字母以外的任意字符
有時需要查找不屬于某個能簡單定義的字符類的字符。
比如想查找除了數(shù)字以外,其它任意字符都行的情況例子:\S+
匹配不包含空白符的字符串。<a[^>]+>
匹配用尖括號括起來的以a開頭的字符串量詞代碼/語法說明*重復(fù)零次或更多次+重復(fù)一次或更多次?重復(fù)零次或一次{n}重復(fù)n次{n,}重復(fù)n次或更多次{n,m}重復(fù)n到m次量詞是用于描述量詞的前導(dǎo)字符重復(fù)次數(shù)例如:a*
表示0個或者多個a字符a{3,9}
表示3到9個a字符
一個括號內(nèi)的內(nèi)容就是一個捕獲分組,如"(\d)\d"中的"(\d)"。
一般應(yīng)用于提取括號中的文本內(nèi)容。捕獲分組代碼/語法說明(exp)匹配exp,并捕獲文本到自動命名的組里(?<name>exp)匹配exp,并捕獲文本到名稱為name的組里,也可以寫成(?'name'exp)(?:exp)匹配exp,不捕獲匹配的文本,也不給此分組分配組號例如:
正則表達式:
[^\d]*(\d{3,})[^\d]*,匹配一段字符串,以非數(shù)字字符串開頭,有3位以上的數(shù)字字符串,且非數(shù)字字符串結(jié)尾,同時將匹配到的數(shù)字字符串捕獲出來放到一個分組中。例如:
在采集豆瓣電影top250電影信息的代碼中,涉及到對電影鏈接、電影名稱、電影評分信息進行提取時,分別在對應(yīng)的文本位置設(shè)置了捕獲分組。捕獲分組1.Email地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$2.域名:
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?3.InternetURL:
[a-zA-z]+://[^\s]*或^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河北省定州市輔警招聘考試試題題庫含答案詳解(a卷)
- 2025年K2學(xué)校STEM課程實施與科學(xué)教育改革研究報告
- 初中美術(shù)九年級上冊統(tǒng)編教案
- 偏頭痛診治攻略2025
- 世界人口日人口發(fā)展現(xiàn)狀老齡化探討提升出生人口素質(zhì)課件
- 初中數(shù)學(xué)九年級下冊統(tǒng)編教案 7.6用銳角三角函數(shù)解決問題(第1課時)
- 2025屆高考物理大一輪復(fù)習(xí)課件 第六章 第31課時 專題強化:動力學(xué)和能量觀點的綜合應(yīng)用
- DeepSeek大模型教育領(lǐng)域解決方案
- 江蘇省蘇州市2024-2025學(xué)年七年級下學(xué)期生物期末模擬試卷 (含解析)
- 相似三角形測試題及答案
- 乳房外Paget病診治專家共識(2024版)解讀
- DB64-T 2133-2025 骨干渠道安全巡護檢查技術(shù)導(dǎo)則
- 法人免責(zé)協(xié)議書
- 2025年交警職業(yè)法律知識綜合試題庫
- 2025-2030中國高等職業(yè)教育行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025年廣東省深圳市南山實驗教育集團中考語文二模試卷
- 樓梯 欄桿 欄板(一)22J403-1
- 廣西河池市(2024年-2025年小學(xué)六年級語文)統(tǒng)編版期末考試((上下)學(xué)期)試卷及答案
- 2024屆九省聯(lián)考英語試題(含答案解析、MP3及錄音稿)
- 降低降低導(dǎo)管相關(guān)性尿路感染率PDCA
- 眼科學(xué)教學(xué)課件淚器病
評論
0/150
提交評論