




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
本文格式為Word版,下載可任意編輯——織夢DedeCms采集規(guī)矩教程
篇一:DEDECMS完整采集教程(共三篇)
DEDECMS完整采集教程(列表設置篇)-marco608原創(chuàng)
以的html教程中的數(shù)據(jù)庫為例,地址是
/web-art/htmlbase/HTML/index.html
一,開啟dedecms,進入,新建一個節(jié)點,模型我們就選擇
/4410828
二,填寫節(jié)點的基本信息:
名稱就自己定義吧。
編碼就比較重要,大家可以在頁面點擊右鍵來看該頁面的編碼。
來源就自己定義吧。
防盜鏈就看目標站點的有無刷新限制,有就設置一下超時時間。
/4410828
三,設置采集列表:
我們要采集的列表是這樣的:
而我們要設置的列表是這樣的:
下面我們來說明一下這個設置是怎么填的。
來源網(wǎng)址很重要的。列表的獲取就是從這里得到的。
自己開啟:/web-art/htmlbase/HTML/list_33_2.html看看分頁的規(guī)律。不難看出吧?
然后我們在設置列表分頁時,就轉換為變量值的形式:
/web-art/htmlbase/HTML/list_33_[var:分頁].html
而變量起始值是1,終止值是3,就代表1至3的列表頁了。
正則配置網(wǎng)址就看本身是否有比較特定的文章網(wǎng)址字符。例如page1.html之類的。
下面的html范圍就比較重要。
我們看原dede的列表。我們在瀏覽器里查看源文件。
查找以下代碼:
看到這里,你一定要認識常用的html代碼。
這里要復制代碼起始就是那個文章列表的表格的開始部分吧。
下面就是文章列表的表格的終止部分的代碼:
篇二:DeDeCMS5.7詳細采集教程
DeDeCMS織夢的采集教程,超級詳細
超級詳盡的織夢采集教程
看到好多網(wǎng)友都為織夢(DEDECMS)的采集教程頭疼,的確,官方出的教程太籠統(tǒng)了,什么都沒說,換個網(wǎng)站你什么都做不了,這個教程是最詳盡的教程,讓你一看即會首先我們開啟織夢后臺點擊采集——采集節(jié)點管理——增加新節(jié)點
這里我們以采集普通文章為例,我們選擇普通文章,然后確定
我們進入了采集的設置頁面,填寫節(jié)點名稱,就是給這個新節(jié)點取個名字,這里你可以任意填寫。
一、設置文章列表頁面
然后開啟你想要采集的文章列表頁,這里我們以織夢官網(wǎng)為例
/web-manage/jianzhanxinde/開啟這個頁面,右鍵——查看源文件
找到目標頁面編碼,就在charset后面
頁面基本信息其他的一般就不用管了,填完了如圖
現(xiàn)在我們來填寫列表網(wǎng)址獲取規(guī)則看看文章列表第一頁的地址
/web-manage/jianzhanxinde/list_49_1.html
對比其次頁的地址/web-manage/jianzhanxinde/list_49_2.html我們發(fā)現(xiàn)了他們除了49_后面的數(shù)字不一樣,其他的都一樣,所以我們可以這樣寫/web-manage/jianzhanxinde/list_49_(*).html就是把1換成了(*)由于這里只有2頁,所以我們就填從1到2每頁遞增當然是1了,2-1...是等于1吧
這里我們就填寫完了
沒有規(guī)則的路徑,需要手動設定
可能大家采集的有些列表沒有規(guī)則,那就只有手工指定列表網(wǎng)址了,如圖
每行寫一個頁面地址
列表規(guī)則寫完了,我們就開始寫文章網(wǎng)址匹配規(guī)則了,回到文章列表頁右鍵查看源文件找到區(qū)域開始的HTML,就是找文章列表開始的標志。
我們很簡單的找到了如圖中的“新聞列表〞。從這里開始,后面就是文章列表里我們再找文章列表終止的HTML
就是這個了,一個很簡單找到的標志
假使鏈接中含有圖片:
不處理采集為縮略圖這里根據(jù)自己的需要選擇
對區(qū)域網(wǎng)址進行再次篩選:(使用正則表達式)
必需包含:(優(yōu)先級高于后者)
不能包含:
開啟源文件,我們可以很明白的看到,文章鏈接都是以.html終止的
所以,我們在必需包含后面填.html假使遇到有些列表很麻煩,還可以填寫后面的不能包含
實例如圖
二、設置文章內(nèi)容采集
我們點擊保存設置進入下一步,可以看到我們獲得的文章網(wǎng)址
看到這些就是對的了,我們保存信息進入下一步設置內(nèi)容字段獲取規(guī)則
我們看看文章有沒有分頁,隨便進入一篇文章看看。。我們看到這里的文章沒有分頁所以這里的我們就默認了
我們現(xiàn)在來找文章標題等等隨便進入一篇文章,右鍵查看源文件看看這些
依照源碼填寫
我們再來填寫文章內(nèi)容的開始,終止和上面的一樣,找到開始和終止標志
篇三:dedecms采集規(guī)則
dedecms采集規(guī)則dedeCMS采集規(guī)則,過濾,替換文章內(nèi)的部分內(nèi)容
1.采集去除鏈接
[Copytoclipboard]CODE:
{dede:trim}]*)([^]*){/dede:trim}
讓field:title標題突破30這個長度,修改代碼的方法
找到./include/inc_arcpart_view.php
行291:
if($titlelen==)$titlelen=30;
修改為
if($titlelen==)$titlelen=60;
就可以了,然后,你可以這樣調用了
{dede:channelArtlisttypeid=0col=1tablewidth=100%}
{dede:arclistrow=10}
[field:titlefunction=cn_substr(@me,38)/]
{/dede:arclist}
{/dede:channelArtlist}
把這個延伸一下:關于inc_arcpart_view.php
functionGetArcList($typeid=0,$row=10,$col=1,$titlelen=30,$infolen=160,
$imgwidth=120,$imgheight=90,$listtype=all,$orderby=default,$keyword=,$innertext=,$tablewidth=100,$arcid=0,$idlist=)
這里的參數(shù)都可以更改你實際需要的模板元素尺寸大小.
2.采集過慮中去掉鏈接保存文字的方法!
柏老大的方法是{dede:trim}a([^]*)([^]*)/a{/dede:trim}
這樣做會去掉ahf與/a之間的字符!這樣整個文章就少了部分字符,不完整了!
后來我屢屢測試,終究找到了正確的使用方法!如下:
{dede:trim}a([^]*){/dede:trim}
{dede:trim}/a{/dede:trim}
做成兩條采集規(guī)則就可以了!
在實際使用中好像([^]*)([^]*)兩條一起使用才行!
3.過濾div
{dede:trim}]*){/dede:trim}
{dede:trim}
{/dede:trim}
過濾js
{dede:trim}]*)([^]*){/dede:trim}
過濾未知變量字符
固定(.*)固定
4.dede萬能過濾代碼
以下是常用的正則表達式標簽
{dede:trim}tbody(.*){/dede:trim}
{dede:trim}/tbody{/dede:trim}
{dede:trim}table(.*){/dede:trim}
{dede:trim}/table{/dede:trim}
{dede:trim}tr(.*){/dede:trim}
{dede:trim}/tr{/dede:trim}
{dede:trim}td(.*){/dede:trim}
{dede:trim}/td{/dede:trim}
{dede:trim}font(.*){/dede:trim}
{dede:trim}/font{/dede:trim}
{dede:trim}a(.*){/dede:trim}
{dede:trim}/a{/dede:trim}
{dede:trim}param(.*){/dede:trim}
{dede:trim}embed(.*)/embed{/dede:trim}
{dede:trim}object(.*)/object{/dede:trim}
{dede:trim}iframe(.*)/iframe{/dede:trim}
{dede:trim}form(.*)/form{/dede:trim}
{dede:trim}input(.*){/dede:trim}
{dede:trim}script(.*)/script{/dede:trim}
{dede:trim}style(.*)/style{/dede:trim}
{dede:trim}!--(.*)--{/dede:trim}
以下為不常用的正則表達式標簽
{dede:trim}div(.*){/dede:trim}
{dede:trim}/div{/dede:trim}
{dede:trim}center(.*){/dede:trim}
{dede:trim}/center{/dede:trim}
{dede:trim}p(.*){/dede:trim}
{dede:trim}/p{/dede:trim}
{dede:trim}span(.*){dede:trim}
{dede:trim}/span{dede:trim}
{dede:trim}img(.*){/dede:trim}
/////////////////////////////////////
5.織夢標題不全,鼠標指向顯示全部的代碼:
{dede:arclisttitlelen=100}
[field:titlefunction=(strlen(@me)40?cn_substr(@me,40):@me)/]
{/dede:arclist}
6.dede/inc/inc_archives_functions.php第100行(flash頻道遠程flash本地化的BUG)$cfg_uploaddir=$GLOBALS[media_dir];
修改成
$cfg_uploaddir=$GLOBALS[cfg_other_medias];
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度紅木家具定制與古建筑修復合同
- 長春2025年度貨運合同糾紛律師調解服務協(xié)議
- 2025年度租賃合同解除函及房屋租賃市場調研報告
- 產(chǎn)品入庫管理表格(零售業(yè)特定)
- 汽車維修技術故障診斷與排除試卷及答案解析
- 租賃平臺房東與租客權益保障協(xié)議
- 農(nóng)村環(huán)境保護與生態(tài)恢復項目合作合同書
- 鄉(xiāng)村新型產(chǎn)業(yè)開發(fā)項目協(xié)議
- 史記中的人物故事深度解讀
- 鋪貨擔保合同合作協(xié)議
- 《跨境直播運營》課件-跨境直播的概念和發(fā)展歷程
- 施工現(xiàn)場安全隱患檢查表
- DL∕T 478-2013 繼電保護和安全自動裝置通 用技術條件 正式版
- DL∕T 516-2017 電力調度自動化運行管理規(guī)程
- 《原來數(shù)學這么有趣》小學數(shù)學啟蒙課程
- 中醫(yī)內(nèi)科臨床診療指南-塵肺病
- DZ∕T 0399-2022 礦山資源儲量管理規(guī)范(正式版)
- 2024年鄂爾多斯市國資產(chǎn)投資控股集團限公司招聘公開引進高層次人才和急需緊缺人才筆試參考題庫(共500題)答案詳解版
- 競賽試卷(試題)-2023-2024學年六年級下冊數(shù)學人教版
- 《研學旅行課程設計》課件-辨識與研學旅行場混淆的概念
- 部編版道德與法治三年級下冊教案全冊
評論
0/150
提交評論