大鸟最近在玩帝国,都说帝国强大安全,说以大鸟也试试看,看到帝国后台有采集,于是大鸟自己觉得很方便,于是就自己捣鼓看看,捣鼓了几次竟然成功了,特此记录在这里希望能帮到需要的人!大鸟也在网上找了教程可是百度经验里面的教程不能看,太笼统了,大鸟还是觉得自己写个详细点的。
大鸟三篇帝国后台采集教程系列
采集代码其实不难写,只要会点HTML然后能找到页面代码之间的不同点就可以了下面就以一个实例来给大家讲解采集的步骤首先增加一个采集节点
我要采集到的栏目是【推广技巧】我要采集的网站是圈外网的【网络推广】栏目
我们先输入采集节点名称,这里只要自己认识就行,名称随意填写
重要的第一步 页面链接
我们发现在打开第一第二第三页的时候浏览器的地址栏里变化的只有最后的数字一共有四页只是第一页没有数字
但是我们把数字改成1就会跳转到第一页
那么我们的页面地址就把最后的数字替换为我们的变量
然后从1到4 间隔倍数为1
内容页地址前缀视我们的内容页地址的变化来决定怎么填写或者不填写现在我们先略过它!
第二步/信息页链接区域和信息页链接
信息页连接区域指的就是页面的某一块集中了所有的信息页链接
我们写规则就是要把某一块的内容 用前后的标签来让采集器识别,而且
是唯一的我们的信息页链接从这一块来获取
我们先复制第一个链接的标题然后再源代码里查找
我们发现从这里开始到下面都是链接和标题而这两段代码组合起来在源代码里是唯一的,
这样我们规则的前一段就写好了 <!– end: menu –>
这里是区域的结束这个代码也是唯一的,那么我们用这个结束<!– end: content –>
区域的代码加入我们的变量就得到
<!– menu –>[!–smallurl–]<!– end: content –>
当然这个网站的采集代码比较好找点
像有些网站没有这么明显的标记的话可以用标签组合的方式来获取
接下来再获取信息页链接
页面里每一个链接都是一段那么在源代码里也是一样
我们发现H3标签里的页面链接在每一段里只出现过一次
那么我们把链接地址用变量代替 汉字用 * 任意符代替 采集代码就是这个
<h3><a href=”[!–newsurl–]” rel=”bookmark” title=”*”>*</a></h3>
我们进入到某一个内容页面,用百度浏览器的审查元素或者在源代码里直接找到标题的规则
然后再源代码里查找是唯一的那么换上我们的变量就是
<div class=”entry_title”>[!–title–]</div>
我们在源代码里查找发现这里是起点而且找到一个唯一的完整标签
结束这里也是
途中红圈的都可以用作唯一标签
我们随便用一个换上我们的变量,得到的采集代码
<!– end: entry_title_box –>[!–newstext–]<!– 这个是支付宝插件 –>
我们发现是乱码,然后我们在圈外网的源文件里发现是UTF-8我们把把编码改为UTF-8
再次预览发现有广告,而且所有的广告都是一样的那么我们就直接过滤掉它
第六步、采集直接采集,全部入库采集完毕
如果有什么不懂或者需要详细的东西可以留言给我,看到这里可能有人要问了,那有写广告代码或者是写文字这些怎么过滤呢,这里就要用到这篇教程了“帝国7.2后台采集的过滤与替换技巧”