导航:  系统操作 >

网页采集

Previous pageReturn to chapter overviewNext page

网页采集使用正则表达式提取要采集的内容。后台已提供向导方式采集,请按照提示生成规则。

下载的采集规则在添加规则里导入后修改分类等信息添加即可使用。

如果你觉得向导方式比较麻烦可以使用下边的老方法生成采集规则

 

4.5版以后已可以使用向导模式生成采集规则,查看视频教程

要转换为规则的html/生成的规则:(要捕获内容替换为[gt])

规则类型:新闻链接 列表下一页链接 新闻列表范围
     新闻标题 新闻内容 新闻作者 新闻来源
     新闻时间 分页标题 新闻下一页链接
     过滤广告 (过滤广告请在[gt]左右分别写广告内容的开始和结束部分)

 


新闻链接规则举例
每一步:查看新闻列表页源码
第二步:列表页源码中找到一个链接html代码,并复制到上边的文本框
· <a href="http://mobile.163.com/04/0920/18/10OAE1DM0011179D.html" target=_blank>
第三步:
将新闻的url(http://mobile.163.com/04/0920/18/10OAE1DM0011179D.html)替换为[gt](对新闻内容等规则都是替换你需要的部分为[gt])
· <a href="[gt]" target=_blank>

第四步:点击生成规则,文本框内就得到生成的新闻链接规则
注意:如果你的规则里有图片等链接需要你把相对地址改为绝对地址即以http://开始
   复制html时要复制获取内容前后的一部分内容才可识别

如果生成的规则有问题并且你对正则表达式有一定了解,推荐使用正则表达式调试工具Regulator: http://regex.osherove.com/