• 当前位置:首页>>站长>>教程>>用侠客站群系统对某健康网保健栏目抓取模块(三)
  • 用侠客站群系统对某健康网保健栏目抓取模块(三)
  • 日期:2012-6-7
  •   这 个是抓取模块的最后一步了,在“用侠客站群系统对某健康网保健栏目抓取模块(一)”与“用侠客站群系统对某健康网保健栏目抓取模块(二)讲了前面步骤,不懂可以再去看下,为了这几天的成绩小小的骄傲一把,这个里面有两个地方好混,一是“分页提取规则”是控制分页链接的,二 是下面的“内容模型提取规则”是控制标题和正文的,其实我们一共需要三个规则,可以是视觉也可以是正则,一切都以获取到所需要的内容为准,只是要分清楚。

      1、 标题提取

      进入流程3后,内容模型选:标题后进入到未命名规则

      

    图片8.png

     

      新建正则公式,测试表达式,可以看到表达式有效,已经提取到了

      

    图片9.jpg

     

      保存后,回到主页面

      

    图片10.jpg

     

      这样我们就获得了“标题”

      2、内容提取

      通过侠客提供的“侠客正则测试工具”我们测试为了获得内容而建立的正则公式,提取成功,并复制下正则公式

      

    图片11.jpg

     

      进入主页面:

      

    图片12.jpg

     

      内容模型选择“正文”

      进入提取规则,这里的正文是我改过名字的

      新建正则公式,测试也成功了

      

    图片13.jpg

     

      保存返回,回到主页面

      3、分页提取

      启用分页抓取,进入分页提取规则,这个时候不要混了,现在我们要处理的是分页的问题,而不是标题正文,所以,在上部选启用分页,同时进入分页提取规则

      

    图片14.jpg

     

      在这里,通过源文件发现一个悲催的问 题,分页的文件,天 啊,竟然是相对地址,我晕,教程里这里是按正则提取的,搜狐女性栏目是绝对地址,如果这里也照搬的话,以我的正则水平,只能提取出相对地址来,没办法了, 采取视觉提取吧,这样可以转化为绝对地址,根据实际情况,做好筛选工作

      

    图片15.jpg

     

      恩,测试一下下,成功了也,鼓掌5分钟,

      

    图片16.jpg

     

      好了,一步步的保存吧,然后存为模块:

      

    图片17.jpg

     

      通过设立任务,可以看到文章库里已经抓取到了:

      

    图片18.jpg

     

      继续为自己鼓掌5分钟·~

      通 过在A5侠客软件站www.xiake5.com中的几天的教程,对侠客站群软件学 习,使我深深地体会到了侠客的威力,霎时有了神兵利器在手,天下我有的感觉,自我陶醉中,尽管初次制作的抓取还有不完善的地方,还需要替换 库的美化,但是从零开始的基础,让我也有了小成功的感觉,呵呵,感谢侠客,让我有了可以多站点操作的机会,单位里的事情也越来越多, 房子还得装修,不知道自己的教程帖子还能贴几篇,上帝保佑吧。

  • 上一篇:浅谈旅游网站如何提高网站转化率
    下一篇:使用虫虫营销助手给我的心得感受