这个采集规则是杰奇后台的采集规则 不是关关采集器的规则

很多人用的linux服务器做小说网站异地采集不方便想从后台进行采集只是采集很慢,如果是用windows系统,直接用关关采集器好多了,linux下用后台采集还行。
或许看我这个,应该可以学会自己配置后台采集吧。

杰奇后台采集规则添加方法和采集(教程)

系统默认变量:<{articleid}> – 文章序号,<{chapterid}> - 章节序号, <{subarticleid}> - 文章子序号, <{subchapterid}> - 章节子序号。
系统标签 * 可以替代任意字符串。
系统标签 ! 可以替代除了<和>以外的任意字符串。
系统标签 ~ 可以替代除了<>'”以外的任意字符串。
系统标签 ^ 可以替代除了数字和<>之外字符串。
系统标签 $ 可以替代数字字符串。
采集规则中,需要获取的内容部分用四个以上系统标签代替,如 !!!!

文章序列号运算方式:floor(<{articleid}>/1000)   // 这里单独说下 有的小说站的伪静态链接是www.31234.net/22/2201/  就需要用这个运算方式转化下。

发送HTTP_REFERER标志,用于突破防采集设置:这里选择  是 

文章信息页面地址:http://www.31234.net/<{subarticleid}>/<{articleid}>/                     // 这里说明下  如果是链接是www.31234.net/22/2201/ 就写这个地址。

如果链接地址是:www.31234.net/book/2201/ 就要改成 http://www.31234.net/book/<{articleid}>/

隐藏内容
本内容需权限查看
  • 普通: 10¥
  • 会员: 7¥7折
  • 永久会员: 免费
已有11人解锁查看

我把写好的例子规则 打包了 需要的话购买后可以直接下载测试,

如果不会写或者需要写杰奇后台的采集规则 可以单独联系我。

 

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。