【杰奇CMS小说关关采集器规则编写教程】包含图文教程,图文教程是参考几个教程综合编写的,虽然版本老(现在大家用的关关不也都是2015年的版本居多吗?),但是非常有用。教程如果认真阅读完毕,基本可以写一些简单的规则没有任何问题了。
现在网上有很多教程,免费的,收费的,甚至免费收费打包放在一起的,都是胡乱拼凑,为了赚钱,完全不考虑新手的感受,那叫一个迷茫啊。这里整理的教程,认真看一遍对着写一次就能成功。
正则通用替代符
\d* 不需要的数字
(\d*) 需要的数字
\d+ 不需要的数字 (和上面的第一个功能一样,写法不同而已)
(\d+) 需要的数字 (和上面的第二个功能一样,写法不同而已)
.+? 不需要的字符
(.+?) 需要的字符
\s* 空格或换行
((.|\n)*) 章节内容截取
{NovelKey} 表示小说编号
{NovelKey/1000} 表示小说编号除以1000 因为我们经常看到/44/44710/之类的
{ChapterKey} 表示章节ID
{NovelPubKey} 表示目录页地址
规则编写
RuleVersion规则版本:就是自己的一个规则的备注版本(随便写)
RuleID规则编号:自己备注的编号 (随便写)
GetSiteName站点名称:采集网站的名称
GetSiteCharset站点编码:采集的源站的编码是UTF8或者GBK
GetSiteUrl站点地址:采集网站的地址
NovelListUrl站点最新列表地址:需要获得小说列表的地址
这里教程采集的列表页是:笔趣阁的网址,如图所示
此处内容需要权限查看
去广告不需要什么技术,只要多找就行了,如果你遇到这种一段话的,比如:源码基地 www.31234.net ,最快更新大红娘最新章节!直接写成: 源码基地.+?最新章节!就行了,没必要分割一个个去掉。
最后测试规则就行了,一个基本的规则就这样写,很简单多玩一下就懂了。
其他问题
1.有时候我们采集链接时,id不是数字,而是拼音
编写采集的时候只需要把(\d*)换成(.+?)就行了
2.采集的章节是分页的,采集不全
编写采集的时候只需要寻找他的手机端章节链接,查看是否不是分页的,一般手机端不是分页形式,所以我们采集页面链接换成手机链接采集。
3.采集的最新章节显示“正在手打中”
这个我们只需要在采集的时候,编辑不采集最新的倒数X个章节或者少于X字节的文章(X你自己可以设置)
4.采集不到最新章节
因为他在章节列表页面的最新章节那里,一般会加一个class参数防止采集,用替换代替即可解决
其他问题收集中…欢迎大家反馈