很多朋友都在迷茫杰奇在Linux环境下,如何完美实现采集内容。最近在规则之树大佬的博客看到一篇关于94采集管理系统(Python采集器)的介绍,正好最近正好有一台Linux上面放了个小站,于是进入了深入浅出的了解,基础设置会在稍晚的文章介绍,这里我们先介绍规则的CSS编写,开工。

采集源站
我们的教程采集源站是qiuyewx,因为是94采集示范规则,而且比较好写。

基本信息

规则名称:随便写
网站地址:写源站地址
网站编码:查看源代码,查找charset,这里是Utf-8就选择Utf-8
参数类型:这里选择启用,这样会规避源站缓存,通俗讲就是为了采集的时候不会因为缓存更新慢
目标地址:可以填写首页、分类页、更新页、完本页、排行榜…这里我选择更新页

1614428056-48b835e738ea6ff

列表页设置

一般这个里面就两个重要的地方,这里只写这两个,详细讲解到官网看视频教程
地址规则:.toplists dl>dt>a:eq(1)|href
标题规则:.toplists dl>dt>a:eq(1)

1614428061-bb941c34cf555b3

信息页设置

因为图片太长的原因,这个分类就不发了,直接发设置的文字版
标题: meta[property=’og:title’]|content、meta[property=’og:novel:book_name’]|content、h1
作者: meta[property=’og:novel:author’]|content
分类: meta[property=’og:novel:category’]|content
简介: meta[property=’og:description’]|content、#intro
封面: meta[property=’og:image’]|content
状态: meta[property=’og:novel:status’]|content

目录页设置

这里要说明一下,如果用到dd:nth-child(n+9)应该是默认dl 、dt和dd一样的
地址规则:.list>dl dd a|href
标题规则:.list>dl dd a

内容页设置

这个需要注意的是#content和.content,一般“#”用于div的id,而“.”一般用于class

1614428063-74f2e857fbee6b4

测试采集规则

这里我们都写完以后,为了检查规则是否正规,一定要多次测试,避免后续出现的很多问题。

1614428065-28bff47d018ee7c

过滤规则

因为涉及的需求不同,这里不进行赘述。

 

下载地址:

隐藏内容
本内容需权限查看
  • 普通: 10¥
  • 会员: 7¥7折
  • 永久会员: 免费
已有19人解锁查看
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。