很多朋友都在迷茫杰奇在Linux环境下,如何完美实现采集内容。最近在规则之树大佬的博客看到一篇关于94采集管理系统(Python采集器)的介绍,正好最近正好有一台Linux上面放了个小站,于是进入了深入浅出的了解,基础设置会在稍晚的文章介绍,这里我们先介绍规则的CSS编写,开工。

采集源站
我们的教程采集源站是qiuyewx,因为是94采集示范规则,而且比较好写。

基本信息

规则名称:随便写
网站地址:写源站地址
网站编码:查看源代码,查找charset,这里是Utf-8就选择Utf-8
参数类型:这里选择启用,这样会规避源站缓存,通俗讲就是为了采集的时候不会因为缓存更新慢
目标地址:可以填写首页、分类页、更新页、完本页、排行榜…这里我选择更新页

1614428056-48b835e738ea6ff

列表页设置

一般这个里面就两个重要的地方,这里只写这两个,详细讲解到官网看视频教程
地址规则:.toplists dl>dt>a:eq(1)|href
标题规则:.toplists dl>dt>a:eq(1)

1614428061-bb941c34cf555b3

信息页设置

因为图片太长的原因,这个分类就不发了,直接发设置的文字版
标题: meta[property=’og:title’]|content、meta[property=’og:novel:book_name’]|content、h1
作者: meta[property=’og:novel:author’]|content
分类: meta[property=’og:novel:category’]|content
简介: meta[property=’og:description’]|content、#intro
封面: meta[property=’og:image’]|content
状态: meta[property=’og:novel:status’]|content

目录页设置

这里要说明一下,如果用到dd:nth-child(n+9)应该是默认dl 、dt和dd一样的
地址规则:.list>dl dd a|href
标题规则:.list>dl dd a

内容页设置

这个需要注意的是#content和.content,一般“#”用于div的id,而“.”一般用于class

1614428063-74f2e857fbee6b4

测试采集规则

这里我们都写完以后,为了检查规则是否正规,一定要多次测试,避免后续出现的很多问题。

1614428065-28bff47d018ee7c

过滤规则

因为涉及的需求不同,这里不进行赘述。

 

下载地址:

隐藏内容
  • 普通用户购买价格:10¥
  • 会员用户购买价格:1¥1折
  • 永久会员用户购买价格:1¥

发表评论

后才能评论

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源