52杰奇论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 6222|回复: 0

关关采集问题汇总

[复制链接]

598

主题

251

回帖

100万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1004949
发表于 2022-4-23 16:00:00 | 显示全部楼层 |阅读模式
【关关采集问题汇总】采集规则测试时,采集不到小说章节内容
可能性1 PubContentText规则写错了
解决方法:去章节内容页查看一下源代码,看看是不是有换行的代码添加了,如果加了删除掉。
或者把结尾代码放后面一点,包换前面的多出来的代码(可以在替换里面替换掉)


我不太懂正则,所以想出的办法有点笨,但不管怎么样,能采集到小说就成


可能性2 采集小说出,日志里出现210错误  索引超出了数组界限。
用规则测试没有问题,但采集小说时,总是提示这个错误,当时搞得我那个焦虑啊
解决方法:还是规则问题,找到规则里的PubVolumeSplit(分割分卷)、 PubVolumeName(获得分卷名)这两个很重要,关系下面能不能采集到小说章节内容,虽然有些网站可能你不写也能采集到,但根据我的经验,5个网站有4个都需要写了这个才能采集到章节内容,可怜我当时不信,没在意,结果自己绕了N个圈才明白
例如:分卷名一般是指小说每个大节,一般代码可能是
当然有些小说网站人家没有分卷名,但你还是要从目录上面找一个出来写到规则里,可以第一章上面那个代码,或者就写第一章的前后代码,
如:
题外话:看了你也不会吃亏但你没看绝对要多走8个小时的路
还有一般写采集规则时,遇到要采集小说信息页、小说目录页、小说章节页的URL时,不获取的数字尽量用/d*数字正则表示,获取的数字用(.+?)正则表示,经验提示,什么原因别问了,我也不太懂正则,全是走了弯路后,写下来提醒自己不要又犯错



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|52杰奇论坛  

GMT+8, 2024-5-2 14:58 , Processed in 0.081251 second(s), 24 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表