admin 发表于 2022-4-23 16:00:00

关关采集问题汇总

【关关采集问题汇总】采集规则测试时,采集不到小说章节内容
可能性1 PubContentText规则写错了
解决方法:去章节内容页查看一下源代码,看看是不是有换行的代码添加了,如果加了删除掉。
或者把结尾代码放后面一点,包换前面的多出来的代码(可以在替换里面替换掉)

http://s10.sinaimg.cn/mw690/0037CFqUzy77rF2OBjX19&690
我不太懂正则,所以想出的办法有点笨,但不管怎么样,能采集到小说就成http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6724EN00SIGG.gif

可能性2 采集小说出,日志里出现210错误索引超出了数组界限。
用规则测试没有问题,但采集小说时,总是提示这个错误,当时搞得我那个焦虑啊
解决方法:还是规则问题,找到规则里的PubVolumeSplit(分割分卷)、 PubVolumeName(获得分卷名)这两个很重要,关系下面能不能采集到小说章节内容,虽然有些网站可能你不写也能采集到,但根据我的经验,5个网站有4个都需要写了这个才能采集到章节内容,可怜我当时不信,没在意,结果自己绕了N个圈才明白http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6706EN00SIGG.gif。
例如:分卷名一般是指小说每个大节,一般代码可能是http://s9.sinaimg.cn/mw690/0037CFqUzy77rF2RN9Kb8&690
当然有些小说网站人家没有分卷名,但你还是要从目录上面找一个出来写到规则里,可以第一章上面那个代码,或者就写第一章的前后代码,
如:http://s4.sinaimg.cn/mw690/0037CFqUzy77rF2VTOPa3&690
题外话:看了你也不会吃亏但你没看绝对要多走8个小时的路
还有一般写采集规则时,遇到要采集小说信息页、小说目录页、小说章节页的URL时,不获取的数字尽量用/d*数字正则表示,获取的数字用(.+?)正则表示,经验提示,什么原因别问了,我也不太懂正则,全是走了弯路后,写下来提醒自己不要又犯错



页: [1]
查看完整版本: 关关采集问题汇总