关关采集问题汇总

admin 发表于 2022-4-23 16:00:00

【关关采集问题汇总】采集规则测试时，采集不到小说章节内容
可能性1 PubContentText规则写错了
解决方法：去章节内容页查看一下源代码，看看是不是有换行的代码添加了，如果加了删除掉。
或者把结尾代码放后面一点，包换前面的多出来的代码（可以在替换里面替换掉）

http://s10.sinaimg.cn/mw690/0037CFqUzy77rF2OBjX19&690
我不太懂正则，所以想出的办法有点笨，但不管怎么样，能采集到小说就成http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6724EN00SIGG.gif

可能性2 采集小说出，日志里出现210错误索引超出了数组界限。
用规则测试没有问题，但采集小说时，总是提示这个错误，当时搞得我那个焦虑啊
解决方法：还是规则问题，找到规则里的PubVolumeSplit（分割分卷）、 PubVolumeName（获得分卷名）这两个很重要，关系下面能不能采集到小说章节内容，虽然有些网站可能你不写也能采集到，但根据我的经验，5个网站有4个都需要写了这个才能采集到章节内容，可怜我当时不信，没在意，结果自己绕了N个圈才明白http://www.sinaimg.cn/uc/myshow/blog/misc/gif/E___6706EN00SIGG.gif。
例如：分卷名一般是指小说每个大节，一般代码可能是http://s9.sinaimg.cn/mw690/0037CFqUzy77rF2RN9Kb8&690
当然有些小说网站人家没有分卷名，但你还是要从目录上面找一个出来写到规则里，可以第一章上面那个代码，或者就写第一章的前后代码，
如：http://s4.sinaimg.cn/mw690/0037CFqUzy77rF2VTOPa3&690
题外话：看了你也不会吃亏但你没看绝对要多走8个小时的路
还有一般写采集规则时，遇到要采集小说信息页、小说目录页、小说章节页的URL时，不获取的数字尽量用/d*数字正则表示，获取的数字用(.+?)正则表示，经验提示，什么原因别问了，我也不太懂正则，全是走了弯路后，写下来提醒自己不要又犯错

页: [1]

52杰奇论坛's Archiver

关关采集问题汇总