代码已上传 GitHub
https://github.com/TV233/cancanword/tree/main/%236%20%E7%88%AC%E8%99%AB/2.%E5%AE%9E%E6%88%98/code
昨天做了第一个爬虫,现在开始实战爬 JD 评论!
看提示要用 scrapy 框架,但是看教程试做后发现 p 都爬不出来,令人感叹。


查询得知 jd 今年改成了动态加载页面, 直接进网站当然爬不到
遂想起之前为了自动签到网站用过的 selenium

改改代码,运行

符合预期,继续修改代码

再改一下加上时间

再在 xpath 加上变量(要转 str) 和循环结构

时间暂时没动,因为 Xpath 没有什么明显的规律

运行,可以爬到一页中的 10 个评论

找到个更普遍性的 Xpath,立即更换

试试第二页能不能爬

可以捏

接下来写个循环不就可以连爬几页的评论了吗?试试看

可以,确实能爬
代码简化后是这样(右上角瞩目

(一心二用打错了。。倒数几行的 collectCount = 1+collectCount 应改为 collectCount = 1
接下来就要做过滤

但是效果并不好,很多换行占地太多

但是第二页之后爬出来的评论没有这样的问题

那就只爬第二页之后的评论吧!
还有,还有 “举报” 以及之后的两个数字没去掉,这里用昨天学的正则表达式过滤掉。

不好意思斜杠打反了

继续优化,加上导出到 txt,基本完成。

将页数改为 51 次,试运行到第 8 页时报错

看了下 Xpath,第 8 第 9 第 10 页按钮都一样

但是又出现了不规律的数字。。这下难搞了
对着评论区看了半天,终于发现。。草,直接统一改成 “下一页” 按钮不就好了

改完完美运行,成功输出!!

