爬虫，但是实战 | Tviak's Observatory = Tviak的普通观测站 = 跨出自己的舒适区很难，但跨出去了就是成长。

代码已上传 GitHub

https://github.com/TV233/cancanword/tree/main/%236%20%E7%88%AC%E8%99%AB/2.%E5%AE%9E%E6%88%98/code

昨天做了第一个爬虫，现在开始实战爬 JD 评论！

看提示要用 scrapy 框架，但是看教程试做后发现 p 都爬不出来，令人感叹。

查询得知 jd 今年改成了动态加载页面，直接进网站当然爬不到

遂想起之前为了自动签到网站用过的 selenium

改改代码，运行

符合预期，继续修改代码

再改一下加上时间

再在 xpath 加上变量（要转 str) 和循环结构

时间暂时没动，因为 Xpath 没有什么明显的规律

运行，可以爬到一页中的 10 个评论

找到个更普遍性的 Xpath，立即更换

试试第二页能不能爬

可以捏

接下来写个循环不就可以连爬几页的评论了吗？试试看

可以，确实能爬

代码简化后是这样（右上角瞩目

（一心二用打错了。。倒数几行的 collectCount = 1+collectCount 应改为 collectCount = 1

接下来就要做过滤

但是效果并不好，很多换行占地太多

但是第二页之后爬出来的评论没有这样的问题

那就只爬第二页之后的评论吧！

还有，还有 “举报” 以及之后的两个数字没去掉，这里用昨天学的正则表达式过滤掉。

不好意思斜杠打反了

继续优化，加上导出到 txt，基本完成。

将页数改为 51 次，试运行到第 8 页时报错

看了下 Xpath，第 8 第 9 第 10 页按钮都一样

但是又出现了不规律的数字。。这下难搞了

对着评论区看了半天，终于发现。。草，直接统一改成 “下一页” 按钮不就好了

改完完美运行，成功输出！！