代码已上传 GitHub
https://github.com/TV233/cancanword/blob/main/%236%20%E7%88%AC%E8%99%AB/1.%E5%AD%A6%E4%B9%A0/main.py
本人纯真 Python 零基础,为甚么会选做爬虫?因为我觉得爬虫挺有实用意义的,爬评论区观测社会,爬图片丰富素材库什么的,以下为我 2022/9/7 的学习过程。
写 Python 不能不用 PyCharm,就像耶路撒冷不能没有耶稣。没人?装个 PyCharm 先。

进去新建工程,设置中文,安装 requests 库

按资料输代码
这个网站可以随机提供一个 ACG 图片和一句话,长这样

现在先学把文字扒下来罢
shift+F10 有输出了

把输出保存到注释,然后换字体 + 调大字体。

看提示要 bs4 库,装了之后找了相关教程,加上 lxml 库写成了这样,运行有输出。

但是文字开头结尾有 HTML 标签和方括号,强迫症当场去世(
疯狂谷歌找到了解决方案:正则表达式查找替换去除 HTML 标签,用 replace 替换掉方括号。
尝试运行成功。

接下来就要做多次爬取并将爬到的文字保存到文本文档,查询教程完成了保存部分代码,运行成功。


# 踩坑:
# 1.Python 对缩进要求非常严格,多个空格都不行。
# 2. 库要记得 import。
# 3. 代码里面的 data 要先转成 string 类型,不能直接用正则清洗。
# 4. 正则表达式不会写会很麻烦。
# 5.open 函数第二个参数决定文件打开方式,第一次设置成 w 后在每次写入文本时会清空源文件,然后将新的内容写入文件,要改成 a 才能连续保存。
