爬取小说时--去空行和有序化

程序员文章站 2023-08-30 11:13:20

有序化以小说章节目录的数字为文件名，一章一个文件（但上千章就得有上千个文件）在每次获取小说章节里的内容时，给item添加新的标识，添加对应的章节的数字，全部存入数据库，然后根据这个数字标识排序取出数据即可去空行利用splitlines()和strip() str.splitlines([ke ......

有序化

以小说章节目录的数字为文件名，一章一个文件（但上千章就得有上千个文件）
在每次获取小说章节里的内容时，给item添加新的标识，添加对应的章节的数字，全部存入数据库，然后根据这个数字标识排序取出数据即可

去空行

利用splitlines()和strip()
- str.splitlines([keepends])
- 参数keepends---在输出结果里是否保留换行符('\r', '\r\n', \n')，默认为 false，不包含换行符，如果为 true，则保留换行符。
text = ''.join([s for s in text.splitlines(true) if s.strip()])

上一篇： python函数中把列表(list)当参数时的"入坑"与"出坑"

下一篇：关羽被杀有黑幕？*出土的三国残卷记载了什么？