当前位置:首页 » 网游小说 » 如何爬取网络小说资源

如何爬取网络小说资源

发布时间: 2025-07-31 15:57:06

『壹』 Python爬取笔趣阁小说返回的网页内容中没有小说内容

思路:
一、分析网页,网址架构
二、码代码并测试
三、下载并用手机打开观察结果
一、分析网页,网址架构
先随便点击首页上的一篇小说,土豆的--元尊,发现在首页上面有如下一些信息: 作者,状态,最新章节,最后更新时间,简介,以及下面就是每一章的章节名,点击章节名就可以跳转到具体的章节。
然后我们按F12,进入开发者模式,在作者上面点击右键--“检查”,可以发现这些信息都是比较正常地显示。
再看章节名称,发现所有的章节都在<div id="list"> 下面的 dd 里面,整整齐齐地排列好了,看到这种情形,就像点个赞,爬起来舒服。
分析完首页,点击章节名称,跳转到具体内容,发现所有的正文都在 <div id="content"> 下面,巴适的很
那么现在思路就是,先进入小说首页,爬取小说相关信息,然后遍历章节,获取章节的链接,之后就是进入具体章节,下载小说内容。
OK,开始码代码。
二、码代码并测试
导入一些基本的模块:
import requests
from bs4 import BeautifulSoup
import random
2.先构建第一个函数,用于打开网页链接并获取内容。
使用的是requests 包的request.get ,获取内容之后用‘utf-8’ 进行转码。
这里我之前有个误区就是,以为所有的网站都是用 'utf-8' 进行转码的,但是实际上有些是用'gbk' 转码的,如果随便写,就会报错。
网络之后,只要在console 下面输入 ‘document.charset’ 就可以获取网站的编码方式。

热点内容
网游小说主角的刀叫末日 发布:2025-10-20 08:36:28 浏览:618
菠萝包轻小说签约规则 发布:2025-10-20 08:36:27 浏览:143
官渡之战经典小说推荐 发布:2025-10-20 08:33:28 浏览:650
以武为尊的都市小说 发布:2025-10-20 08:28:15 浏览:799
莫泊桑短篇小说每章主要内容 发布:2025-10-20 08:12:35 浏览:468
汉武帝小说全集免费阅读下载 发布:2025-10-20 08:06:42 浏览:500
寻秦记小说原著结局很惨啊 发布:2025-10-20 08:04:11 浏览:985
主角有一个珠子空间的都市小说 发布:2025-10-20 07:52:04 浏览:834
爱情短篇小说心碎 发布:2025-10-20 07:50:34 浏览:584
类似国家游戏的小说 发布:2025-10-20 07:50:23 浏览:84