如何爬取网络小说资源

发布时间: 2025-07-31 15:57:06

『壹』 Python爬取笔趣阁小说返回的网页内容中没有小说内容

思路：
一、分析网页，网址架构
二、码代码并测试
三、下载并用手机打开观察结果
一、分析网页，网址架构
先随便点击首页上的一篇小说，土豆的--元尊，发现在首页上面有如下一些信息：作者，状态，最新章节，最后更新时间，简介，以及下面就是每一章的章节名，点击章节名就可以跳转到具体的章节。
然后我们按F12，进入开发者模式，在作者上面点击右键--“检查”，可以发现这些信息都是比较正常地显示。
再看章节名称，发现所有的章节都在<div id="list"> 下面的 dd 里面，整整齐齐地排列好了，看到这种情形，就像点个赞，爬起来舒服。
分析完首页，点击章节名称，跳转到具体内容，发现所有的正文都在 <div id="content"> 下面，巴适的很
那么现在思路就是，先进入小说首页，爬取小说相关信息，然后遍历章节，获取章节的链接，之后就是进入具体章节，下载小说内容。
OK，开始码代码。
二、码代码并测试
导入一些基本的模块：
import requests
from bs4 import BeautifulSoup
import random
2.先构建第一个函数，用于打开网页链接并获取内容。
使用的是requests 包的request.get ，获取内容之后用‘utf-8’ 进行转码。
这里我之前有个误区就是，以为所有的网站都是用 'utf-8' 进行转码的，但是实际上有些是用'gbk' 转码的，如果随便写，就会报错。
网络之后，只要在console 下面输入 ‘document.charset’ 就可以获取网站的编码方式。

阅读全文

热点内容

网游小说主角的刀叫末日发布：2025-10-20 08:36:28 浏览：618

菠萝包轻小说签约规则发布：2025-10-20 08:36:27 浏览：143

官渡之战经典小说推荐发布：2025-10-20 08:33:28 浏览：650

以武为尊的都市小说发布：2025-10-20 08:28:15 浏览：799

莫泊桑短篇小说每章主要内容发布：2025-10-20 08:12:35 浏览：468

汉武帝小说全集免费阅读下载发布：2025-10-20 08:06:42 浏览：500

寻秦记小说原著结局很惨啊发布：2025-10-20 08:04:11 浏览：985

主角有一个珠子空间的都市小说发布：2025-10-20 07:52:04 浏览：834

爱情短篇小说心碎发布：2025-10-20 07:50:34 浏览：584

类似国家游戏的小说发布：2025-10-20 07:50:23 浏览：84

如何爬取网络小说资源

与如何爬取网络小说资源相关的资讯