当前位置:首页 » 小说免费 » 免费爬虫小说的网站

免费爬虫小说的网站

发布时间: 2023-05-28 21:24:30

㈠ 找几个能免费下小说的网站

看来喜欢小说的人很多呀

我自己常用的有三个:

奇书网,手机小说电子书,TXT和JAR格式,网站广告多,特别是弹出广告:
http://www.qisuu.com/

我不知道论坛,是个小说论坛,各种格式的小说都有,需要注册才能下载:
http://bbs.wbzd.net

免费书屋,博客,每天更新VIP全本的小说,是CHM格式的,可直接下载:
http://yyhxx.blog.hexun.com

㈡ 10分钟入门爬虫-小说网站爬取

三月份到四月初花了很长的时间看了一本小说—《明朝那些事儿》,几乎一整个月的时间都在看,越看越入迷,这就是小说的魅力吧。

故事从朱元璋的乞讨要饭开始,经过不断地残酷战争,击败各种对手,建立了明朝;再到后来燕王朱棣起兵造反,接着戚继光抗击倭寇;后来又有明朝出现了最有名的内阁首辅大臣—张居正,大刀阔斧地进行改革,明朝进入鼎盛时期;最后清朝入关,明朝还是败在了崇祯的手上,准确的说是:注定会败在他的手上。正如文中写到的那样:

书讲述的不仅仅是历史, 权利、希望、痛苦、气节、孤独、残暴、邪恶、忍耐、坚持、真理、忠诚 ……在书中样样都有。在书的最后,作者写了一首诗,摘录在这里:

本文介绍的如何使用Python爬取一个网站上关于这本书的部分章节。

网站首页: https://www.kanunu8.com/

爬取主链接: https://www.kanunu8.com/files/chinese/201102/1777.html

1、章节标题

2、章节正文内容

以第一章为例:我们点击“第一章 童年”可以进入第一章的正文部分。

看看最终爬取到的数据。在 本地目录 下生成的一个文件夹:《明朝那些事儿》下面就有我们爬取到的33个章节的内容,包含前言和引子部分。

在本次爬虫中使用到的相关库

分析一下网页的规律

发现了规律:每个章节的页面都有自己的URL后缀加以区分。看下网页源码找出URL地址:

上面已经发现了每个章节的URL地址的后缀

正则写的不太好,地址还需要切片一次

首页源码返回内容解析的结果:

切片之后的有效URL地址:

㈢ 求几个免费下小说的网站

http://www.yunxuange.com/xstopsize/0/51.html
http://www.zzzyq.com/
这两个都是我喜欢的腔告滚网伍余站
满意的话把我的答案设为满意答友衫案

㈣ 有哪些免费好用的电子书下载网站

奇书网、80电子书、电子书小说网、笔趣阁、书香。

1、奇书网创建于2006年09月25日,奇书网小说下载网是专业的TXT小说下载,TXT电子书下载,手机小说下载网站。每日更新最新,最热门全集全本完结小说的TXT电子书免费下载。该站已收录小说39000多部,收录相关文章7099多篇。

㈤ 教你用Python写一个爬虫,免费看小说

这是一个练习作品。用python脚本爬取笔趣阁上面的免费小说。

环境:python3
类库:BeautifulSoup
数据源: http://www.biqukan.cc

原理就是伪装正常http请求,正常访问网页。然后通过bs4重新解析html结构来提取有效数据。

包含了伪装请求头部,数据源配置(如果不考虑扩展其他数据源,可以写死)。

config.py文件

fiction.py文件

summary.py文件

catalog.py文件

article.py文件

暂没有做数据保存模块。如果需要串起来做成一个完整的项目的话,只需要把小说数据结构保存即可(节省磁盘空间)。通过小说url可以很快速的提取出小说简介、目录、每一章的正文。

如果想要做的更好,可以把目录,介绍、正文等部分缓存起来,当然得有足够的空间。

㈥ 使用pyspider抓取起点中文网小说数据

pyspider 是国人开发的相当好用的爬虫框架。虽然网上教程不是很多,但是文档详细,操作简单,非常适合用来做爬虫练习或者实现一些抓取数据的需求。

本文就以抓取起点中文小说网的小说作品基础信息作为差侍配目标,讲解如何使用pyspider框架采集数据。

关于为何要选择起点作为目标,其一、笔者作为网文爱好者,也想收集起点小说作品信息,找些热门小说看;其二、起点作为比较成熟的小说网站,再反爬虫方面应该有对应策略,刚好练习一下爬虫怎么规避这些策略。

在阅读本文之前,建议先看一下文档及框架作者本人写的中文教程
pyspider 爬虫教程(一):HTML 和 CSS 选择器
pyspider 爬虫教程(二):AJAX 和 HTTP
pyspider 爬虫教程(三):使用 PhantomJS 渲染带 JS 的页面

安装很简单,如果已安装pip,直接执行命令

由于目前很多网站都是动态js生成页面,需要安装 PhantomJS 来获得js执行后的页面,而不是原本静态的html页面,我们再来装一下

待安装完成后,谈氏我们先看一下pyspider对应的可执行命令

在这里我们直接执行如下命令启动,更复杂的命令参看 文档

首先看一下启动成功后,浏览器访问127.0.0.1:5000地址的界面如下

点击Create,新建项目

点击生成的项目名,进入脚本编写&调试页面

先看一下对应的爬虫脚本

1.测试抓取时,运行一段时间后出现所有抓取链接均FetchError的报错,抓取失败
失败原因:未设置User-Agent 及 抓取速率太快,导致IP被封禁

解决办法:
1) 设置User-Agent,调整速率从1->0.7
2) 使用代理IP,防止被封禁,这里笔者尝试使用搭建 简易免费代理IP池 ,但是由于免费代理大多不可用,会导致抓取不稳定,还是决定放弃使用

2.笔者本来是打算通过不断抓取下一页的链接,来遍历所有小说作品的,可是由于这部分是JS动态生成的,虽然使虚指用phantomjs,能解决这个问题(具体见作者教程3),但是使用phantomjs会导致抓取效率变低,后来还是选择采用固定首尾页数(PAGE_START,PAGE_END)的方法

3.当使用css选择器有多个数据时,怎么获取自己想要的
比如在小说详细页,有字数,点击数,推荐数三个
其css selector均为 .book-info > p > em,要获取对应的次数只能使用pyquery的.eq(index)的方法去获取对应的文本数据了

4.如果遇到抓取的链接是https,而不是http的,使用self.crawl()方法时,需要加入参数validate_cert =False,同时需要确保pyspider --version 版本再0.3.6.0之上
具体解决方法,可以查看如下链接:
PySpider HTTP 599: SSL certificate problem错误的解决方法

简单数据分析之二
采用 SCWS 中文分词 对所有作品名字进行分词统计,得到出现频率最高的排行

看起来如果写小说,起个『重生之我的神魔异世界』这类标题是不是吊炸天

简单数据分析之三
简单统计一下起点作者的作品数排序
武侠精品应该是起点的官方作者号吧,不然194本作品也太恐怖了
也发现了不少熟悉的大神,比如唐家三少,流浪的蛤蟆,骷髅精灵等,有些作品还是可以看看的

㈦ 有什么好的免费网站找小说

1、owllook

一个简洁的电子书籍搜索网站,网站十分简洁,只有一个简单的搜索框,输入想看的小说名字,一般都能漏衫找到,还会有一些热门推荐败信。

㈧ 谁可以提供几个可以免费下载小说的网站啊

我用的比较多的是飞库网,有很多种格式的
还有派派小说论坛,txt居多,用迅雷下载,不注册也可以
这两个网站的书都蛮多的,连载中的也能保持更新速度
而且像起点和晋江的V文也有不少

㈨ 小说免费的有哪些网站

阅览小说网站:

1、http://www.ranwen.net/(燃文小说网)
2、http://www.wenxuewu.com/(文学屋)
3、http://www.qsxiaoshuo.com/(在线书吧)
4、http://chuangshi.qq.com/(创世中文网)
5、http://16kbook.org/(16K小说网)

下载小说网站:
1、http://www.zaxsw.cn/(最爱小说网)
2、http://www.wmtxt.com/(无名小说下载网)
3、http://www.sjtxt.com/(小说下载网)
4、http://www.qisuu.com/(奇书网)
5、http://www.txtqb.cn/(txtqb小说现在网)
6、http://www.3uww.com/(炫书网)
7、http://www.bookben.com/(书包网)
8、http://www.mfdzs.com/(免费电子书下载)

望采纳,谢谢!

㈩ 有哪些可以免费下载小说的网站

下载电子书的注意事项:
第一、先确定好你要下什么小说,一般来说你可以去飞库网(
http://www.feiku.com/
),那里基本上可以下载到当今热门、YY的小说,除此之外,如果你想下载一些偏门的比如古文出版文,可以在后面附的一些网站上查找,运用复制、粘贴技术保存到记事本里,转存为TXT文件
第二、确认一下你是想在电脑上看还是用手机,或者用MP3/MP4/MP5等看。在飞库网(
http://www.feiku.com/
)如果是电脑看得话,文件下载格式可为UTM,如果是手机上看的话,可下载JAR文件格式到手机上并安装后看,如果是用MP3/MP4/MP5或者电子词典等看的话,可以下载TXT文件格式观看,下载过程由于文件小时间会很短,可直接点击下载即可,无需迅雷等软件,当然飞库网下载可能还要强制安装迅雷,你可以酌情下载。
第三、推荐一些下载电子书的网址:
TXT电子书
小说下载
http://www.txtweb.com.cn/
txt论坛
http://www.txtbbs.com
麦书人的家
http://www.txtbook.com.cn/
txt下载
http://www.txtdown.com
我爱我小说网
http://www.525xs.cn/
八六小说网
http://www.86txt.cn
小说下载站
http://www.hitxt.com.cn/
小说之家
http://www.txt163.com/
365小说下载网
http://www.21fans.cn/
久久免费下载站
http://www.txt99.com/
电子小说下载吧
http://www.txt8.cn/
小说下载
http://www.txtxia.cn/
原版英语小说
http://www.en8848.com.cn/
图书下载网
http://www.bookdown.com.cn/
爱书网
http://www.aisu.cn/
爱书吧小说下载站
http://www.aishu8.com/
东方TXT小说下载论坛
http://www.dftxt.net/
TXT小说下载站
http://www.24ww.cn/
手机电子小说下载网
http://www.sjxiaoshuo.cn/
SJTXT小说下载
http://www.sjtxt.com/
久久电子书
http://www.99121.com/
文学家
http://www.wxjia.com/
TXT小说下载
http://www.bh88.net/
看看吧
http://www.kankb.cn/
全本txt小说下载
http://txt.uu366.com/
小说下载
http://www.77285.com/
金沙论坛
http://www.txtbbs.cn/
爱爱TXT电子书
http://www.22txt.com/
小说书楼
http://www.shulou.com/
炎黄中文炎黄
http://www.yhzw.com.cn/
爬爬E站
http://www.3320.net/
华夏书库小说网
http://www.hxsk.net/
[我爱e书]
http://www.52ebook.com
我爱电子书
http://www.52eshu.com/
txt小说免费下载
http://www.readbook.org/
爱丽书屋
http://www.5dxs.com/
非凡TXT电子书论坛
http://www.doumai.cn/
小说下载
http://novel.globrand.com/
手机电子书·飞库网
http://www.feiku.com/
若雨小说电子书下载频道
http://www.ruoyu.net/Ebook/
挖客小说网
http://www.wake21.cn/
飘零书社
http://bbs.txtgs.com/
爱搜书
http://www..com/indexcn.html
一生一世小说
http://www..com/indexcn.html
吾爱TXT
http://www.5atxt.com/
E书吧
http://www.eshuba.com/

热点内容
总裁心机小说 发布:2025-07-13 06:15:50 浏览:883
重生之变成动物类的小说 发布:2025-07-13 06:14:11 浏览:470
拒北城外大战是小说结局吗 发布:2025-07-13 06:13:26 浏览:51
禁忌爱情短篇小说 发布:2025-07-13 06:02:06 浏览:907
金仁顺的短篇小说集 发布:2025-07-13 06:01:23 浏览:897
雨果短篇小说家 发布:2025-07-13 05:56:13 浏览:52
总裁完结小说2017推荐 发布:2025-07-13 05:56:12 浏览:338
七猫小说免费全下载 发布:2025-07-13 05:51:17 浏览:855
杰瑞卡小说免费阅读 发布:2025-07-13 05:47:02 浏览:527
器灵锻造宗师小说免费下载 发布:2025-07-13 05:35:29 浏览:621