當前位置:首頁 » 小說免費 » 免費爬蟲小說的網站

免費爬蟲小說的網站

發布時間: 2023-05-28 21:24:30

㈠ 找幾個能免費下小說的網站

看來喜歡小說的人很多呀

我自己常用的有三個:

奇書網,手機小說電子書,TXT和JAR格式,網站廣告多,特別是彈出廣告:
http://www.qisuu.com/

我不知道論壇,是個小說論壇,各種格式的小說都有,需要注冊才能下載:
http://bbs.wbzd.net

免費書屋,博客,每天更新VIP全本的小說,是CHM格式的,可直接下載:
http://yyhxx.blog.hexun.com

㈡ 10分鍾入門爬蟲-小說網站爬取

三月份到四月初花了很長的時間看了一本小說—《明朝那些事兒》,幾乎一整個月的時間都在看,越看越入迷,這就是小說的魅力吧。

故事從朱元璋的乞討要飯開始,經過不斷地殘酷戰爭,擊敗各種對手,建立了明朝;再到後來燕王朱棣起兵造反,接著戚繼光抗擊倭寇;後來又有明朝出現了最有名的內閣首輔大臣—張居正,大刀闊斧地進行改革,明朝進入鼎盛時期;最後清朝入關,明朝還是敗在了崇禎的手上,准確的說是:註定會敗在他的手上。正如文中寫到的那樣:

書講述的不僅僅是歷史, 權利、希望、痛苦、氣節、孤獨、殘暴、邪惡、忍耐、堅持、真理、忠誠 ……在書中樣樣都有。在書的最後,作者寫了一首詩,摘錄在這里:

本文介紹的如何使用Python爬取一個網站上關於這本書的部分章節。

網站首頁: https://www.kanunu8.com/

爬取主鏈接: https://www.kanunu8.com/files/chinese/201102/1777.html

1、章節標題

2、章節正文內容

以第一章為例:我們點擊「第一章 童年」可以進入第一章的正文部分。

看看最終爬取到的數據。在 本地目錄 下生成的一個文件夾:《明朝那些事兒》下面就有我們爬取到的33個章節的內容,包含前言和引子部分。

在本次爬蟲中使用到的相關庫

分析一下網頁的規律

發現了規律:每個章節的頁面都有自己的URL後綴加以區分。看下網頁源碼找出URL地址:

上面已經發現了每個章節的URL地址的後綴

正則寫的不太好,地址還需要切片一次

首頁源碼返回內容解析的結果:

切片之後的有效URL地址:

㈢ 求幾個免費下小說的網站

http://www.yunxuange.com/xstopsize/0/51.html
http://www.zzzyq.com/
這兩個都是我喜歡的腔告滾網伍余站
滿意的話把我的答案設為滿意答友衫案

㈣ 有哪些免費好用的電子書下載網站

奇書網、80電子書、電子書小說網、筆趣閣、書香。

1、奇書網創建於2006年09月25日,奇書網小說下載網是專業的TXT小說下載,TXT電子書下載,手機小說下載網站。每日更新最新,最熱門全集全本完結小說的TXT電子書免費下載。該站已收錄小說39000多部,收錄相關文章7099多篇。

㈤ 教你用Python寫一個爬蟲,免費看小說

這是一個練習作品。用python腳本爬取筆趣閣上面的免費小說。

環境:python3
類庫:BeautifulSoup
數據源: http://www.biqukan.cc

原理就是偽裝正常http請求,正常訪問網頁。然後通過bs4重新解析html結構來提取有效數據。

包含了偽裝請求頭部,數據源配置(如果不考慮擴展其他數據源,可以寫死)。

config.py文件

fiction.py文件

summary.py文件

catalog.py文件

article.py文件

暫沒有做數據保存模塊。如果需要串起來做成一個完整的項目的話,只需要把小說數據結構保存即可(節省磁碟空間)。通過小說url可以很快速的提取出小說簡介、目錄、每一章的正文。

如果想要做的更好,可以把目錄,介紹、正文等部分緩存起來,當然得有足夠的空間。

㈥ 使用pyspider抓取起點中文網小說數據

pyspider 是國人開發的相當好用的爬蟲框架。雖然網上教程不是很多,但是文檔詳細,操作簡單,非常適合用來做爬蟲練習或者實現一些抓取數據的需求。

本文就以抓取起點中文小說網的小說作品基礎信息作為差侍配目標,講解如何使用pyspider框架採集數據。

關於為何要選擇起點作為目標,其一、筆者作為網文愛好者,也想收集起點小說作品信息,找些熱門小說看;其二、起點作為比較成熟的小說網站,再反爬蟲方面應該有對應策略,剛好練習一下爬蟲怎麼規避這些策略。

在閱讀本文之前,建議先看一下文檔及框架作者本人寫的中文教程
pyspider 爬蟲教程(一):HTML 和 CSS 選擇器
pyspider 爬蟲教程(二):AJAX 和 HTTP
pyspider 爬蟲教程(三):使用 PhantomJS 渲染帶 JS 的頁面

安裝很簡單,如果已安裝pip,直接執行命令

由於目前很多網站都是動態js生成頁面,需要安裝 PhantomJS 來獲得js執行後的頁面,而不是原本靜態的html頁面,我們再來裝一下

待安裝完成後,談氏我們先看一下pyspider對應的可執行命令

在這里我們直接執行如下命令啟動,更復雜的命令參看 文檔

首先看一下啟動成功後,瀏覽器訪問127.0.0.1:5000地址的界面如下

點擊Create,新建項目

點擊生成的項目名,進入腳本編寫&調試頁面

先看一下對應的爬蟲腳本

1.測試抓取時,運行一段時間後出現所有抓取鏈接均FetchError的報錯,抓取失敗
失敗原因:未設置User-Agent 及 抓取速率太快,導致IP被封禁

解決辦法:
1) 設置User-Agent,調整速率從1->0.7
2) 使用代理IP,防止被封禁,這里筆者嘗試使用搭建 簡易免費代理IP池 ,但是由於免費代理大多不可用,會導致抓取不穩定,還是決定放棄使用

2.筆者本來是打算通過不斷抓取下一頁的鏈接,來遍歷所有小說作品的,可是由於這部分是JS動態生成的,雖然使虛指用phantomjs,能解決這個問題(具體見作者教程3),但是使用phantomjs會導致抓取效率變低,後來還是選擇採用固定首尾頁數(PAGE_START,PAGE_END)的方法

3.當使用css選擇器有多個數據時,怎麼獲取自己想要的
比如在小說詳細頁,有字數,點擊數,推薦數三個
其css selector均為 .book-info > p > em,要獲取對應的次數只能使用pyquery的.eq(index)的方法去獲取對應的文本數據了

4.如果遇到抓取的鏈接是https,而不是http的,使用self.crawl()方法時,需要加入參數validate_cert =False,同時需要確保pyspider --version 版本再0.3.6.0之上
具體解決方法,可以查看如下鏈接:
PySpider HTTP 599: SSL certificate problem錯誤的解決方法

簡單數據分析之二
採用 SCWS 中文分詞 對所有作品名字進行分詞統計,得到出現頻率最高的排行

看起來如果寫小說,起個『重生之我的神魔異世界』這類標題是不是吊炸天

簡單數據分析之三
簡單統計一下起點作者的作品數排序
武俠精品應該是起點的官方作者號吧,不然194本作品也太恐怖了
也發現了不少熟悉的大神,比如唐家三少,流浪的蛤蟆,骷髏精靈等,有些作品還是可以看看的

㈦ 有什麼好的免費網站找小說

1、owllook

一個簡潔的電子書籍搜索網站,網站十分簡潔,只有一個簡單的搜索框,輸入想看的小說名字,一般都能漏衫找到,還會有一些熱門推薦敗信。

㈧ 誰可以提供幾個可以免費下載小說的網站啊

我用的比較多的是飛庫網,有很多種格式的
還有派派小說論壇,txt居多,用迅雷下載,不注冊也可以
這兩個網站的書都蠻多的,連載中的也能保持更新速度
而且像起點和晉江的V文也有不少

㈨ 小說免費的有哪些網站

閱覽小說網站:

1、http://www.ranwen.net/(燃文小說網)
2、http://www.wenxuewu.com/(文學屋)
3、http://www.qsxiaoshuo.com/(在線書吧)
4、http://chuangshi.qq.com/(創世中文網)
5、http://16kbook.org/(16K小說網)

下載小說網站:
1、http://www.zaxsw.cn/(最愛小說網)
2、http://www.wmtxt.com/(無名小說下載網)
3、http://www.sjtxt.com/(小說下載網)
4、http://www.qisuu.com/(奇書網)
5、http://www.txtqb.cn/(txtqb小說現在網)
6、http://www.3uww.com/(炫書網)
7、http://www.bookben.com/(書包網)
8、http://www.mfdzs.com/(免費電子書下載)

望採納,謝謝!

㈩ 有哪些可以免費下載小說的網站

下載電子書的注意事項:
第一、先確定好你要下什麼小說,一般來說你可以去飛庫網(
http://www.feiku.com/
),那裡基本上可以下載到當今熱門、YY的小說,除此之外,如果你想下載一些偏門的比如古文出版文,可以在後面附的一些網站上查找,運用復制、粘貼技術保存到記事本里,轉存為TXT文件
第二、確認一下你是想在電腦上看還是用手機,或者用MP3/MP4/MP5等看。在飛庫網(
http://www.feiku.com/
)如果是電腦看得話,文件下載格式可為UTM,如果是手機上看的話,可下載JAR文件格式到手機上並安裝後看,如果是用MP3/MP4/MP5或者電子詞典等看的話,可以下載TXT文件格式觀看,下載過程由於文件小時間會很短,可直接點擊下載即可,無需迅雷等軟體,當然飛庫網下載可能還要強制安裝迅雷,你可以酌情下載。
第三、推薦一些下載電子書的網址:
TXT電子書
小說下載
http://www.txtweb.com.cn/
txt論壇
http://www.txtbbs.com
麥書人的家
http://www.txtbook.com.cn/
txt下載
http://www.txtdown.com
我愛我小說網
http://www.525xs.cn/
八六小說網
http://www.86txt.cn
小說下載站
http://www.hitxt.com.cn/
小說之家
http://www.txt163.com/
365小說下載網
http://www.21fans.cn/
久久免費下載站
http://www.txt99.com/
電子小說下載吧
http://www.txt8.cn/
小說下載
http://www.txtxia.cn/
原版英語小說
http://www.en8848.com.cn/
圖書下載網
http://www.bookdown.com.cn/
愛書網
http://www.aisu.cn/
愛書吧小說下載站
http://www.aishu8.com/
東方TXT小說下載論壇
http://www.dftxt.net/
TXT小說下載站
http://www.24ww.cn/
手機電子小說下載網
http://www.sjxiaoshuo.cn/
SJTXT小說下載
http://www.sjtxt.com/
久久電子書
http://www.99121.com/
文學家
http://www.wxjia.com/
TXT小說下載
http://www.bh88.net/
看看吧
http://www.kankb.cn/
全本txt小說下載
http://txt.uu366.com/
小說下載
http://www.77285.com/
金沙論壇
http://www.txtbbs.cn/
愛愛TXT電子書
http://www.22txt.com/
小說書樓
http://www.shulou.com/
炎黃中文炎黃
http://www.yhzw.com.cn/
爬爬E站
http://www.3320.net/
華夏書庫小說網
http://www.hxsk.net/
[我愛e書]
http://www.52ebook.com
我愛電子書
http://www.52eshu.com/
txt小說免費下載
http://www.readbook.org/
愛麗書屋
http://www.5dxs.com/
非凡TXT電子書論壇
http://www.doumai.cn/
小說下載
http://novel.globrand.com/
手機電子書·飛庫網
http://www.feiku.com/
若雨小說電子書下載頻道
http://www.ruoyu.net/Ebook/
挖客小說網
http://www.wake21.cn/
飄零書社
http://bbs.txtgs.com/
愛搜書
http://www..com/indexcn.html
一生一世小說
http://www..com/indexcn.html
吾愛TXT
http://www.5atxt.com/
E書吧
http://www.eshuba.com/

熱點內容
重生系統二次元類小說 發布:2025-07-13 01:26:54 瀏覽:315
好看的都市後宮火爆小說排行榜 發布:2025-07-13 01:26:45 瀏覽:234
818那些與眾不同的網游小說 發布:2025-07-13 01:25:07 瀏覽:627
詭秘之主小說免費 發布:2025-07-13 01:20:27 瀏覽:434
總裁寵妻的小說要甜甜的 發布:2025-07-13 01:04:30 瀏覽:684
一本網游小說主角叫石頭城 發布:2025-07-13 01:04:30 瀏覽:304
男主重生家長里短小說 發布:2025-07-13 01:02:17 瀏覽:178
小樹林野合短篇小說 發布:2025-07-13 01:01:26 瀏覽:574
類似都市逆襲女王的小說 發布:2025-07-13 00:59:44 瀏覽:259
中短篇現代虐心小說 發布:2025-07-13 00:50:50 瀏覽:230