免費爬蟲小說的網站
㈠ 找幾個能免費下小說的網站
看來喜歡小說的人很多呀
我自己常用的有三個:
奇書網,手機小說電子書,TXT和JAR格式,網站廣告多,特別是彈出廣告:
http://www.qisuu.com/
我不知道論壇,是個小說論壇,各種格式的小說都有,需要注冊才能下載:
http://bbs.wbzd.net
免費書屋,博客,每天更新VIP全本的小說,是CHM格式的,可直接下載:
http://yyhxx.blog.hexun.com
㈡ 10分鍾入門爬蟲-小說網站爬取
三月份到四月初花了很長的時間看了一本小說—《明朝那些事兒》,幾乎一整個月的時間都在看,越看越入迷,這就是小說的魅力吧。
故事從朱元璋的乞討要飯開始,經過不斷地殘酷戰爭,擊敗各種對手,建立了明朝;再到後來燕王朱棣起兵造反,接著戚繼光抗擊倭寇;後來又有明朝出現了最有名的內閣首輔大臣—張居正,大刀闊斧地進行改革,明朝進入鼎盛時期;最後清朝入關,明朝還是敗在了崇禎的手上,准確的說是:註定會敗在他的手上。正如文中寫到的那樣:
書講述的不僅僅是歷史, 權利、希望、痛苦、氣節、孤獨、殘暴、邪惡、忍耐、堅持、真理、忠誠 ……在書中樣樣都有。在書的最後,作者寫了一首詩,摘錄在這里:
本文介紹的如何使用Python爬取一個網站上關於這本書的部分章節。
網站首頁: https://www.kanunu8.com/
爬取主鏈接: https://www.kanunu8.com/files/chinese/201102/1777.html
1、章節標題
2、章節正文內容
以第一章為例:我們點擊「第一章 童年」可以進入第一章的正文部分。
看看最終爬取到的數據。在 本地目錄 下生成的一個文件夾:《明朝那些事兒》下面就有我們爬取到的33個章節的內容,包含前言和引子部分。
在本次爬蟲中使用到的相關庫
分析一下網頁的規律
發現了規律:每個章節的頁面都有自己的URL後綴加以區分。看下網頁源碼找出URL地址:
上面已經發現了每個章節的URL地址的後綴
正則寫的不太好,地址還需要切片一次
首頁源碼返回內容解析的結果:
切片之後的有效URL地址:
㈢ 求幾個免費下小說的網站
http://www.yunxuange.com/xstopsize/0/51.html
http://www.zzzyq.com/
這兩個都是我喜歡的腔告滾網伍余站
滿意的話把我的答案設為滿意答友衫案
㈣ 有哪些免費好用的電子書下載網站
奇書網、80電子書、電子書小說網、筆趣閣、書香。
1、奇書網創建於2006年09月25日,奇書網小說下載網是專業的TXT小說下載,TXT電子書下載,手機小說下載網站。每日更新最新,最熱門全集全本完結小說的TXT電子書免費下載。該站已收錄小說39000多部,收錄相關文章7099多篇。
㈤ 教你用Python寫一個爬蟲,免費看小說
這是一個練習作品。用python腳本爬取筆趣閣上面的免費小說。
環境:python3
類庫:BeautifulSoup
數據源: http://www.biqukan.cc
原理就是偽裝正常http請求,正常訪問網頁。然後通過bs4重新解析html結構來提取有效數據。
包含了偽裝請求頭部,數據源配置(如果不考慮擴展其他數據源,可以寫死)。
config.py文件
fiction.py文件
summary.py文件
catalog.py文件
article.py文件
暫沒有做數據保存模塊。如果需要串起來做成一個完整的項目的話,只需要把小說數據結構保存即可(節省磁碟空間)。通過小說url可以很快速的提取出小說簡介、目錄、每一章的正文。
如果想要做的更好,可以把目錄,介紹、正文等部分緩存起來,當然得有足夠的空間。
㈥ 使用pyspider抓取起點中文網小說數據
pyspider 是國人開發的相當好用的爬蟲框架。雖然網上教程不是很多,但是文檔詳細,操作簡單,非常適合用來做爬蟲練習或者實現一些抓取數據的需求。
本文就以抓取起點中文小說網的小說作品基礎信息作為差侍配目標,講解如何使用pyspider框架採集數據。
關於為何要選擇起點作為目標,其一、筆者作為網文愛好者,也想收集起點小說作品信息,找些熱門小說看;其二、起點作為比較成熟的小說網站,再反爬蟲方面應該有對應策略,剛好練習一下爬蟲怎麼規避這些策略。
在閱讀本文之前,建議先看一下文檔及框架作者本人寫的中文教程
pyspider 爬蟲教程(一):HTML 和 CSS 選擇器
pyspider 爬蟲教程(二):AJAX 和 HTTP
pyspider 爬蟲教程(三):使用 PhantomJS 渲染帶 JS 的頁面
安裝很簡單,如果已安裝pip,直接執行命令
由於目前很多網站都是動態js生成頁面,需要安裝 PhantomJS 來獲得js執行後的頁面,而不是原本靜態的html頁面,我們再來裝一下
待安裝完成後,談氏我們先看一下pyspider對應的可執行命令
在這里我們直接執行如下命令啟動,更復雜的命令參看 文檔
首先看一下啟動成功後,瀏覽器訪問127.0.0.1:5000地址的界面如下
點擊Create,新建項目
點擊生成的項目名,進入腳本編寫&調試頁面
先看一下對應的爬蟲腳本
1.測試抓取時,運行一段時間後出現所有抓取鏈接均FetchError的報錯,抓取失敗
失敗原因:未設置User-Agent 及 抓取速率太快,導致IP被封禁
解決辦法:
1) 設置User-Agent,調整速率從1->0.7
2) 使用代理IP,防止被封禁,這里筆者嘗試使用搭建 簡易免費代理IP池 ,但是由於免費代理大多不可用,會導致抓取不穩定,還是決定放棄使用
2.筆者本來是打算通過不斷抓取下一頁的鏈接,來遍歷所有小說作品的,可是由於這部分是JS動態生成的,雖然使虛指用phantomjs,能解決這個問題(具體見作者教程3),但是使用phantomjs會導致抓取效率變低,後來還是選擇採用固定首尾頁數(PAGE_START,PAGE_END)的方法
3.當使用css選擇器有多個數據時,怎麼獲取自己想要的
比如在小說詳細頁,有字數,點擊數,推薦數三個
其css selector均為 .book-info > p > em,要獲取對應的次數只能使用pyquery的.eq(index)的方法去獲取對應的文本數據了
4.如果遇到抓取的鏈接是https,而不是http的,使用self.crawl()方法時,需要加入參數validate_cert =False,同時需要確保pyspider --version 版本再0.3.6.0之上
具體解決方法,可以查看如下鏈接:
PySpider HTTP 599: SSL certificate problem錯誤的解決方法
簡單數據分析之二
採用 SCWS 中文分詞 對所有作品名字進行分詞統計,得到出現頻率最高的排行
看起來如果寫小說,起個『重生之我的神魔異世界』這類標題是不是吊炸天
簡單數據分析之三
簡單統計一下起點作者的作品數排序
武俠精品應該是起點的官方作者號吧,不然194本作品也太恐怖了
也發現了不少熟悉的大神,比如唐家三少,流浪的蛤蟆,骷髏精靈等,有些作品還是可以看看的
㈦ 有什麼好的免費網站找小說
1、owllook
一個簡潔的電子書籍搜索網站,網站十分簡潔,只有一個簡單的搜索框,輸入想看的小說名字,一般都能漏衫找到,還會有一些熱門推薦敗信。
㈧ 誰可以提供幾個可以免費下載小說的網站啊
我用的比較多的是飛庫網,有很多種格式的
還有派派小說論壇,txt居多,用迅雷下載,不注冊也可以
這兩個網站的書都蠻多的,連載中的也能保持更新速度
而且像起點和晉江的V文也有不少
㈨ 小說免費的有哪些網站
閱覽小說網站:
1、http://www.ranwen.net/(燃文小說網)
2、http://www.wenxuewu.com/(文學屋)
3、http://www.qsxiaoshuo.com/(在線書吧)
4、http://chuangshi.qq.com/(創世中文網)
5、http://16kbook.org/(16K小說網)
下載小說網站:
1、http://www.zaxsw.cn/(最愛小說網)
2、http://www.wmtxt.com/(無名小說下載網)
3、http://www.sjtxt.com/(小說下載網)
4、http://www.qisuu.com/(奇書網)
5、http://www.txtqb.cn/(txtqb小說現在網)
6、http://www.3uww.com/(炫書網)
7、http://www.bookben.com/(書包網)
8、http://www.mfdzs.com/(免費電子書下載)
望採納,謝謝!
㈩ 有哪些可以免費下載小說的網站
下載電子書的注意事項:
第一、先確定好你要下什麼小說,一般來說你可以去飛庫網(
http://www.feiku.com/
),那裡基本上可以下載到當今熱門、YY的小說,除此之外,如果你想下載一些偏門的比如古文出版文,可以在後面附的一些網站上查找,運用復制、粘貼技術保存到記事本里,轉存為TXT文件
第二、確認一下你是想在電腦上看還是用手機,或者用MP3/MP4/MP5等看。在飛庫網(
http://www.feiku.com/
)如果是電腦看得話,文件下載格式可為UTM,如果是手機上看的話,可下載JAR文件格式到手機上並安裝後看,如果是用MP3/MP4/MP5或者電子詞典等看的話,可以下載TXT文件格式觀看,下載過程由於文件小時間會很短,可直接點擊下載即可,無需迅雷等軟體,當然飛庫網下載可能還要強制安裝迅雷,你可以酌情下載。
第三、推薦一些下載電子書的網址:
TXT電子書
小說下載
http://www.txtweb.com.cn/
txt論壇
http://www.txtbbs.com
麥書人的家
http://www.txtbook.com.cn/
txt下載
http://www.txtdown.com
我愛我小說網
http://www.525xs.cn/
八六小說網
http://www.86txt.cn
小說下載站
http://www.hitxt.com.cn/
小說之家
http://www.txt163.com/
365小說下載網
http://www.21fans.cn/
久久免費下載站
http://www.txt99.com/
電子小說下載吧
http://www.txt8.cn/
小說下載
http://www.txtxia.cn/
原版英語小說
http://www.en8848.com.cn/
圖書下載網
http://www.bookdown.com.cn/
愛書網
http://www.aisu.cn/
愛書吧小說下載站
http://www.aishu8.com/
東方TXT小說下載論壇
http://www.dftxt.net/
TXT小說下載站
http://www.24ww.cn/
手機電子小說下載網
http://www.sjxiaoshuo.cn/
SJTXT小說下載
http://www.sjtxt.com/
久久電子書
http://www.99121.com/
文學家
http://www.wxjia.com/
TXT小說下載
http://www.bh88.net/
看看吧
http://www.kankb.cn/
全本txt小說下載
http://txt.uu366.com/
小說下載
http://www.77285.com/
金沙論壇
http://www.txtbbs.cn/
愛愛TXT電子書
http://www.22txt.com/
小說書樓
http://www.shulou.com/
炎黃中文炎黃
http://www.yhzw.com.cn/
爬爬E站
http://www.3320.net/
華夏書庫小說網
http://www.hxsk.net/
[我愛e書]
http://www.52ebook.com
我愛電子書
http://www.52eshu.com/
txt小說免費下載
http://www.readbook.org/
愛麗書屋
http://www.5dxs.com/
非凡TXT電子書論壇
http://www.doumai.cn/
小說下載
http://novel.globrand.com/
手機電子書·飛庫網
http://www.feiku.com/
若雨小說電子書下載頻道
http://www.ruoyu.net/Ebook/
挖客小說網
http://www.wake21.cn/
飄零書社
http://bbs.txtgs.com/
愛搜書
http://www..com/indexcn.html
一生一世小說
http://www..com/indexcn.html
吾愛TXT
http://www.5atxt.com/
E書吧
http://www.eshuba.com/