笔趣阁小说网站链接(Python爬取笔趣阁小说返回的网页内容中没有小说内容)
本文目录
Python爬取笔趣阁小说返回的网页内容中没有小说内容
思路:
一、分析网页,网址架构
二、码代码并测试
三、下载并用手机打开观察结果
一、分析网页,网址架构
先随便点击首页上的一篇小说,土豆的--元尊,发现在首页上面有如下一些信息: 作者,状态,最新章节,最后更新时间,简介,以及下面就是每一章的章节名,点击章节名就可以跳转到具体的章节。
然后我们按F12,进入开发者模式,在作者上面点击右键--“检查”,可以发现这些信息都是比较正常地显示。
再看章节名称,发现所有的章节都在《div id="list"》 下面的 dd 里面,整整齐齐地排列好了,看到这种情形,就像点个赞,爬起来舒服。
分析完首页,点击章节名称,跳转到具体内容,发现所有的正文都在 《div id="content"》 下面,巴适的很
那么现在思路就是,先进入小说首页,爬取小说相关信息,然后遍历章节,获取章节的链接,之后就是进入具体章节,下载小说内容。
OK,开始码代码。
二、码代码并测试
导入一些基本的模块:
import requests
from bs4 import BeautifulSoup
import random
2.先构建第一个函数,用于打开网页链接并获取内容。
使用的是requests 包的***** ,获取内容之后用‘utf-8’ 进行转码。
这里我之前有个误区就是,以为所有的网站都是用 ’utf-8’ 进行转码的,但是实际上有些是用’gbk’ 转码的,如果随便写,就会报错。
百度之后,只要在c***ole 下面输入 ‘*****’ 就可以获取网站的编码方式。
和阅文腾讯没有关系的小说网站有哪些
正版的有纵横中文网,盗版的不计其数
看你是说的什么情况了,晋江文学应该不是阅文集团的。
Requests和Xpath笔趣阁小说采集爬取教程
#正则+request+xpathfrom lxml import etreeimport requestsimport reimport warningsimport *****("ignore")headers = {"User-Agent" : "Mozilla/*** (compatible; MSIE ***; Windows NT *** Trident/***;"}def get_urls(URL): Html=*****(URL,headers=headers,verify=False) ***** = ’gbk’ HTML=*****(*****) results=*****(’//dd/a/@href’) return resultsdef get_items(result): url=’ ’,’’) return items def save_to_file(items): with open ("*****",’a’,encoding=’utf-8’) as file: *****(items) def main(URL): results=get_urls(URL) ii=1 for result in results: items=get_items(result) save_to_file(items) print(str(ii)+’ in 1028’) ii=ii+1# *****(1)if __name__ == ’__main__’: start_1 = *****() URL=( 运行结果(重点)
更多文章:
united states(united states是什么意思)
2026年5月10日 06:10
拳皇97屠蛇版(拳皇97屠蛇版里,哪个人物最厉害屠蛇版的五强人物是谁啊)
2026年5月10日 06:00
网络舆情监测员具体工作内容有哪些,网络舆情监测员职责是什么?
2026年5月10日 05:50
手机pdf转word免费不限页数(pdf转word免费不限页数)
2026年5月10日 05:50
疫情期间如何保持心理健康,疫情期待平安 如何在居家期间保持积极心态?
2026年5月10日 05:30






