python如何抓取网页中DIV的文本?
1,写爬虫思路:
确定下载目标,找到网页,找到网页中需要的内容。处理数据。保存数据。
2.知识点描述:
1)确定网络中需要的信息,打开网页后用F12打开开发者模式。
你可以在网络中看到很多信息,我们在页面上看到的所有文字信息都保存在一个html文件中。点击文件后可以看到响应,文本信息包含在响应中。
对于要输入的信息,可以使用ctrl+f进行搜索。查看信息前后包含哪些具体字段。
对于超链接提取,您可以单击带有最左侧箭头的超链接。这时Elements会用超链接打开信息,判断要提取的信息。从下载小说来看,从目录页中提取小说的链接和章节名。
2)注意编码格式
输入字符集必须设置为utf-8。大多数页面都是GBK字符集。如果不设置,就会乱码。