python网页爬虫菜鸟教程_Python爬虫实践(7)-抓取菜鸟教程python学习路线-工具-站长头条…「终于解决」

python网页爬虫菜鸟教程_Python爬虫实践(7)-抓取菜鸟教程python学习路线-工具-站长头条…「终于解决」本期为python爬虫实践的第七节,传送门:Python爬虫实践(1)大数据时代的数据挑战Python爬虫实践(2)非结构化数据与爬虫Python爬虫实践(3)了解网络爬虫背后的秘密Python爬虫实践(4)编写第一个网络爬虫程序Python爬虫实践(5)使用BeautifulSoup解析网页元素Python爬虫实践(6)BeautifulSoup的基础操作经过前面6期的讲…

大家好,欢迎来到IT知识分享网。

本期为python爬虫实践的第七节,传送门:

Python爬虫实践(1)–大数据时代的数据挑战

Python爬虫实践(2)–非结构化数据与爬虫

Python爬虫实践(3)–了解网络爬虫背后的秘密

Python爬虫实践(4)–编写第一个网络爬虫程序

Python爬虫实践(5)–使用BeautifulSoup解析网页元素

Python爬虫实践(6)–BeautifulSoup的基础操作

经过前面6期的讲解,相信大家对于python爬虫有了一定程度的了解。本期我们就用python爬虫去做一个小案例,去爬取菜鸟教程网站上的python3学习路线。

054052n5i1n6kwnlyrozir.jpg

python

我们先来看一下菜鸟教程网站上python3的教程页面,在左侧有竖着的一列导航,这就是我们要抓取的信息。我按F12打开开发者工具,分析网页的html代码,看一看,我们想要提取的信息都在哪些标签中,这些标签都有什么特殊的地方。

054053p618x96qychmiupx.jpg

菜鸟教程python3

054053ao1k5ldc5o0lokl0.jpg

开发者工具分析页面

通过分析页面,我们可以知道,整个左侧的列表被包裹在一个ID为leftcolumn的div中。在这个div中有非常多的a标签,每一个a标签包含一个python的学习内容。OK,有了这些分析结果,我们就可以开始编写python代码。

import requests

from bs4 import BeautifulSoup

res = requests.get(‘http://www.runoob.com/python3/python3-tutorial.html’)

res.encoding = ‘utf-8’

soup = BeautifulSoup(res.text, ‘html.parser’)

leftcolumn = soup.select(‘#leftcolumn’)

pt = leftcolumn[0]

for title in pt.select(‘a’):

print(title.text.strip())

代码分析:我们根据ID获取了包含所有python知识点的DIV存放在变量leftcolumn中,因为变量leftcolumn是一个列表,而且这个列表中有且只有一个元素,所以我们通过leftcolumn[0]取出赋值给pt这个变量,随后我们通过for循环,在pt变量中继续查找a标签,并将a标签的文本输出,因为输出结果中有多余的空格出现,故使用了strip()方法将多余的空格去掉,最后我们查看一下输出结果。

054053z2uysfypyjuz626p.jpg

输出结果

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/24184.html

(0)
上一篇 2023-08-27 19:45
下一篇 2023-08-28 18:33

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

关注微信