大家好,欢迎来到IT知识分享网。
本期为python爬虫实践的第七节,传送门:
Python爬虫实践(1)–大数据时代的数据挑战
Python爬虫实践(2)–非结构化数据与爬虫
Python爬虫实践(3)–了解网络爬虫背后的秘密
Python爬虫实践(4)–编写第一个网络爬虫程序
Python爬虫实践(5)–使用BeautifulSoup解析网页元素
Python爬虫实践(6)–BeautifulSoup的基础操作
经过前面6期的讲解,相信大家对于python爬虫有了一定程度的了解。本期我们就用python爬虫去做一个小案例,去爬取菜鸟教程网站上的python3学习路线。
python
我们先来看一下菜鸟教程网站上python3的教程页面,在左侧有竖着的一列导航,这就是我们要抓取的信息。我按F12打开开发者工具,分析网页的html代码,看一看,我们想要提取的信息都在哪些标签中,这些标签都有什么特殊的地方。
菜鸟教程python3
开发者工具分析页面
通过分析页面,我们可以知道,整个左侧的列表被包裹在一个ID为leftcolumn的div中。在这个div中有非常多的a标签,每一个a标签包含一个python的学习内容。OK,有了这些分析结果,我们就可以开始编写python代码。
import requests
from bs4 import BeautifulSoup
res = requests.get(‘http://www.runoob.com/python3/python3-tutorial.html’)
res.encoding = ‘utf-8’
soup = BeautifulSoup(res.text, ‘html.parser’)
leftcolumn = soup.select(‘#leftcolumn’)
pt = leftcolumn[0]
for title in pt.select(‘a’):
print(title.text.strip())
代码分析:我们根据ID获取了包含所有python知识点的DIV存放在变量leftcolumn中,因为变量leftcolumn是一个列表,而且这个列表中有且只有一个元素,所以我们通过leftcolumn[0]取出赋值给pt这个变量,随后我们通过for循环,在pt变量中继续查找a标签,并将a标签的文本输出,因为输出结果中有多余的空格出现,故使用了strip()方法将多余的空格去掉,最后我们查看一下输出结果。
输出结果
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/24184.html