大家好,欢迎来到IT知识分享网。
1.bs4模块介绍
即:BeautifulSoup,就是一个python的第三方的库,使用之前需要安装。
用于爬虫。
使用:import bs4
2.bs4模块安装
方法一:
pip install bs4 #即可,我的有点慢,竟然掉线了
方法二:
换一种安装,也算学习到了。
2.1 去网站https://pypi.org/project/bs4/#files
2.2 下载bs4-0.0.1.tar.gz
图1
图2
2.2 放在/opt下
2.3 pip3.8 install /opt/bs4-0.0.1.tar.gz #第一次这样安装,还可以安装相关依赖,不错
图3
安装成功!记录一下下。
3.爬虫使用,相关语法:
3.1 bs4是什麽?
它的作用是能够快速方便简单的提取网页中指定的内容,给我一个网页字符串,
然后使用它的接口将网页字符串生成一个对象,然后通过这个对象的方法来提取数据。
3.2 lxml是什麽?
lxml是一个解析器,也是下面的xpath要用到的库,
bs4将网页字符串生成对象的时候需要用到解析器,就用lxml,或者使用官方自带的解析器 html.parser。
3.3 pip3.8 install lxml
图4
爬虫学得好,监狱进得早。
学习到此,请勿用于非法目的,纯技术。哈哈哈。
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/166378.html