简介
第一个爬虫就虫一段html开始, 之后会有根据url爬取,模拟登陆信息爬取等^_^
需要的第三方库介绍
BeautifulSoup
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。
它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。Beautiful Soup的安装方法
- pip install bs4方法
- 在Pycharm中,可以在File -> Settings -> Project Interpreter -> 右侧有个加号按钮 -> 在弹出的窗口搜索bs4并安装。
实例
下面是一段代码, 主要绑我们构建出能够通过第三方库帮助我们识别html,这样我们就能提取出对我们有用的东西了
1 | from bs4 import BeautifulSoup |
输出内容为一下
1 | find's return type is <class 'bs4.element.Tag'> |
结语
好久没写博客了, 慢慢来吧