学习目标:
熟练掌握urllib.lib库及requests库的使用,掌握爬虫高级技术及Scrapy分布式爬虫开发。
学习内容:
urllib.lib库
Python urllib
urllib库的操作
urllib基本get请求
urllib基本post请求
超时配置与会话对象
代理与API
requests库
通过pip安装requests
发送请求
Response对象
身份验证
Cookies
超时与异常
综合应用案例
Xpath
1、CSS选择器
2、Xpath基本介绍
3、Xpath基本语法
4、XPath 轴
5、Xpath的运算符
6、Xpath语法定位
7、反爬虫技术
爬虫高级技术
多线程与多进程
代理设置
动态网页内容的抓取
Selenium
模拟表单登录
图片验证码识别
Scrapy分布式爬虫
创建项目与Item
命令行工具
Spiders参数
Scrapy的Feed
数据收集与终端输出
Scrapy爬虫问题
Scrapy爬虫调试 |