1、什么是爬虫
通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程
2、爬虫在使用场景中的分类
- 通用爬虫
- 抓取系统重要组成部分,抓取的是互联网上一整张页面的数据
- 聚焦爬虫
- 建立在通用爬虫之上,抓取的是页面特定的局部内容
4、反反爬策略
爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中的反爬机制,从而获取网站的数据
5、robots.txt 协议
6、HTTP/HTTPS 协议
http : 服务器和客户端进行指定的一种通信协议
| 常用请求头信息 | |
|---|---|
| user-agent | 请求载体的身份标识, 用谷歌打开就是谷歌的身份,用火狐就是火狐的身份 |
| connection | 请求完毕后,是断开连接还是继续保持连接 |
| 常用响应头信息 | |
| Content-type | 服务器响应回客户端的数据类型 【字符串,json,html】 |
https : 标识安全的HTTP协议,安全的超文本传输协议 【数据加密后的】
加密方式:
- json 就是一个数据格式
- json 是轻量级的文本数据交换格式
- json 独立于语言
- json 具有自我描述性,更易理解
- json 比xml 更小,更快,更易解析
8、python中json标准库的作用
使用json字符串生成python对象 (dump)
由python对象【字典】格式化成为json字符串(dump)
python转到json格式,在数据类型上会有变化:
| python | json |
|---|---|
| dict | object |
| list,tuple | array |
| str | string |
| int,float,int .. | number |
| True | true |
| False | false |
| None | null |
json模块的方法
| 方法 | 功能 |
|---|---|
| json.dump(obj,fp) | 将python数据类型转换并保存到json格式的文件内 |
| json.dumps(obj) | 将python数据类型转换为json格式的字符串 |
| json.load(fp) | 从json格式的文件中读取数据并转换为python的类型 |
| json.loads(s) | 将json格式的字符串转换为python类型 |
