python爬虫入门——Day01(http协议与requests)
HTTP协议
HTTP协议: 就是两个计算机之间为了能够流畅的进⾏沟通⽽设置的⼀个君⼦协定. 常⻅的协议有TCP/IP. SOAP协议, HTTP协议, SMTP协议等等.....
HTTP协议, Hyper Text Transfer Protocol(超⽂本传输协议)的缩写,是⽤于从万维⽹(WWW:World Wide Web )服务器传输超⽂本到本地浏览器的传送协议. 直⽩点⼉, 就是浏览器和服务器之间的数据交互遵守的就是HTTP协议.
HTTP协议把⼀条消息分为三⼤块内容. ⽆论是请求还是响应都是三块 内容
请求:
请求⾏ -> 请求⽅式(get/post) 请求url地址 协议
请求头 -> 放⼀些服务器要使⽤的附加信息
请求体 -> ⼀般放⼀些请求参数
响应:
状态⾏ -> 协议 状态码
响应头 -> 放⼀些客户端要使⽤的⼀些附加信息
响应体 -> 服务器返回的真正客户端要⽤的内容(HTML,json)等
在后⾯我们写爬⾍的时候要格外注意请求头和响应头. 这两个地⽅⼀
般都隐含着⼀些⽐较重要的内容
请求头中最常⻅的⼀些重要内容(爬⾍需要):
- User-Agent : 请求载体的身份标识(⽤啥发送的请求)
- Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
- cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
响应头中⼀些重要的内容:
- cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
- 各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token 字样, 防⽌各种攻击和反爬)
请求⽅式:
- GET: 显示提交 向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作中,例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问。
- POST: 隐示提交 向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源,或二者皆有。
GET提交的数据会放在URL之后,也就是请求行里面,以?分割URL和传输数据,参数之间以&相连,如EditBook?name=test1&id=123456.(请求头里面那个content-type做的这种参数形式,后面讲) POST方法是把提交的数据放在HTTP包的请求体中.
GET提交的数据大小有限制(因为浏览器对URL的长度有限制),而POST方法提交的数据没有限制.
GET与POST请求在服务端获取请求数据方式不同,就是我们自己在服务端取请求数据的时候的方式不同了。
requests模块
requests请求方式
列名 | 列名 |
---|---|
request() | 构造请求,支撑以下的基础方法 |
get() | 获取HTML页面的主要方法,对应于http的get(常用) |
head() | 获取HTML页面的头部信息的主要方法,对应于http的head |
post() | 向HTML提交post请求的方法,对应于http的post(常用) 向URLpost一个字符串自动编码为data向URLpost一个字典将自动编码为form(表单) |
put() | 向HTML提交put请求的方法,对应于http的put |
patch() | 向HTML提交局部修改的请求,对应于http的patch |
delete() | 向HTML提交删除请求,对应于http的delete |
response对象的属性
每次调用 requests 请求之后,会返回一个 response 对象,该对象包含了具体的响应信息。 响应信息如下:
列名 | 列名 |
---|---|
status_code | HTTP请求的返回状态码,200表示成功,400表示失败 |
text | HTTP响应内容的字符串形式,即URL对应的页面内容 |
encoding | 从HTTPheader中猜测的响应内容编码方式如果header中不存在charset,则认为编码是ISO-8859-1 |
apparent_encoding | 从内容中分析出的响应内容编码方式(备选编码方式)从内容中分析出可能的编码形式 |
content | HTTP响应内容的二进制形式 |
requests库的异常捕获
requests常见异常:
列名 | 列名 |
---|---|
requests.ConnectionError | 网络连接错误异常,如DNS查询失败、拒绝连接等 |
requests.HTTPError | HTTP错误异常 |
requests.URLRequired | URL缺失异常 |
requests.TooManyRedirects | 超过最大重定向次数,产生重定向异常 |
requests.ConnectTimeout | 连接远程服务器超时异常 |
requests.Timeout | 请求URL超时,产生超时异常 |
基本的get请求
import requests
response = requests.get('http://httpbin.org/get')
print(response.text)
结果
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.28.2",
"X-Amzn-Trace-Id": "Root=1-640db554-63e5fa8315cc3e6f28fb5c8b"
},
"origin": "114.114.114.114",
"url": "http://httpbin.org/get"
}
带参数的GET请求:
import requests
response = requests.get(http://httpbin.org/get?name=gemey&age=22)
print(response.text)
结果
{
"args": {
"age": "22",
"name": "gemey"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.28.2",
"X-Amzn-Trace-Id": "Root=1-640db59f-175cb85363bc4549389e22a5"
},
"origin": "114.114.114.114",
"url": "http://httpbin.org/get?name=gemey&age=22"
}
另一种先将参数填写在dict中,发起请求时params参数指定为dict
import requests
data = {
'name': 'tom',
'age': 20
}
response = requests.get('http://httpbin.org/get', params=data)
print(response.text)
结果同上
解析json
import requests
response = requests.get('http://httpbin.org/get')
print(response.text)
print(response.json()) #response.json()方法同json.loads(response.text)
print(type(response.json()))
结果
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.28.2",
"X-Amzn-Trace-Id": "Root=1-640db612-1a233ce942b40727366c7b93"
},
"origin": "114.114.114.114",
"url": "http://httpbin.org/get"
}
{'args': {}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.28.2', 'X-Amzn-Trace-Id': 'Root=1-640db612-1a233ce942b40727366c7b93'}, 'origin': '114.114.114.114', 'url': 'http://httpbin.org/get'}
<class 'dict'>
保存二进制文件
二进制内容为response.content
import requests
response = requests.get('http://img.ivsky.com/img/tupian/pre/201708/30/kekeersitao-002.jpg')
b = response.content
with open('F://fengjing.jpg','wb') as f:
f.write(b)
添加请求头信息
import requests
heads = {}heads['User-Agent'] = 'Mozilla/5.0 ' \ '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \ '(KHTML, like Gecko) Version/5.1 Safari/534.50'
response = requests.get('http://www.baidu.com',headers=headers)
使用代理
同添加headers方法,代理参数也要是一个dict 这里使用requests库爬取了IP代理网站的IP与端口和类型 因为是免费的,使用的代理地址很快就失效了。
import requests
import re
def get_html(url):
proxy = {
'http': '120.25.253.234:812',
'https' '163.125.222.244:8123'
}
heads = {}
heads['User-Agent'] = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
req = requests.get(url, headers=heads,proxies=proxy)
html = req.text
return html
def get_ipport(html):
regex = r'<td data-title="IP">(.+)</td>'
iplist = re.findall(regex, html)
regex2 = '<td data-title="PORT">(.+)</td>'
portlist = re.findall(regex2, html)
regex3 = r'<td data-title="类型">(.+)</td>'
typelist = re.findall(regex3, html)
sumray = []
for i in iplist:
for p in portlist:
for t in typelist:
pass
pass
a = t+','+i + ':' + p
sumray.append(a)
print('高匿代理')
print(sumray)
if __name__ == '__main__':
url = 'http://www.kuaidaili.com/free/'
get_ipport(get_html(url))
结果
高匿代理
['HTTP,61.164.39.68:60808', 'HTTP,27.42.168.46:60808', 'HTTP,116.9.163.205:60808', 'HTTP,61.216.185.88:60808', 'HTTP,182.34.102.50:60808', 'HTTP,183.236.232.160:60808', 'HTTP,113.124.86.24:60808', 'HTTP,210.5.10.87:60808', 'HTTP,121.13.252.58:60808', 'HTTP,121.13.252.60:60808', 'HTTP,117.114.149.66:60808', 'HTTP,112.14.47.6:60808', 'HTTP,121.13.252.61:60808', 'HTTP,222.74.73.202:60808', 'HTTP,61.216.156.222:60808']
基本POST请求
import requests
data = {'name':'tom','age':'22'}
response = requests.post('http://httpbin.org/post', data=data)
结果
{
"args": {},
"data": "",
"files": {},
"form": {
"age": "22",
"name": "tom"
},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Content-Length": "15",
"Content-Type": "application/x-www-form-urlencoded",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.28.2",
"X-Amzn-Trace-Id": "Root=1-640db762-2b8d0fa65c8555112a2f603e"
},
"json": null,
"origin": "117.152.34.243",
"url": "http://httpbin.org/post"
}
获取cookie
#获取cookie
import requests
response = requests.get('http://www.baidu.com')
print(response.cookies)
print(type(response.cookies))
for k,v in response.cookies.items():
print(k+':'+v)
结果
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
<class 'requests.cookies.RequestsCookieJar'>
BDORZ:27315
会话维持
import requests
session = requests.Session()
session.get('http://httpbin.org/cookies/set/number/12345')
response = session.get('http://httpbin.org/cookies')
print(response.text)
结果:
{
"cookies": {
"number": "12345"
}
}
证书验证设置
import requests
from requests.packages import urllib3
urllib3.disable_warnings() #从urllib3中消除警告
response = requests.get('https://www.12306.cn',verify=False) #证书验证设为FALSE
print(response.status_code)
打印结果:200
超时异常捕获
import requests
from requests.exceptions import ReadTimeout
try:
res = requests.get('http://httpbin.org', timeout=0.1)
print(res.status_code)
except ReadTimeout:
print(timeout)
异常处理
在你不确定会发生什么错误时,尽量使用try...except来捕获异常
所有的requests exception:
import requests
from requests.exceptions import ReadTimeout,HTTPError,RequestException
try:
response = requests.get('http://www.baidu.com',timeout=0.5)
print(response.status_code)
except ReadTimeout:
print('timeout')
except HTTPError:
print('httperror')
except RequestException:
print('reqerror')