Python爬虫怎样使用requests库_Python爬虫requests库的安装与基本用法

requests库是Python爬虫常用工具,安装命令为pip install requests。通过requests.get()发送GET请求,可传入params参数添加URL参数;使用requests.post()发送POST请求,data传递表单数据,json参数发送JSON数据。可设置headers模拟浏览器访问,避免反爬。响应对象提供status_code、headers、text、content、json()等属性解析结果。结合BeautifulSoup或正则表达式提取数据,可构建完整爬虫流程,需遵守robots协议并控制请求频率。

Python爬虫中使用requests库可以轻松发送HTTP请求,获取网页内容。相比内置的urllib库,requests语法更简洁、易用,是编写网络爬虫的首选工具之一。下面介绍requests库的安装方法和基本用法。

requests库的安装

在使用requests之前,需要先通过pip安装:

pip install requests

安装完成后,在Python脚本中导入即可使用:

import requests

发送GET请求

最常见的操作是向目标网址发起GET请求,获取页面数据:

response = requests.get("https://httpbin.org/get")
print(response.text)

其中,response.text 返回响应的文本内容(字符串),适合查看HTML或JSON格式数据。

如果需要传递URL参数,可以使用params参数:

params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get("https://httpbin.org/get", params=params)
print(response.url) # 输出:https://httpbin.org/get?key1=value1&key2=value2

发送POST请求

模拟表单提交或登录操作时常用POST方法:

data = {'username': 'admin', 'password': '123456'}
response = requests.post("https://httpbin.org/post", data=data)
print(response.json()) # 将响应结果解析为JSON

对于发送JSON数据,可使用json参数:

requests.post("https://httpbin.org/post", json={'name': 'Tom'})

设置请求头与处理响应

为了伪装成浏览器访问,避免被反爬机制拦截,通常需要添加headers:

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
response = requests.get("https://httpbin.org/get", headers=headers)

常用属性获取响应信息:

  • response.status_code:返回状态码,如200、404
  • response.headers:返回响应头信息
  • response.content:以字节形式返回原始内容,适合保存图片等二进制文件
  • response.json():将JSON响应转为Python字典

基本上就这些。掌握requests的基本用法后,就能高效抓取大多数静态网页内容。后续结合BeautifulSoup或正则表达式提取数据,即可构建完整爬虫流程。注意遵守网站robots协议,合理控制请求频率。