Python爬虫怎样使用requests库_Python爬虫requests库的安装与基本用法

雪夜 2025-11-14 00:00:00 次阅读

requests库是Python爬虫常用工具，安装命令为pip install requests。通过requests.get()发送GET请求，可传入params参数添加URL参数；使用requests.post()发送POST请求，data传递表单数据，json参数发送JSON数据。可设置headers模拟浏览器访问，避免反爬。响应对象提供status_code、headers、text、content、json()等属性解析结果。结合BeautifulSoup或正则表达式提取数据，可构建完整爬虫流程，需遵守robots协议并控制请求频率。

Python爬虫中使用requests库可以轻松发送HTTP请求，获取网页内容。相比内置的urllib库，requests语法更简洁、易用，是编写网络爬虫的首选工具之一。下面介绍requests库的安装方法和基本用法。

requests库的安装

在使用requests之前，需要先通过pip安装：

pip install requests

安装完成后，在Python脚本中导入即可使用：

import requests

发送GET请求

最常见的操作是向目标网址发起GET请求，获取页面数据：

response = requests.get("https://httpbin.org/get")
print(response.text)

其中，response.text 返回响应的文本内容（字符串），适合查看HTML或JSON格式数据。

如果需要传递URL参数，可以使用params参数：

params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get("https://httpbin.org/get", params=params)
print(response.url) # 输出：https://httpbin.org/get?key1=value1&key2=value2

发送POST请求

模拟表单提交或登录操作时常用POST方法：

data = {'username': 'admin', 'password': '123456'}
response = requests.post("https://httpbin.org/post", data=data)
print(response.json()) # 将响应结果解析为JSON

对于发送JSON数据，可使用json参数：

requests.post("https://httpbin.org/post", json={'name': 'Tom'})

设置请求头与处理响应

为了伪装成浏览器访问，避免被反爬机制拦截，通常需要添加headers：

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}
response = requests.get("https://httpbin.org/get", headers=headers)

常用属性获取响应信息：