Python自动化脚本如何做批量下载_URL下载脚本开发流程【教学】

舞姬之光 2025-12-19 00:00:00 次阅读

Python批量下载URL脚本核心是“读取链接→发起请求→保存文件”，需用requests处理HTTP、pathlib管理路径、urllib.parse.quote预处理中文URL，支持txt文件读取、重试机制、超时控制、Content-Disposition解析文件名、按域名分目录存储，并添加sleep防反爬。

批量下载 URL 的 Python 脚本，核心是“读取链接 → 发起请求 → 保存文件”，不复杂但容易忽略细节。重点在于稳定、可重试、能处理常见异常（如超时、404、重定向、中文文件名），而不是一上来就堆功能。

1. 准备基础环境与依赖

用 requests 处理 HTTP 请求（比 urllib 更简洁），os / pathlib 管理路径，time 控制节奏。不需要额外安装复杂框架。

推荐命令安装：pip install requests
脚本开头加 import requests, os, time, pathlib
如果 URL 含中文或特殊字符，用 urllib.parse.quote 预处理（避免 400 错误）

2. 设计输入方式：灵活读取 URL 列表

别硬编码 URL。支持从文本文件（每行一个 URL）或简单列表变量起步，后续再扩展 CSV/Excel。

文本文件示例（urls.txt）：
https://example.com/file1.pdf
https://example.com/报告-2025.pdf
代码中读取：with open("urls.txt") as f: urls = [line.strip() for line in f if line.strip()]
注意过滤空行和注释（以 # 开头的行）

3. 下载逻辑：带重试、命名与进度提示

单个下载要包含：设置超时、捕获异常、提取合理文件名、防止覆盖、控制并发节奏。

用 requests.get(url, timeout=30)，超时设 20–60 秒更稳妥
文件名建议从 URL 最后一段提取（url.split("/")[-1]），若为空或含非法字符， fallback 到时间戳 + 哈希
用 response.headers.get("Content-Disposition") 尝试获取服务端指定的文件名（尤其对附件下载有效）
每次下载后 time.sleep(0.5)，避免高频触发反爬或服务器限流
失败时自动重试 2–3 次（用 while 循环 + try/except），记录失败 URL 到 failed.log

4. 保存与组织：按规则归档文件

批量下载容易混乱。建议统一存入 ./downloads/ 目录，并支持子目录分类（如按域名或日期）。

创建目录：pathlib.Path("downloads").mkdir(exist_ok=True)
安全写入：with open(f"downloads/{filename}", "wb") as f: f.write(response.content)
若需按域名分文件夹，可用 from urllib.parse import urlparse; domain = urlparse(url).netloc.replace(".", "_")

基本上就这些。跑通一个 URL 再扩到 10 个，加上日志和错误统计，就是实用的自动化下载脚本。不需要一开始就做 GUI 或 Web 接口，先让命令行版稳稳跑起来。