656 字
3 分钟
Python 爬虫开发环境搭建全记录 (Ubuntu 篇)
0. 为什么需要这些工具?
在开始安装之前,我们先通过一张图了解典型的爬虫技术架构,这样你就明白为什么我们需要安装如此多的组件。
- Python/Pip:核心引擎与包管理。
- MySQL:存储结构化数据(如:书籍信息、用户信息)。
- MongoDB:存储非结构化数据(如:文章正文、复杂的 JSON 响应)。
- Redis:分布式爬虫的队列管理、去重指纹存储。
1. 核心语言环境:Python 3 & Pip
Ubuntu 18.04 虽然预装了 Python 3,但通常缺少包管理工具 pip。
# 更新源列表sudo apt-get update# 安装 pip3 和必要的开发依赖sudo apt install python3-pip python3-dev💡 避坑指南: 在国内建议配置
pip镜像源(如清华源或阿里源),否则安装大型库时极易超时:pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
2. 数据库:数据存储的基石
爬虫数据不能只存在内存里,我们需要三类不同的存储方案。
2.1 MongoDB(NoSQL 存储)
最适合爬虫的数据库,因为它不需要预定义表结构(Schema-less)。
sudo apt-get install mongodb# 检查状态sudo systemctl status mongodb2.2 Redis(缓存与队列)
高性能内存数据库,是分布式爬虫 Scrapy-Redis 的核心。
sudo apt-get install redis-server安全警告:如果你修改了 /etc/redis/redis.conf 取消了 bind 127.0.0.1 允许远程访问,请务必设置强密码 (requirepass),否则极易遭受挖矿病毒攻击。
2.3 MySQL(关系型存储)
用于存储逻辑关系严密的结构化数据。
sudo apt-get install mysql-server# 初始化安全配置(设置密码、移除匿名用户)sudo mysql_secure_installation3. 浏览器自动化:Selenium 与 WebDriver
安装 selenium 库后,你还需要浏览器及其对应的驱动。
# 安装 Chrome 浏览器sudo apt install google-chrome-stable注意:你必须下载与 Chrome 版本完全一致的 chromedriver,并将其放入 /usr/bin/ 目录下,否则 Python 脚本无法驱动浏览器。
4. 常用 Python 爬虫库速查表
我们可以通过一条命令安装所有的常用库:
pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter| 库名 | 核心用途 | 推荐等级 |
|---|---|---|
| requests | 处理同步 HTTP 请求,简洁强大 | ⭐⭐⭐⭐⭐ |
| beautifulsoup4 | HTML/XML 解析,适合新手 | ⭐⭐⭐⭐ |
| pyquery | 像用 jQuery 一样解析 HTML | ⭐⭐⭐⭐ |
| selenium | 解决 JavaScript 动态渲染、模拟登录 | ⭐⭐⭐⭐⭐ |
| flask/django | 编写爬虫管理后台或 API 接口 | ⭐⭐⭐ |
| jupyter | 交互式编写爬虫代码,调试利器 | ⭐⭐⭐⭐ |
5. 总结
搭建好环境只是爬虫之路的第一步。一个完整的爬虫工程环境不仅包括语言解析器,更包括数据持久化层(MySQL/MongoDB)和状态控制层(Redis)。
Python 爬虫开发环境搭建全记录 (Ubuntu 篇)
https://sw.rscclub.website/posts/python3pachong/