Python 爬虫开发环境搭建全记录 (Ubuntu 篇)

0. 为什么需要这些工具？#

在开始安装之前，我们先通过一张图了解典型的爬虫技术架构，这样你就明白为什么我们需要安装如此多的组件。

Ubuntu 18.04 虽然预装了 Python 3，但通常缺少包管理工具 pip。

1
# 更新源列表
2
sudo apt-get update
3
# 安装 pip3 和必要的开发依赖
4
sudo apt install python3-pip python3-dev

💡 避坑指南： 在国内建议配置 pip 镜像源（如清华源或阿里源），否则安装大型库时极易超时： pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

爬虫数据不能只存在内存里，我们需要三类不同的存储方案。

最适合爬虫的数据库，因为它不需要预定义表结构（Schema-less）。

1
sudo apt-get install mongodb
2
# 检查状态
3
sudo systemctl status mongodb

高性能内存数据库，是分布式爬虫 Scrapy-Redis 的核心。

1
sudo apt-get install redis-server

安全警告：如果你修改了 /etc/redis/redis.conf 取消了 bind 127.0.0.1 允许远程访问，请务必设置强密码 (requirepass)，否则极易遭受挖矿病毒攻击。

用于存储逻辑关系严密的结构化数据。

1
sudo apt-get install mysql-server
2
# 初始化安全配置（设置密码、移除匿名用户）
3
sudo mysql_secure_installation

安装 selenium 库后，你还需要浏览器及其对应的驱动。

1
# 安装 Chrome 浏览器
2
sudo apt install google-chrome-stable

注意：你必须下载与 Chrome 版本完全一致的 chromedriver，并将其放入 /usr/bin/ 目录下，否则 Python 脚本无法驱动浏览器。

我们可以通过一条命令安装所有的常用库：

1
pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter

搭建好环境只是爬虫之路的第一步。一个完整的爬虫工程环境不仅包括语言解析器，更包括数据持久化层（MySQL/MongoDB）和状态控制层（Redis）。