656 字
3 分钟
Python 爬虫开发环境搭建全记录 (Ubuntu 篇)

0. 为什么需要这些工具?#

在开始安装之前,我们先通过一张图了解典型的爬虫技术架构,这样你就明白为什么我们需要安装如此多的组件。

  • Python/Pip:核心引擎与包管理。
  • MySQL:存储结构化数据(如:书籍信息、用户信息)。
  • MongoDB:存储非结构化数据(如:文章正文、复杂的 JSON 响应)。
  • Redis:分布式爬虫的队列管理、去重指纹存储。

1. 核心语言环境:Python 3 & Pip#

Ubuntu 18.04 虽然预装了 Python 3,但通常缺少包管理工具 pip

Terminal window
# 更新源列表
sudo apt-get update
# 安装 pip3 和必要的开发依赖
sudo apt install python3-pip python3-dev

💡 避坑指南: 在国内建议配置 pip 镜像源(如清华源或阿里源),否则安装大型库时极易超时: pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple


2. 数据库:数据存储的基石#

爬虫数据不能只存在内存里,我们需要三类不同的存储方案。

2.1 MongoDB(NoSQL 存储)#

最适合爬虫的数据库,因为它不需要预定义表结构(Schema-less)。

Terminal window
sudo apt-get install mongodb
# 检查状态
sudo systemctl status mongodb

2.2 Redis(缓存与队列)#

高性能内存数据库,是分布式爬虫 Scrapy-Redis 的核心。

Terminal window
sudo apt-get install redis-server

安全警告:如果你修改了 /etc/redis/redis.conf 取消了 bind 127.0.0.1 允许远程访问,请务必设置强密码 (requirepass),否则极易遭受挖矿病毒攻击。

2.3 MySQL(关系型存储)#

用于存储逻辑关系严密的结构化数据。

Terminal window
sudo apt-get install mysql-server
# 初始化安全配置(设置密码、移除匿名用户)
sudo mysql_secure_installation

3. 浏览器自动化:Selenium 与 WebDriver#

安装 selenium 库后,你还需要浏览器及其对应的驱动。

Terminal window
# 安装 Chrome 浏览器
sudo apt install google-chrome-stable

注意:你必须下载与 Chrome 版本完全一致的 chromedriver,并将其放入 /usr/bin/ 目录下,否则 Python 脚本无法驱动浏览器。


4. 常用 Python 爬虫库速查表#

我们可以通过一条命令安装所有的常用库:

Terminal window
pip3 install requests selenium beautifulsoup4 pyquery pymysql pymongo redis flask django jupyter
库名核心用途推荐等级
requests处理同步 HTTP 请求,简洁强大⭐⭐⭐⭐⭐
beautifulsoup4HTML/XML 解析,适合新手⭐⭐⭐⭐
pyquery像用 jQuery 一样解析 HTML⭐⭐⭐⭐
selenium解决 JavaScript 动态渲染、模拟登录⭐⭐⭐⭐⭐
flask/django编写爬虫管理后台或 API 接口⭐⭐⭐
jupyter交互式编写爬虫代码,调试利器⭐⭐⭐⭐

5. 总结#

搭建好环境只是爬虫之路的第一步。一个完整的爬虫工程环境不仅包括语言解析器,更包括数据持久化层(MySQL/MongoDB)和状态控制层(Redis)。

Python 爬虫开发环境搭建全记录 (Ubuntu 篇)
https://sw.rscclub.website/posts/python3pachong/
作者
杨月昌
发布于
2016-01-18
许可协议
CC BY-NC-SA 4.0