基于 Selenium 和 PyQuery 爬取淘宝数据：全自动无头模式实战

1. 爬虫工作原理图#

在抓取淘宝这类由 JavaScript 动态渲染的页面时，传统的 requests 库难以获取完整源码。我们使用 Selenium 模拟真实浏览器行为，其核心交互逻辑如下：

2. 环境准备与高级配置#

2.1 依赖安装#

1
pip install selenium pyquery

2.2 绕过机器人检测（关键）#

淘宝会对 window.navigator.webdriver 属性进行检测。如果是 true，系统会立刻弹出滑动验证码。我们必须在启动时通过选项隐藏这个特征。

1
from selenium import webdriver
2
from selenium.webdriver.common.by import By
3
from selenium.webdriver.support.ui import WebDriverWait
4
from selenium.webdriver.support import expected_conditions as EC
5

6
options = webdriver.ChromeOptions()
7
# 现代无头模式写法
8
options.add_argument('--headless=new')
9
# 禁用沙盒，提升稳定性
10
options.add_argument('--no-sandbox')
11
# 屏蔽 webdriver 特征，防止反爬识别
12
options.add_experimental_option('excludeSwitches', ['enable-automation'])
13
options.add_experimental_option('useAutomationExtension', False)
14

15
browser = webdriver.Chrome(options=options)
16
# 执行 CD P命令，修改浏览器内部属性
17
browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {
18
  "source": """
19
    Object.defineProperty(navigator, 'webdriver', {
20
      get: () => undefined
21
    })
22
  """
23
})
24
wait = WebDriverWait(browser, 10)

3. 核心流程解析#

3.1 关键词搜索与元素等待#

在爬取过程中，网络波动是常态。我们使用 WebDriverWait 配合 Expected Conditions (EC) 来实现“显式等待”，只有当元素真正出现在页面上时才继续。

1
def search(keyword='美食'):
2
    try:
3
        browser.get("https://www.taobao.com")
4
        # 等待搜索框加载
5
        input_q = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#q')))
6
        # 等待搜索按钮点击
7
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'button.btn-search')))
8

9
        input_q.send_keys(keyword)
10
        submit.click()
11

12
        # 获取总页数
13
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.total')))
14
        get_products()
15
        return total.text
16
    except Exception as e:
17
        print(f"搜索失败: {e}")
18
        return search(keyword)

3.2 使用 PyQuery 高效解析数据#

虽然 Selenium 可以提取文本，但 PyQuery 在解析海量节点时速度更快，且语法类似 jQuery，更加灵活。

1
from pyquery import PyQuery as pq
2

3
def get_products():
4
    # 确保商品列表已加载
5
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
6
    html = browser.page_source
7
    doc = pq(html)
8
    items = doc('#mainsrp-itemlist .items .item').items()
9

10
    for item in items:
11
        product = {
12
            'title': item.find('.title').text().strip(),
13
            'price': item.find('.price').text(),
14
            'deal': item.find('.deal-cnt').text(),
15
            'location': item.find('.location').text(),
16
            'shop': item.find('.shop').text(),
17
            'image': item.find('.pic .img').attr('data-src') or item.find('.pic .img').attr('src')
18
        }
19
        # 建议此处接入 MongoDB 或 CSV 存储
20
        print(f"抓取到: {product['title']}")

4. 翻页逻辑与性能建议#

翻页时，我们不点击“下一页”按钮，而是直接修改页码框并点击“确定”，这样可以有效防止页码漂移。

1
def next_page(page_number):
2
    try:
3
        page_input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, 'input.input.J_Input')))
4
        submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, 'span.btn.J_Submit')))
5

6
        page_input.clear()
7
        page_input.send_keys(page_number)
8
        submit.click()
9

10
        # 验证是否成功翻到指定页码
11
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, 'li.item.active > span'), str(page_number)))
12
        get_products()
13
    except TimeoutException:
14
        next_page(page_number)

5. 进阶反爬策略与总结#

爬取淘宝数据的三个重要准则：

登录问题：淘宝目前大部分搜索结果都需要登录。建议在启动时加载一个现有的 Chrome User Profile 以保持登录状态，避免频繁弹出的登录框。
速度控制：无头模式虽快，但过快的翻页频率会导致 IP 被临时封禁。建议每隔 3-5 页添加一个随机的 time.sleep()。
解析后备：如果页面结构变动，优先检查选择器（CSS Selector）。

通过 Selenium + PyQuery 的组合，我们实现了对动态网页的完美兼容。如果你需要处理更复杂的登录验证，下一步可以尝试引入 Cookies 管理 或 代理 IP 池。