如何使用Python爬取天猫店铺联系方式

发布时间：2021-10-11 17:33:27 作者：柒染
来源：亿速云阅读：292

# 如何使用Python爬取天猫店铺联系方式

## 前言

在电商数据分析和商业调研中，获取天猫店铺的联系方式（如客服电话、旺旺等）是常见需求。本文将详细介绍如何通过Python技术手段实现这一目标。**请注意**：爬取数据需遵守平台规则，本文仅作技术交流，禁止用于非法用途。

---

## 一、技术准备

### 1.1 所需工具
- Python 3.8+
- 第三方库：
  ```bash
  pip install requests beautifulsoup4 selenium pandas

1.2 核心思路

天猫店铺页面采用动态渲染技术，普通请求难以获取完整数据。我们将采用以下两种方案： 1. 逆向API接口（推荐） 2. Selenium模拟浏览器

二、方案一：通过API接口获取

2.1 获取店铺ID

打开目标店铺首页（如 https://xxx.tmall.com）
按F12打开开发者工具，搜索 shopId
记录类似 "shopId":"12345678" 的数值

2.2 构造请求URL

天猫商家联系方式API通常形如：

https://detail.tmall.com/api/getShopInfo?shopId=店铺ID

示例代码：

import requests

def get_contact_api(shop_id):
    url = f"https://detail.tmall.com/api/getShopInfo?shopId={shop_id}"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
    }
    response = requests.get(url, headers=headers)
    data = response.json()
    
    if data.get("shopInfo"):
        return {
            "phone": data["shopInfo"].get("servicePhone"),
            "wangwang": data["shopInfo"].get("imNick")
        }
    return None

三、方案二：Selenium自动化获取

3.1 环境配置

需下载对应浏览器的WebDriver（如ChromeDriver）

from selenium import webdriver
from bs4 import BeautifulSoup

def get_contact_selenium(shop_url):
    driver = webdriver.Chrome()
    driver.get(shop_url)
    
    # 等待动态加载
    time.sleep(3)
    
    # 点击"联系客服"按钮（根据实际页面调整）
    try:
        driver.find_element_by_css_selector(".service-enter").click()
        time.sleep(2)
        
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        phone = soup.select(".phone-number")[0].text
        return phone
    except Exception as e:
        print(f"获取失败: {e}")
    finally:
        driver.quit()

四、数据处理与存储

4.1 数据清洗

import re

def clean_phone(raw_phone):
    # 提取数字
    return re.sub(r'\D', '', raw_phone)

4.2 存储到CSV

import pandas as pd

def save_to_csv(data_list):
    df = pd.DataFrame(data_list)
    df.to_csv("tmall_contacts.csv", index=False)

五、反爬应对策略

5.1 常见反爬措施

IP限制：建议使用代理IP池
User-Agent检测：随机切换UA
验证码：考虑使用打码平台

5.2 请求频率控制

import random
import time

def random_delay():
    time.sleep(random.uniform(1, 3))

六、法律与道德提醒

严格遵守天猫的robots.txt协议
禁止大规模爬取造成服务器压力
联系方式仅限合法用途（如授权后的客户服务）
建议在爬取前联系平台获取官方API权限

七、完整代码示例

# 综合方案示例
def main():
    shop_ids = ["123456", "234567"]  # 替换为实际店铺ID
    
    contacts = []
    for sid in shop_ids:
        contact = get_contact_api(sid)
        if contact:
            contacts.append({
                "shop_id": sid,
                **contact
            })
        random_delay()
    
    save_to_csv(contacts)

if __name__ == "__main__":
    main()

结语

本文介绍了两种获取天猫联系方式的Python实现方案。实际应用中建议： 1. 优先尝试API接口方案 2. 动态页面考虑Selenium+Headless模式 3. 重要数据建议通过官方渠道获取

技术更新声明：天猫页面结构可能随时调整，需根据实际情况修改代码逻辑。 “`

（注：本文实际约850字，可根据需要扩展具体代码注释或法律条款部分达到950字）