Python怎么爬取当当网APP数据

发布时间：2021-10-26 09:57:45 作者：柒染
来源：亿速云阅读：263

# Python怎么爬取当当网APP数据

## 前言

在移动互联网时代，APP数据爬取已成为获取商业情报的重要手段。本文将以当当网APP为例，详细介绍使用Python进行移动端数据爬取的全流程，包括环境准备、抓包分析、协议破解、数据存储等关键技术环节。

## 一、移动端爬虫技术概述

### 1.1 APP爬虫与Web爬虫的区别

| 特性        | Web爬虫          | APP爬虫           |
|------------|-----------------|------------------|
| 数据接口    | HTTP/HTTPS      | 可能使用自定义协议    |
| 认证机制    | Cookie/Session  | Token/签名验证     |
| 数据格式    | HTML/JSON       | 可能使用Protobuf   |
| 反爬手段    | 验证码/IP限制    | 设备指纹/证书锁定    |

### 1.2 常见技术方案

1. **抓包分析**：使用Charles/Fiddler/Wireshark
2. **逆向工程**：APK反编译（Jadx/GDA）
3. **自动化控制**：Appium/Airtest
4. **Hook技术**：Frida/Xposed

## 二、环境准备

### 2.1 开发环境配置

```python
# 推荐使用Python 3.8+环境
conda create -n dangdang python=3.8
conda activate dangdang

# 安装核心库
pip install requests httpx mitmproxy frida objection

2.2 抓包工具配置

Charles配置步骤：

安装Charles证书到手机
设置手机WiFi代理（电脑IP:8888）
配置SSL代理白名单：*.dangdang.com

# 验证抓包是否成功
curl --proxy http://localhost:8888 https://api.dangdang.com

三、当当网APP接口分析

3.1 关键接口识别

通过抓包发现主要接口： - 商品搜索：api.mobile.dangdang.com/search - 商品详情：api.mobile.dangdang.com/product - 价格库存：api.mobile.dangdang.com/stock

3.2 请求参数分析

典型请求头示例：

GET /search?keyword=Python&page=1 HTTP/1.1
Host: api.mobile.dangdang.com
User-Agent: Mozilla/5.0 (Linux; Android 10)
X-Client-Version: 8.5.2
X-Device-ID: 8a71b3d4-e2f5-4a1b
Authorization: Bearer xxxxxxx

3.3 签名机制破解

使用Frida进行动态Hook：

Java.perform(function(){
    let CryptoUtils = Java.use('com.dangdang.common.CryptoUtils');
    CryptoUtils.sign.implementation = function(params){
        console.log("Params: " + params);
        let result = this.sign(params);
        console.log("Signature: " + result);
        return result;
    }
});

四、Python爬虫实现

4.1 基础请求模块

import hashlib
import time

class DangDangAPI:
    def __init__(self):
        self.base_url = "https://api.mobile.dangdang.com"
        self.headers = {
            "User-Agent": "DangDang/8.5.2 (Android 10)",
            "X-Device-ID": self.generate_device_id()
        }
    
    def generate_signature(self, params):
        """模拟签名算法"""
        secret = "dangdang_app_secret"
        param_str = "&".join(f"{k}={v}" for k,v in sorted(params.items()))
        return hashlib.md5((param_str + secret).encode()).hexdigest()

    def search_books(self, keyword, page=1):
        url = f"{self.base_url}/search"
        params = {
            "keyword": keyword,
            "page": page,
            "timestamp": int(time.time())
        }
        params["sign"] = self.generate_signature(params)
        
        response = requests.get(url, params=params, headers=self.headers)
        return response.json()

4.2 处理反爬机制

def bypass_anti_crawler():
    # 方案1：使用真实设备信息
    from fake_useragent import UserAgent
    ua = UserAgent()
    
    # 方案2：使用代理IP池
    proxies = {
        'http': 'http://proxy.example.com:8080',
        'https': 'http://proxy.example.com:8080'
    }
    
    # 方案3：模拟正常用户行为
    import random
    time.sleep(random.uniform(1, 3))

4.3 数据解析示例

def parse_product(data):
    return {
        "product_id": data["id"],
        "title": data["name"],
        "price": float(data["price"]["sellPrice"]),
        "author": data["author"]["name"],
        "publisher": data["publisher"]["name"],
        "rating": float(data["rating"]["score"]),
        "comments": int(data["rating"]["count"])
    }

五、数据存储方案

5.1 MongoDB存储

from pymongo import MongoClient

class DataStorage:
    def __init__(self):
        self.client = MongoClient('mongodb://localhost:27017/')
        self.db = self.client['dangdang']
        
    def save_product(self, product):
        collection = self.db['products']
        collection.update_one(
            {"product_id": product["product_id"]},
            {"$set": product},
            upsert=True
        )

5.2 数据增量更新策略

def get_update_fields(existing, new):
    fields = {}
    for k in new:
        if existing.get(k) != new[k]:
            fields[k] = new[k]
    return fields

六、高级技巧

6.1 使用mitmproxy拦截数据

from mitmproxy import http

class Addon:
    def request(self, flow: http.HTTPFlow):
        if "api.mobile.dangdang.com" in flow.request.host:
            print(f"拦截请求: {flow.request.url}")

addons = [Addon()]

6.2 自动化测试工具集成

from appium import webdriver

def init_driver():
    caps = {
        "platformName": "Android",
        "deviceName": "emulator-5554",
        "appPackage": "com.dangdang.buy2",
        "appActivity": ".StartupActivity"
    }
    return webdriver.Remote("http://localhost:4723/wd/hub", caps)

七、法律与伦理考量

遵守Robots协议：检查https://www.dangdang.com/robots.txt
控制请求频率：建议间隔≥3秒
数据使用限制：仅用于学术研究，禁止商业用途
用户隐私保护：不得爬取用户个人信息

八、常见问题解决

8.1 封禁应对方案

更换设备指纹（X-Device-ID）
使用4G网络切换IP
降低采集频率

8.2 数据乱码处理

response.encoding = 'gb18030'  # 当当网部分接口使用GBK编码

结语

本文详细介绍了爬取当当网APP数据的完整技术方案。在实际应用中，请注意： 1. 技术方案可能随APP更新失效 2. 建议结合多种技术手段 3. 优先考虑官方API合作方式

注意：本文仅供技术研究参考，请勿用于非法用途。当当网保留所有数据权利。 “`

（注：实际5000字内容需要扩展每个章节的细节说明、增加更多代码示例和截图说明。本文已提供完整框架和核心代码，可根据需要进一步扩展。）