怎么用Python分析购物数据

发布时间：2021-11-23 09:40:22 作者：iii
来源：亿速云阅读：188

# 怎么用Python分析购物数据

## 引言

在电子商务蓬勃发展的今天，购物数据已成为企业最宝贵的资产之一。通过对购物数据的深入分析，商家可以了解消费者行为、优化产品推荐、改进营销策略并最终提升销售额。Python作为当前最流行的数据分析语言之一，凭借其丰富的库生态系统和简洁的语法，成为处理和分析购物数据的理想工具。

本文将全面介绍如何使用Python进行购物数据分析，涵盖从数据收集、清洗到高级分析和可视化的完整流程。我们将通过实际案例演示关键分析技术，帮助读者掌握实用的数据分析技能。

## 一、购物数据类型与收集方法

### 1.1 常见购物数据类型

购物数据通常包含以下几种类型：

1. **交易数据**：
   - 订单ID、交易时间、交易金额
   - 商品ID、商品类别、商品数量
   - 支付方式、配送信息

2. **用户数据**：
   - 用户ID、 demographics(年龄、性别、地理位置)
   - 注册时间、会员等级
   - 浏览历史、搜索记录

3. **行为数据**：
   - 点击流数据
   - 购物车操作(添加/删除)
   - 页面停留时间

### 1.2 数据收集方法

```python
# 示例：使用Python从数据库提取购物数据
import pandas as pd
import sqlite3

# 连接SQLite数据库
conn = sqlite3.connect('ecommerce.db')

# 读取订单数据
query = "SELECT * FROM orders WHERE order_date >= '2023-01-01'"
orders_df = pd.read_sql(query, conn)

# 读取用户数据
users_df = pd.read_sql("SELECT * FROM users", conn)

# 关闭连接
conn.close()

其他数据收集方式还包括： - 通过API获取电商平台数据 - 使用网络爬虫采集公开数据 - 从CSV/Excel文件导入 - 从数据仓库(如Hadoop)提取

二、数据清洗与预处理

2.1 常见数据质量问题

购物数据常见的问题包括： - 缺失值(如用户年龄未填写) - 异常值(如订单金额为负数) - 不一致数据(如商品分类不统一) - 重复记录

2.2 数据清洗实战

# 数据清洗示例
def clean_data(df):
    # 处理缺失值
    df['age'].fillna(df['age'].median(), inplace=True)
    
    # 删除重复订单
    df.drop_duplicates(subset='order_id', keep='first', inplace=True)
    
    # 处理异常值
    df = df[(df['amount'] > 0) & (df['amount'] < 10000)]
    
    # 标准化分类
    df['category'] = df['category'].str.lower().str.strip()
    
    return df

cleaned_orders = clean_data(orders_df)

2.3 特征工程

创建有助于分析的新特征：

# 创建新特征
cleaned_orders['order_date'] = pd.to_datetime(cleaned_orders['order_date'])
cleaned_orders['order_month'] = cleaned_orders['order_date'].dt.to_period('M')
cleaned_orders['weekday'] = cleaned_orders['order_date'].dt.weekday

三、基础分析技术

3.1 描述性统计分析

# 基本统计量
print(cleaned_orders['amount'].describe())

# 按类别统计
category_stats = cleaned_orders.groupby('category')['amount'].agg(['sum', 'mean', 'count'])

3.2 用户行为分析

# 计算用户购买频率
user_freq = cleaned_orders.groupby('user_id')['order_id'].count().reset_index()
user_freq.columns = ['user_id', 'purchase_count']

# 合并用户数据
user_analysis = pd.merge(user_freq, users_df, on='user_id')

# 分析不同年龄段购买行为
age_group_analysis = user_analysis.groupby(pd.cut(user_analysis['age'], bins=[0,18,25,35,50,100]))['purchase_count'].mean()

3.3 RFM模型分析

RFM(Recency, Frequency, Monetary)是经典的客户价值分析模型：

# 计算RFM指标
now = pd.to_datetime('today')

rfm = cleaned_orders.groupby('user_id').agg({
    'order_date': lambda x: (now - x.max()).days,  # Recency
    'order_id': 'count',  # Frequency
    'amount': 'sum'  # Monetary
})

rfm.columns = ['recency', 'frequency', 'monetary']

# RFM评分
rfm['r_score'] = pd.qcut(rfm['recency'], q=5, labels=[5,4,3,2,1])
rfm['f_score'] = pd.qcut(rfm['frequency'], q=5, labels=[1,2,3,4,5])
rfm['m_score'] = pd.qcut(rfm['monetary'], q=5, labels=[1,2,3,4,5])

rfm['rfm_score'] = rfm['r_score'].astype(str) + rfm['f_score'].astype(str) + rfm['m_score'].astype(str)

四、高级分析技术

4.1 关联规则挖掘

使用Apriori算法发现商品之间的关联关系：

from mlxtend.frequent_patterns import apriori
from mlxtend.frequent_patterns import association_rules

# 创建交易矩阵
basket = cleaned_orders.groupby(['order_id', 'product_name'])['quantity'].sum().unstack().fillna(0)
basket_sets = basket.applymap(lambda x: 1 if x > 0 else 0)

# 挖掘频繁项集
frequent_itemsets = apriori(basket_sets, min_support=0.02, use_colnames=True)

# 生成关联规则
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1)
rules.sort_values('confidence', ascending=False, inplace=True)

4.2 客户细分(聚类分析)

from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# 准备数据
X = rfm[['recency', 'frequency', 'monetary']]
X = StandardScaler().fit_transform(X)

# 确定最佳聚类数
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, random_state=42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

# 根据肘部法则选择K=4
kmeans = KMeans(n_clusters=4, random_state=42)
rfm['cluster'] = kmeans.fit_predict(X)

# 分析各聚类特征
cluster_profile = rfm.groupby('cluster')[['recency', 'frequency', 'monetary']].mean()

4.3 销售预测

使用时间序列预测未来销售：

from statsmodels.tsa.arima.model import ARIMA
from sklearn.metrics import mean_squared_error

# 准备时间序列数据
monthly_sales = cleaned_orders.groupby('order_month')['amount'].sum()

# 拟合ARIMA模型
model = ARIMA(monthly_sales, order=(1,1,1))
model_fit = model.fit()

# 预测未来6个月
forecast = model_fit.forecast(steps=6)

五、数据可视化

5.1 使用Matplotlib和Seaborn

import matplotlib.pyplot as plt
import seaborn as sns

# 销售额趋势图
plt.figure(figsize=(12,6))
sns.lineplot(x='order_month', y='amount', data=monthly_sales.reset_index())
plt.title('Monthly Sales Trend')
plt.xticks(rotation=45)
plt.show()

# RFM聚类雷达图
from math import pi
categories = ['Recency','Frequency','Monetary']
N = len(categories)

angles = [n / float(N) * 2 * pi for n in range(N)]
angles += angles[:1]

plt.figure(figsize=(8,8))
ax = plt.subplot(111, polar=True)
ax.set_theta_offset(pi/2)
ax.set_theta_direction(-1)

for cluster in range(4):
    values = cluster_profile.loc[cluster].values.flatten().tolist()
    values += values[:1]
    ax.plot(angles, values, linewidth=1, linestyle='solid', label=f'Cluster {cluster}')
    ax.fill(angles, values, alpha=0.1)

plt.xticks(angles[:-1], categories)
plt.yticks(color="grey", size=7)
plt.legend(loc='upper right')
plt.show()

5.2 交互式可视化

使用Plotly创建交互式图表：

import plotly.express as px

# 交互式散点图
fig = px.scatter(rfm, x='frequency', y='monetary', color='cluster',
                 hover_data=['recency'], title='Customer Segments')
fig.show()

# 地理分布图
if 'city' in users_df.columns:
    city_sales = pd.merge(cleaned_orders, users_df, on='user_id').groupby('city')['amount'].sum().reset_index()
    fig = px.choropleth(city_sales, locations='city', locationmode='USA-states',
                        color='amount', scope='usa', title='Sales by City')
    fig.show()

六、完整案例分析

6.1 案例背景

某电商平台提供2019-2022年的购物数据，包含约50万条交易记录，10万用户信息。希望通过分析： 1. 识别高价值客户 2. 发现商品关联模式 3. 预测节假日销售高峰

6.2 分析流程

数据整合：合并订单、用户、商品数据
RFM分析：识别VIP客户
关联规则：优化商品摆放和捆绑销售
时间序列：预测Q4销售并准备库存

6.3 关键发现

5%的客户贡献了40%的营收
啤酒和尿布存在强关联(提升度2.5)
黑色星期五销售额是平日10倍

七、优化与部署

7.1 性能优化技巧

# 使用更高效的数据类型
cleaned_orders['user_id'] = cleaned_orders['user_id'].astype('category')

# 并行处理
from multiprocessing import Pool

def process_chunk(chunk):
    return chunk.groupby('user_id')['amount'].sum()

with Pool(4) as p:
    results = p.map(process_chunk, np.array_split(cleaned_orders, 4))

7.2 自动化分析流程

# 创建分析流水线
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

preprocessor = ColumnTransformer([
    ('num', StandardScaler(), ['recency', 'frequency', 'monetary'])
])

pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('cluster', KMeans(n_clusters=4))
])

rfm['cluster'] = pipeline.fit_predict(rfm)

7.3 部署为Web应用

使用Streamlit快速构建分析仪表盘：

# app.py
import streamlit as st

st.title('E-commerce Analytics Dashboard')

# 上传数据
uploaded_file = st.file_uploader("Upload your sales data")
if uploaded_file:
    df = pd.read_csv(uploaded_file)
    st.write(df.describe())
    
    # 交互式过滤器
    category = st.selectbox('Select category', df['category'].unique())
    filtered = df[df['category'] == category]
    
    # 显示图表
    fig = px.line(filtered.groupby('order_date')['amount'].sum())
    st.plotly_chart(fig)

八、未来方向

实时分析：使用Kafka和Spark Streaming处理实时数据
个性化推荐：基于协同过滤和深度学习的推荐系统
异常检测：识别欺诈交易和系统异常
情感分析：挖掘用户评论中的情感倾向

结语

Python为购物数据分析提供了强大而灵活的工具集。通过本文介绍的技术栈，数据分析师可以从原始交易数据中提取有价值的商业洞察，指导营销决策并优化用户体验。随着数据量的增长和算法的进步，购物数据分析将继续向更实时、更智能的方向发展。

掌握这些技能不仅能够提升企业的数据驱动决策能力，也为数据分析师个人职业发展开辟了广阔空间。建议读者在实际项目中应用这些技术，并根据具体业务场景进行调整和创新。

附录：常用Python库参考

库名称	用途	文档链接
Pandas	数据处理	https://pandas.pydata.org/
NumPy	数值计算	https://numpy.org/
Matplotlib	基础可视化	https://matplotlib.org/
Seaborn	统计可视化	https://seaborn.pydata.org/
Plotly	交互可视化	https://plotly.com/python/
Scikit-learn	机器学习	https://scikit-learn.org/
Statsmodels	统计分析	https://www.statsmodels.org/
mlxtend	关联规则	http://rasbt.github.io/mlxtend/

”`

这篇文章提供了完整的购物数据分析流程，从数据收集到高级分析技术，涵盖了约5200字的内容。文章采用Markdown格式，包含代码示例、表格和结构化标题，可以直接用于发布或进一步编辑。