超市用户的k-means聚类处理

发布时间：2020-07-29 17:16:03 作者：nineteens
来源：网络阅读：400

　　导入超市用户的数据

　　import pandas as pd

　　from sklearn.preprocessing import StandardScaler #标准差标准化

　　com = pd.read_csv('./company.csv',encoding='ansi')

　　导入剔除异常值的函数

　　def box_analysis(data):

　　'''

　　进行箱线图分析，剔除异常值

　　:param data:

　　:return:

　　'''

　　qu = data.quantile(0.75)

　　ql = data.quantile(0.25)

　　iqr = qu - ql

　　#上限与下限 1.5可以微调

　　up = qu+1.5*iqr

　　low = ql-1.5*iqr

　　#进行比较运算

　　bool_id_1 = data<=up

　　bool_id_2 = data>=low

　　bool_num = bool_id_1 & bool_id_2

　　return bool_num

　　进行缺失值检测

　　print(com.isnull().sum())

　　检测结果无缺失值

　　筛选有用特征,切片处理

　　data = com.iloc[:,-2:]

　　箱线图分析来进行异常值检测

　　按照平均每次消费金额进行异常值去除

　　bood_id_1 = box_analysis(data.iloc[:,0])

　　data = data.loc[bood_id_1,:]

　　按照平均消费周期进行异常值去除

　　bood_id_2 = box_analysis(data.iloc[:,1])

　　data = data.loc[bood_id_2,:]

　　构建需要特征

　　data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

　　标准化数据,量级不大，暂时不处理量级

　　stand = StandardScaler() #创建标准差示例

　　#先计算每一列的均值、标准差再进行转化数据

　　x = stand.fit_transform(data) #进行标准化

　　把上面数据处理部分封装进函数

　　def built_data():

　　#缺失值检测

　　# print(com.isnull().sum())

　　#筛选有用特征,切片处理

　　data = com.iloc[:,-2:]

　　# print(data)

　　#异常值检测，箱线图分析

　　#按照平均每次消费金额进行异常值去除

　　bood_id_1 = box_analysis(data.iloc[:,0])

　　data = data.loc[bood_id_1,:]

　　#按照平均消费周期进行异常值去除

　　bood_id_2 = box_analysis(data.iloc[:,1])

　　data = data.loc[bood_id_2,:]

　　#构建需要特征

　　data.loc[:,'每日消费金额'] = data.loc[:,'平均每次消费金额']/data.loc[:,'平均消费周期(天)']

　　# print(data)

　　#标准化数据,量级不大，暂时不处理量级

　　#标准化数据

　　stand = StandardScaler() #创建标准差示例

　　#先计算每一列的均值、标准差再进行转化数据

　　x = stand.fit_transform(data) #进行标准化

　　return data.values

　　绘图部分函数如下

　　def show_res_km(data,y_predict,center):

　　'''无锡妇科检查医院 http://www.87554006.com/

　　进行结果展示

　　:param data:原始数据

　　:param y_predict:预测标签

　　:param center:最终的聚类中心

　　:return:

　　'''

　　plt.figure()

　　#获取原始数据的行数

　　index_num = data.shape[0]

　　colors = ['r','g','b','y']

　　for i in range(index_num):

　　plt.scatter(data[i,0],data[i,1],c=colors[int(y_predict[i])])

　　#散点图的绘制，一个一个绘制

　　#聚类中心的位置

　　#b的话是描点划线，bx的话是画点但是不描线

　　plt.plot(center[:,0],center[:,1],'bx',marker='x',markersize=12)

　　plt.show()

　　调用函数来进行聚类

　　data = built_data()

　　#导包实现

　　k=3

　　km = KMeans(n_clusters=k)

　　#训练数据

　　km.fit(data)

　　#进行预测 ,y_predict预测标签

　　y_predict = km.predict(data)

　　#获取聚类中心

　　center = km.cluster_centers_

　　print('预测值:\n',y_predict)

　　print('聚类中心:\n',center)

　　show_res_km(data.values,y_predict,center)

　　得出结果

超市用户的k-means聚类处理

相关阅读