項(xiàng)目介紹:
本數(shù)據(jù)來(lái)源于阿里巴巴天池平臺(tái)榆俺。該數(shù)據(jù)提供口碑商店信息,從2015年1月7日到2016年3月10日(2015.12.12除外)。本文對(duì)該數(shù)據(jù)進(jìn)行分析会烙,旨在了解受消費(fèi)者歡迎的商鋪以及商品種類(lèi)。
數(shù)據(jù)鏈接:https://pan.baidu.com/s/1J8Q0eCD73wCL3WnLXncXag
提取碼:9w0z
本文分析的主要框架
1.整體數(shù)據(jù)觀察
2.城市角度分析(探究城市分布筒捺、消費(fèi)力度柏腻、主要商品類(lèi)目)
3.商品角度分析(銷(xiāo)售金額Top商品,探究最優(yōu)價(jià)值商品)
4.shop角度分析(探究平均付款金額與評(píng)分系吭、級(jí)別以及評(píng)論數(shù)量之間的關(guān)系)
5.結(jié)論
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['font.sans-serif']=['SimHei'] #用來(lái)正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus']=False #用來(lái)正常顯示負(fù)號(hào)
1.數(shù)據(jù)觀察
columns = ['shop_id','city_name','location_id','per_pay','score','comment_cnt','shop_level','cate_1_name','cate_2_name','cate_3_name']
df= pd.read_table(r'F:\data\shop_data\shop_info.txt',names=columns, sep=',')
df.head(5)
df.info()
原始數(shù)據(jù)中共有10個(gè)字段五嫂,每個(gè)字段共2000行,字段解釋如下:
shop_id:商店ID
city_name:城市
location_id:位置ID(鄰居商店具有相同的位置ID)
per_pay:平均付款金額(數(shù)字越大表示平均付款金額越高)
score:用戶給出的商店得分(數(shù)字越大表示得分越高)
comment_cnt:用戶評(píng)論數(shù)量
shop_level:由口碑給出的商店等級(jí)(數(shù)字越大表示更高等級(jí))
cate_1_name:一級(jí)類(lèi)別名稱(中文)
cate_2_name:二級(jí)類(lèi)別名稱(中文)
cate_3_name:三級(jí)類(lèi)別名稱(中文)
(df.shape[0]-df.count(axis=0))/df.shape[0]
由上看出score肯尺、comment_cnt沃缘、cate_3_name 的數(shù)據(jù)是有欠缺的
score 、comment_cnt將近欠缺了14.6% 的數(shù)據(jù)
cate_3_name 將近欠缺了29%的數(shù)據(jù)
2.城市角度分析
city_grouped= df.groupby('city_name')
city_grouped['shop_id'].count().sort_values(ascending=False).head(10).plot.pie()
由上圖可以看出则吟,口碑上的商店主要是分布在上海孩灯、杭州、北京逾滥、廣州峰档、南京败匹、武漢、深圳等城市讥巡。
df[df.city_name=='上海'].cate_1_name.value_counts().plot.bar()
我們?cè)賹iT(mén)對(duì)商店數(shù)量最多的上海單獨(dú)分析掀亩,發(fā)現(xiàn)這些商店多以美食為主。
city_grouped['per_pay'].mean().sort_values(ascending=False).head(10).plot.pie()
由此圖發(fā)現(xiàn)欢顷,平均付款金額較大的并非一線城市槽棍,而是德陽(yáng)、張家口等三四線城市抬驴。
3.商品角度分析
cate1_grouped= df.groupby('cate_1_name')
cate1_grouped['comment_cnt'].sum().sort_values(ascending=False).head(1)
在一類(lèi)商品中炼七,獲評(píng)論數(shù)量最多的是美食類(lèi),可見(jiàn)美食類(lèi)在口碑上最受關(guān)注布持。
a=df[df.cate_1_name=='美食']
a.head()
a.groupby('cate_2_name')['comment_cnt'].sum().sort_values(ascending=False).head()
美食類(lèi)里面又以快餐類(lèi)目熱銷(xiāo)四瘫,這也正與口碑為外賣(mài)平臺(tái)相符芹枷。
4.shop角度分析
score_grouped=df.groupby('score')
score_grouped['per_pay'].mean()
平均付款金額最高的shop評(píng)分主要是1分,其次是評(píng)分為2/3,或許我們可以猜測(cè)這些商鋪評(píng)分低的其中一個(gè)原因是價(jià)格偏高撰筷。
shop_level_grouped=df.groupby('shop_level')
shop_level_grouped['per_pay'].mean()
由此看出资溃,口碑上level高的shop平均付款金額要更高一點(diǎn)即舌。
comment_cnt_grouped=df.groupby('comment_cnt')
comment_cnt_grouped['per_pay'].mean()
comment_cnt_grouped['per_pay'].mean().plot.bar()
該直方圖顯示評(píng)論數(shù)量與平均消費(fèi)金額沒(méi)有太大關(guān)系啦粹。
5.結(jié)論以及建議
1.從城市角度看:
- 結(jié)論匯總:口碑上的商店主要是分布在上海、杭州枝誊、北京况芒、廣州等一線城市,且多以美食類(lèi)為主
2.從商品角度看:
- 結(jié)論匯總:在口碑上叶撒,美食類(lèi)快餐最受用戶關(guān)注
3.從shop角度看:
- 結(jié)論匯總:價(jià)格偏高可能會(huì)引起用戶不滿牛柒,從而導(dǎo)致評(píng)分很低;由口碑給出的商店等級(jí)越高痊乾,其平均消費(fèi)金額也會(huì)相對(duì)較高一點(diǎn)