本项目以淘宝电商用户真实行为数据为数据源,运用python 进行数据预处理,运用MySQL并利用AARRR模型和RFM模型对其展开数据分析,利用Tableau制作可视化图像,最后给出利用Tableau制作的一张仪表盘。
数据集-阿里云天池
虽然现在不能下载,但是可以申请获得下载链接,我申请了一天就通过了。
本数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、收藏)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。关于数据集中每一列的详细描述如下:
其中行为类型有四种
在python中导入需要的库
读取数据,并重命名列为['user_id','item_id','category_id', 'behaviortype','timestamp'] ,由于原始数据集太大,因此本次分析只选取了500万条数据。
查看数据可知没有缺失值
根据数据集介绍,数据采集时间应该在2017年11月25日至2017年12月3日之间,检查是否存在超出时间范围的数据,作为异常值,并删除数据中存在的空值。
接下来利用mysql进行数据分析,利用tableau进行数据可视化
可以看到该数据子集包括48984个用户,1080286个商品,7352种商品数,用户的行为有点击浏览,收藏,加购和购买这四种行为。
(1)用户获取(Acquisition)
模型中的用户获取一般考察渠道曝光率、渠道转换率、日新增用户数DNU、获客成本CAC等指标。由于文本字数限制,本篇分析主要考察日新增用户数DNU。
由下图可见,仅在11月25日-30日这六天有较多新增用户,且新增用户数在26日开始出现急剧下跌,虽然在25日当日的新增用户中有很大一部分是此前的活跃用户,而非当日新增,但在12月1日起新增用户数下降为个位数。
(2)用户激活(Activation)
首先考察PV(页面浏览量或者点击量),UV(独立访客数),人均浏览次数(PV/UV)
这九天中独立访客数为48984,页面浏览量为4472600,人均浏览次数为91.3074。