https://www.bilibili.com/video/BV1qC4y1Y7ye?p=74&spm_id_from=pageDriver&vd_source=2030c834d24fc054a345b6d54b05edbe)
使用搜狗实验室提供【用户查询日志(SogouQ)】数据,使用Hive,将数据封装到RDD中
进行业务数据处理分析。数据网址:http://www.sogou.com/labs/resource/q.php
- 查询前10条数据
- 查询前10个访问量最高的用户ID及访问数量,并按照访问量降序排列
- 分析链接排名与用户点击的相关性
- 分析一天中上网用户最多的时间段
- 查询同一个域名用户的点击数量最高的前10个
(2)将数据文件 SogouQ.reduced 的编码改为“utf-8”,然后保存。
(3)将文件 SogouQ.reduced上传到 Hive 所在服务器,例如上传到目录home/hadoop.进入数据文件所在目录,执行以下命令,将文件中的制表符和空格全部替换为英文逗号
上述命令解析:
(4)查看文件的前10条数据
select page_rank,count(*) as num from activelog
group by page_rank order by num desc
排名 点击次数
1 5645
2 4578
3 3242
由此可见,排名靠前的,点击次数越多
只需要时间段和访问量