分享好友 最新动态首页 最新动态分类 切换频道
数据分析常见概念
2024-12-28 03:41

数据分析常见概念

BI:Business Intelegence,商业智能,基于数据仓库,经过数据挖掘后,得到了商业价值的过程。例如利用数据预测用户购物行为属性商业智能

DW:Data Warehouse,数据仓库,数据库的升级概念,一般量更庞大,将多个数据来源的数据进行汇总、整理而来

DM:Data Mining,数据挖掘
数据挖掘流程:Knowledge Discovery in Database,也叫数据库中的知识发现,简称KDD
KDD流程:输入数据->数据预处理->数据挖掘->后处理->信息

  1. 数据清洗
    去除重复数据、干扰数据及填充缺失值
  2. 数据集成
    将多个数据源中的数据存放在一个统一的数据存储中
  3. 数据变换
    将数据转换成适合数据挖掘的形式,比如将数值东篱一个特定的0~1的区间

数据挖掘的核心

  1. 分类
    通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
    分类是已知了类别,然后看样本属于哪个分类
  2. 聚类
    将数据自动聚类成几个类别,
    聚类是不知道有哪些类别,按照 样本的属性来进行聚类
  3. 预测
    通过当前和历史数据预测未来趋势,可以更好地帮助我们识别机遇和风险
  4. 关联分析
    发现数据中的关联规则,被广泛应用于购物、事务数据分析中

数据挖掘的基本流程

  1. 商业理解。从商业的角度理解项目需求
  2. 数据理解 。尝试收集部分数据,对数据进行探索
  3. 数据准备。开始收集数据,并进行清洗、集成等操作
  4. 模型建立。选择和应用数据挖掘模型,并进行优化,以便得到更好的分类结果
  5. 模型评估。对模型进行评价,确认模型是否实现了预定的商业目标
  6. 上线发布。把挖掘的知识转换成用户的使用形式
  • 概率论与数据统计
  • 线性代数
  • 图论
  • 最优化方法
  • 分类
    • C4.5。十大算法之首,决策树算法,特点包括:1.构造过程中剪枝 2.处理连续属性;3.处理不完整的数据
    • 朴素贝叶斯。基于概率论原理,计算未知物体出现的条件下,各个类别出现的概率,取概率最大的分类
    • SVM。 超平面的分类模型
    • KNN。每个样本的分类都可以用其最接近的K个邻居的分类代表
    • Adaboost。构建分类器的提升算法,可以让多个弱的分类器组成一个强的分类器
    • CART。决策树算法,分类树 + 回归树
  • 聚类
    • K-Means。将物体分成K类,计算新点跟K个中心点的距离,哪个距离近,则新点归为哪一类
    • EM。最大期望算法,求参数的最大似然估计的一种方法
  • 关联分析
    • Apriori。挖掘关联规则的算法,通过挖掘频繁项集揭示物品之间的关联关系
  • 连接分析
    • PageRank。起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强,Google将其用于计算网页权重

数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息,让我们直观了解数据分析的结果

数据可视化工具:

  • python库
    • Matplotlib
    • Seaborn
    • Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
  • 商业智能软件
    • Tableau
    • PowerBI
  • 可视化大屏
    大屏作为一种视觉效果强、科技感强的技术,被企业老板所青睐,可以很好地展示公司的数据化能力
    • DataV(阿里)
    • FineReport
  • 前端可视化组件
    可视化组件都是基于 Web 渲染的技术的,Web 渲染技术:Canvas(位图)、SVG (失量图)和 WebGL(3D绘图)
    • Echarts
    • D3
    • Three.js
    • AntV

简单的说,用户画像就是标签的汇总
用户画像是现实世界中的用户的数学建模,将海量数据进行标签化,来复以更精准的用户画像
用户标签能产生的业务价值

  1. 在获客上,找到优势的宣传渠道,通过个性化的宣传手段吸引有潜在需求的用户
  2. 在粘客上,提升用户的单价和消费频次
  3. 在留客上,降低流失率,顾客流失率降低 5%,公司利润提升 25% ~ 85%

用户标签4个纬度

  1. 基础信息
    性别、年龄、地域、收入、学历、职业等
  2. 消费信息
    消费习惯、购买意向、是否对促销敏感
  3. 行为分析
    时间段、频次、时长、访问路径
  4. 内容分析
    浏览的内容、停留时长、浏览次数,内容类型,如金融、娱乐、教育、体育、时尚、科技等

数据处理的3个阶段

  1. 业务层
    获客预测、个性化推荐、用户流失率、GMV趋势预测
  2. 算法层
    用户兴趣、用户活跃度、产品购买偏好、用户关联关系、用户满意度、渠道使用偏好、支付使用偏好、优惠券偏好
  3. 数据层
    用户属性、投诉次数、产品购买次数、渠道使用频率、优惠券使用、访问时长、支付渠道使用、浏览内容频次

在需要的位置采集相应的信息,进行上报。比如用户信息、设备信息、操作行为数据
埋点一般是在需要统计数据的地方植入统计代码。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋点的方式

  • 开源数据源
  • 爬虫抓取
  • 日志采集
  • 传感器

数据清洗是去除重复数据、干扰数据及填充缺失值
数据清洗的4个关键点(完全合一)

  1. 完整性:单条数据是否存在空值,统计的字段是否完善
  2. 全面性:观察某一列的全部数值,判断列是否有问题,比如:数据定义、单位标识、数值本身。例如有的单位是克,有的是千克或磅
  3. 合法性:数据的类型、内容、大小的合法性。例如存在非ASCII字符,性别未知,年龄超过150岁等。
  4. 唯一性:数据是否存在重复记录。因为数据通常来自不同渠道的汇总,重复的情况是常见的,行和列数据都需要是唯一的

数据集成是将多个数据源合并存放在一个数据存储中(如数据仓库)
大数据项目中80%的工作都和数据集成有关。

Extract / 提取 :从datasource/txt/csv/Excel/等原始数据源中 Extract数据。
Transform / 转换 :将数据预处理,字段补全、类型检查、去除重复数据等,根据预定的条件将数据统一起来。
Load / 装载 :将转换完的数据存到数据仓库中。

数据集成的两种架构

  1. ELT
    过程为数据提取(Extract)——转换(Transform)——加载(Load),在数据源抽取后首先进行转换,然后将转换的结果写入目的地。

  2. ETL
    过程为数据提取(Extract)——加载(Load)——转换(Transform),在数据抽取后将结果先写入目的地,然后利用数据库的聚合分析能力或者外部框架,如Spark来完成转换的步骤。

商业软件:

  • Informatica PowerCenter
  • IBM InfoSphere DataStage
  • Oracle Data Integrator
  • Microsoft SQL Server Integration Services

开源软件:

  • Kettle
  • Talend
  • Apatar
  • Scriptella
  • DataX
  • Sqoop

ETL和ELT的区别:
ETL和ELT主要是先清洗数据还是先入库的区别。
ETL一般使用主流框架用程序在提取的时候就将数据进行清洗,ELT则是将数据存到数据仓库,再用sql进行数据清洗。

未来使用ELT作为数据集成架构的会越来越多,有以下好处:

  1. 使用 ELT 方法,在提取完成之后,数据加载会立即开始。一方面更省时,另一方面 ELT 允许 BI 分析人员无限制地访问整个原始数据,为分析师提供了更大的灵活性,使之能更好地支持业务。
  2. 在 ELT 架构中,数据变换这个过程根据后续使用的情况,需要在 SQL 中进行,而不是在加载阶段进行。这样做的好处是你可以从数据源中提取数据,经过少量预处理后进行加载。这样的架构更简单,使分析人员更好地了解原始数据的变换过程。

数据变换是数据准备的重要环节,通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式

  1. 数据平滑。去除数据中的噪声,将连续数据离散化

  2. 数据聚集。对数据进行汇总,例如Sum、Max、Mean等

  3. 数据概化。将数据由较低的概念抽象成较高的概念,如北上广深圳概化为中国。

  4. 数据规范化。合属性数据按比例缩放,将原来的数值映射到新的特定区域中。

    • min-max规范化。
      将原始数据变化到[0, 1]的空间中,公式为:新数值=(原数值-极小值) / (极大值-极小值),对应的有SciKit-Learn的preprocessing.MinMaxScaler函数
    • z-score规范化。
      可以用相同的标准比较不同规格的成绩。公式为:新数值=(原数值-均值) / 标准差。对应的有SciKit-Learn的preprocessing.scale函数,求出每行每列的值减去了平均值,再除以方差的结果,使得数值都符合均值为0,方差为1的正态分布
    • 小数定标规范化。
      通过移动小数点的位置来进行规范化
  5. 属性构造。构造出新的属性并添加到属性集中。

  • 方差和标准差是测算离散趋势最重要、最常用的指标
  • 标准差是方差的平方根
  • 一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。
  • 由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
  • Kaggle
    Kaggle一个进行数据发掘和预测竞赛的在线平台,给数据分析师提供了非常好的数据集,同时还有Python、机器学习、数据挖掘等教程

最新文章
最强AI生图神器!轻松生成超逼真美女写真,快来体验吧!
在主界面上有多种美女写真风格供选择,点击你喜欢的模板。可以选择自然、优雅、时尚等多种风格,满足不同的需求。第三步:输入描述根据你的需求,在文本框中输入对美女的具体描述,例如:“长发少女,佩戴耳环,微笑”等,尽量详细,这将影
「阿里推广关键词排名」阿里关键词优化排名
1、在阿里巴巴上如何提高排名?2、阿里国际站的p4p外贸直通车推广几个关键词合适?3、怎么将阿里巴巴关键词排名做上去如果想要自己发布的信息排名靠前,那么首先我们先要了解一下信息发布的网站的排名规则。掌握了游戏规则,就掌握了成功的
VMware ESXi和vCenter和vSphere关系是怎样的?
事实上,我们所说的vSphere并不是一个特定的软件。VMware vSphere是VMware的服务器虚拟化软件套件,它包括了许多软件组件,它们中的每一个都在vSphere环境中执行不同的功能。 VMware vSphere的两个核心组件就是VMware ES
洗衣机的桶洗净用法图解
洗衣机的桶洗净用法图解  很多人都奇怪,为什么自己和家人经常感到皮肤发痒,你有没有想过,很有可能就是你家的家用洗衣机导致的?表面看似干净的家用洗衣机,拆开内筒却是积满了厚厚的污垢。接下来小编为你带来家用洗衣机的桶洗净用法图
wordpress建站教程?(织梦dedecms从入门到通晓建站视频教程)
备情况起首用wordpress需求体系撑持,相应的php mysql以及apache等情况。详细看下图 更多资源 攻种号:中创项目网 百度搜索:中创项目网 www.zcw8.cn 更多资源 攻种号:中创项目网 百度搜索:中创项目网 www
喵趣漫画 免费下载安装手机版
喵趣漫画免费下载安装手机版一款专为漫画爱好者设计的手机看漫软件。喵趣漫画该软件每天都会不断更新高品质的漫画,让用户随时随地都能享受到最新的漫画作品,还支持多设备同步使用,方便用户在不同的设备上进行漫画阅读,让阅读变得更加便
湖北爱采购优化排名
百度爱采购给商家带来了哪些优势:1、用户在百度首页搜索企业名称时,搜索结果首页会出现一张关于该企业的名片,上面有该企业的注册信息、经营范围和产品供应信息。百度名片可以帮助用户快速了解企业,增强信任,打造品牌,提升知名度。2、
华为擎云 S540 14英寸轻薄商务笔记本(i7-1260P 16G 512G )手机互联/win11-H 银色参数
详细参数品牌:华为(HUAWEI)系列:S540型号:S540颜色:银色产品定位:家庭办公上市时间:2023年3月操作系统:Windows 11核心数:十二核心CPU类型:Intel i7CPU型号:i7-1260PCPU主频:50三级缓存:无内存容量:16G内存类型:DDR4最大支持
水务人,你提问ChatGPT了吗?浅谈人工智能变革水务行业
前言近期,由OpenAI公司推出的人工智能产品ChatGPT火爆全球,在发布的短短两个月内用户数突破一亿。它被誉为是与互联网同样重要的发明,并有可能改变世界。ChatGPT的爆火意味着AI从技术端到应用端的日趋成熟,AI为产业和人们生活带来的变革
网易邮箱无法登陆怎么办?全面指南快速解决问题
简介:网易邮箱作为国内知名的电子邮件服务提供商,自上线以来便深受用户青睐。然而,随着使用人数的增加,难免会遇到网易邮箱无法登陆的问题。这篇文章将为您提供一份全面的指南,快速解决网易邮箱无法登陆的问题,让您能够轻松应对这类困
相关文章
推荐文章
发表评论
0评