分享好友 最新动态首页 最新动态分类 切换频道
数据挖掘任务
2024-12-26 14:56

​​​​​​数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等,具体的介绍如下
一、分类
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。
典型的分类算法:决策树算法、神经网络算法、贝叶斯算法
二、聚类
聚类分析也称为细分,它基于一组属性对事例进行分组,同一个聚类中的或多或少有相似的属性值。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

三、关联
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。
有人说啤酒和尿布是沃尔玛超市的一个经典案例,也有人说,是为了宣传数据挖掘/数据仓库而编造出来的虚构的“托”。不管如何,“啤酒和尿布”给了我们一个启示:世界上的万事万物都有着千丝万缕的联系,我们要善于发现这种关联。

四、回归
回归任务类似于分类任务,但它不是查找描述类的模式,它的目的是查找模式以确定数值。简单的线性线段拟合技术就是回归的一个例子,其结果是一个函数,可以根据输入的值确定输出。
回归分析方法被广泛地用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形势表示出来,就是回归分析要解决的问题

五、预测
预测技术采用数列作为输入,表示一系列时间值,然后应用各种能处理数据周期性分析、趋势分析、噪声分析的计算机学习和统计技术来估算这些序列未来的值。
你可以预测某一特定月份的销售。

六、序列分析
发现离散序列中的模式,序列由一串离散值(或状态)组成,例如DNA序列,Web点击的url序列,购买商品的次序。序列数据和时间序列数据都是连续的观察值,观察值相互依赖,区别在于序列包含离散的状态,而时间序列包含的是连续的数值;序列和关联数据有相似,都是包含一个项集或一组状态,区别在于序列模型分析的是状态的转移,而关联模型认为购物篮的每个商品平等且独立。序列认为先买电脑后买扬声器与先买扬声器后买电脑是两个不同序列,关联则不同。主要的序列分析技术有Markov链。
图描述了某个新网站的Web点击序列。每个节点是一个URL地址每一条边标示两个URL地址的转移。没一个转移用一个权值标示,表示从一个Url地址转到另一个URL的概率

七、偏差分析
偏差分析又称比较分析,它是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象。
偏差检测的基本方法是:寻找观测结果与参照值之间有意义的差别
例子:信用卡欺诈行为检测、网络入侵检测、劣质产品分析

a.根据性别划分公司的顾客。

否。这是一个简单的数据库查询

b.根据可盈利性划分公司的顾客。

否。这是数学计算,伴随着阈值应用。如果计算顾客购买的的可能性,则是数据挖掘。

c.公司的总销售额。

否。简单的数学计算。

d.根据学生的标识号码对学生数据库排序。

否。这是简单的数据库查询。

e.预测一枚均匀骰子的结果。

否。 既然骰子是均匀的,这就是概率计算。如果不均匀,我们需要从数据中,估计每种可能结果的可能性,那么这就更像是数据挖掘考虑的问题。然而在特定情况下,这种问题长时间以来是数学家要解决的问题,我们不把他考虑成数据挖掘问题。

f.利用历史记录预测某公司未来的股票价格。

是。我们会试图建立一个可预测连续股票价格价值的模型。这是一个简单的数据挖掘领域,即预测建模。我们可以使用回归模型来建模,即使许多领域的研究者们已经发展出了大量技术来预测时间序列。

g.监测病人心率的异常变化。

是。我们会建立一个心率正常变化的模型,当心率出现异常时发出警报。这就是数据挖掘领域中的异常检测。

h.监测地震活动的地震波。

是。这个案例中,我们会建立一个和地震活动相关的不同种地震波变化模型,当其中地震活动被观察到时发出警报。这是数据挖掘领域中的一种----分类。

i.提取声波的频率。

否。这是信号处理。

2.假设你是一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。举例说明如何使用诸如聚类、分类、关联规则挖掘和异常检测等技术,让数据挖掘为公司提供帮助。

举例

聚类可以通过某个主题的相似性为结果分组,从而使呈现给用户的主题更加简洁,比如报告簇中使用最多的十个单词。

分类可以把结果分配到预定义的类别中,如"运动""政治",等等。

序列关联分析可以检测特定序列伴随其他特定序列的高可能性,允许更有效率的存储。

异常检测技术可以发现用户流量的不寻常模式,比如某个物品突然变得更加受欢迎。广告可以使用这种技术来调整策略。

数据挖掘所得到的信息具有先前未知、有效和使用三个特征。

数据挖掘与查询:在一句话中找人民是数据挖掘,在表格中找出人民是查询。

数据预处理技术:数据清理、数据集成、数据变换(平滑、聚集、数据泛化、规范化、数据离散化)、数据归约(抽样、特征选择)、数据离散化

最新文章
一步到位,利用AI生成超逼真美女写真,轻松上手!
在这个科技飞速发展的年代,AI的应用已经渗透到我们生活的方方面面。其中,AI绘画、AI写真制作更是得到了广泛的关注。不少小伙伴们都曾幻想过,拥有一张属于自己的专属美女写真,甚至可以用它来当做社交平台的头像,或者送给好友作为惊喜。
Python爬虫入门实战(详细步骤)
爬虫这个功能,我个人理解是什么语言都能写的,只要能正常发送 HTTP 请求,将响应回来的静态页面模版 HTML 上把我们所需要的数据提取出来就可以了,原理很简单,这个东西当然可以手动去统计收集,但是
阿里云助力易点天下实现程序化广告+AI多维度效率提升
  12月12日,在第十二届中国企业全球形象高峰论坛现场,联合阿里云正式发布了在程序化广告领域的多项重要突破,这些成果主要基于阿里云平台PAI、通义大模型以及阿里云+云原生技术生成。  市场研究机构MAGNA最新发布的《全球广告预测》
观山湖区第一高级中学环境好不好
摘要:观山湖区第一高级中学的环境综合评价涵盖了校园设施、教学资源、师资力量等多个方面。小编从升学规划师的角度出发,深入分析学校环境对学长和教育质量的重要性,探讨该校在各方面的表现及其对学生未来发展的潜在影响。观山湖区第一高
遇到纠纷不用慌,“人民调解”帮你忙!“解纷芜优”指引来了
生活中可能遇到矛盾纠纷,如果闹上法庭,不仅要花时间和金钱,还会伤害人与人之间的和气……那么,如何更加妥善高效处理矛盾纠纷呢?快随小编来看看“人民调解”如何省时省心帮助纠纷双方解决问题吧现在可以通过“解纷芜优”在线申请调解啦
甲骨文谈存储:其实一开始我们就是认真的
当人们谈到iPhone的成功最大的因素之一就是软件与硬件最强大的结合。雷军也表示软硬件结合互联网是小米成功的核心。今天甲骨文高调宣布其存储设备并向业 内发出最强音---甲骨文的软件加上甲骨文的存储设备,就是要为企业级数据市场提供最好
青年小店,让城市未来这YOUNG出彩丨青年小店榜样计划(浙江杭州站)圆满举行
杭州,一座创新活力之城、青年友好之城,吸引着大批年轻人前来生活与创业,为大批怀揣梦想与激情的年轻人提供了创业沃土,也承载着不少年轻人的诗和远方。近年来,杭州市积极践行青年优先发展理念,全力支持青年创新创业,吸引众多有志青年
淘宝直播店抽免单如何配置?
抽免单工具是淘宝直播平台提供给商家和主播的一种玩法工具,用户通过对指定商品下单参与活动,可以赢取免单福利,主播可以通过该工具进行直播间福利发放,亦可通过该工具提升成交爆发系数,欢迎各位商家和主播伙伴使用~注意:抽免单工具202
面容即密码!人脸识别签到助参会者快速入场
在数字化技术不断发展的今天,人脸识别签到技术正逐渐成为各类活动入场管理的热门之选,以其卓越的智能化特性重塑着传统签到模式。人脸识别:精准验证的奥秘人脸识别签到,是一种依托先进的图像识别技术与深度学习算法的身份验证方式。它通
用AI绘画生成诱人美女,简单几步打造个人专属女神
在科技越来越发达的今天,AI绘画逐渐走入了我们的生活。作为一位AI工具科普博主,今天我想和家人们分享的是,如何使用AI生成超逼真的美女写真。你是否想过,为你的社交平台增添一些引人注目的照片,或者为自己创造一个独特的人物形象?人工
相关文章
推荐文章
发表评论
0评