特征选择的目标有哪些? A:挖掘多个抽象层上的数据 B:提供更快性价比更高的学习过程 C:更好地理解生成数据的基本过程 D:提高数据挖掘模型的性能 答案: 提供更快性价比更高的学习过程,更好地理解生成数据的基本过程,提高数据挖掘模型的性能一

攘宽酸蜜冒弦如裂姥趁畅甜通

蒋兑挖岁奴栏啦上酱绣领标酮

特征选择的目标有哪些? A:挖掘多个抽象层上的数据 B:提供更快性价比更高的学习过程 C:更好地理解生成数据的基本过程 D:提高数据挖掘模型的性能 答案: 提供更快性价比更高的学习过程,更好地理解生成数据的基本过程,提高数据挖掘模型的性能一个神经元可以有多个输入和一个输出特征选择算法一般分为那几类? A:子集选择算法 B:基于熵的离散化 C:特征排列算法 D:分箱技术 答案: 子集选择算法,特征排列算法答案:

答案:点击这里查看答案


点击这里,查看大数据分析与预测技术 2024智慧树答案完整版


点击这里,搜索更多网课答案


如需获取更多网课答案,可在浏览器访问我们的网站:http://www.mengmianren.com/

特征选择的目标有哪些? A:挖掘多个抽象层上的数据 B:提供更快性价比更高的学习过程 C:更好地理解生成数据的基本过程 D:提高数据挖掘模型的性能 答案: 提供更快性价比更高的学习过程,更好地理解生成数据的基本过程,提高数据挖掘模型的性能一第1张

特征选择的目标有哪些? A:挖掘多个抽象层上的数据 B:提供更快性价比更高的学习过程 C:更好地理解生成数据的基本过程 D:提高数据挖掘模型的性能 答案: 提供更快性价比更高的学习过程,更好地理解生成数据的基本过程,提高数据挖掘模型的性能一第2张

注:请切换至英文输入法输入域名,如果没有成功进入网站,请输入完整域名:http://www.mengmianren.com/


以下哪些情景可以使用大数据分析与预测建模技术?
A:统计某零售超市一个月内哪类牛奶的销量最大
B:预测电商网站某商品未来的销售量
C:保险公司的骗保分析
D:预测某移动运营商客户转移到竞争对手的可能性
答案: 预测电商网站某商品未来的销售量,保险公司的骗保分析,预测某移动运营商客户转移到竞争对手的可能性

有关大数据分析与预测的过程认识正确的是?
A:大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。
B:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。
C:大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。
D:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。
答案: 大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。

有关数据质量的认识正确的是?
A:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。
B:有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。
C:数据预处理就是删除有问题的数据。
D:数据质量一般可以由机器自动完成,不需要数据分析人员参与。
答案: 各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。

下面有关机器学习正确的说法是?
A:机器学习就是简单的统计分析。
B:机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。
C:每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。
D:在机器学习过程中,需要人的经验指导数据的选择噪声的消除合适算法的选择以及调参等工作。
答案: 机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。,每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。,在机器学习过程中,需要人的经验指导数据的选择噪声的消除合适算法的选择以及调参等工作。

组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?
A:业务监控
B:数据货币化
C:业务优化
D:业务转型
答案: 数据货币化

如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于
A:描述性分析
B:预测性分析
C:规范性分析
D:诊断性分析
答案: 预测性分析

NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。
A:对
B:错
答案: 错

根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?
A:无监督学习
B:诊断性分析
C:统计分析
D:监督学习
答案: 监督学习

大数据分析的预测建模任务主要包括哪几大类问题?
A:模式发现
B:关联分析
C:分类
D:回归
答案: 关联分析,分类,回归

下列哪些分析需要机器学习?
A:寻找移动运营商用户对某类套餐使用的潜在客户
B:预测移动运营商用户未来使用的网络流量
C:统计移动运营商的用户在某段时间对短信的使用数量
D:比较不同移动运营商用户对漫游业务的使用量
答案: 寻找移动运营商用户对某类套餐使用的潜在客户,预测移动运营商用户未来使用的网络流量,统计移动运营商的用户在某段时间对短信的使用数量

将原始数据进行集成变换维度规约数值规约是在以下哪个步骤的任务?
A:频繁模式挖掘
B:数据流挖掘
C:数据预处理
D:分类和预测
答案: 数据预处理

下面哪个步骤不属于数据预处理的过程?
A:分类和预测
B:数据归约
C:数据清洗
D:数据转换
答案: 分类和预测

下面哪种不属于数据预处理的方法?
A:估计遗漏值
B:聚集
C:离散化
D:变量代换
答案: 估计遗漏值

以下哪种方法不属于特征选择的标准方法
A:抽样
B:嵌入
C:过滤
D:包装
答案: 抽样

下面不属于创建新属性的相关方法的是
A:特征提取
B:特征构造
C:映射数据到新的空间
D:特征修改
答案: 特征修改

数据清洗包括以下哪几个方面?
A:噪声数据平滑技术
B:按标准差进行的标准化
C:时间相关数据的处理
D:缺失数据处理方法
答案: 噪声数据平滑技术,时间相关数据的处理,缺失数据处理方法

以下哪几个是数据归约的策略?
A:数据立方体聚集
B:维度归约
C:离散化和概念分层产生
D:数值归约
E:数据压缩
答案: 数据立方体聚集,维度归约,离散化和概念分层产生,数值归约,数据压缩

以下哪些是数据离散化技术?
A:分箱技术
B:基于熵的离散化
C:ChiMerge技术
D:饼图分析
答案: 分箱技术,基于熵的离散化,ChiMerge技术

特征选择的目标有哪些?
A:挖掘多个抽象层上的数据
B:提供更快性价比更高的学习过程
C:更好地理解生成数据的基本过程
D:提高数据挖掘模型的性能
答案: 提供更快性价比更高的学习过程,更好地理解生成数据的基本过程,提高数据挖掘模型的性能

特征选择算法一般分为那几类?
A:子集选择算法
B:基于熵的离散化
C:特征排列算法
D:分箱技术
答案: 子集选择算法,特征排列算法

有关决策树的说法哪个是错误的?
A:可以转化为决策规则
B:决策树的深度越大越好
C:决策树的算法和神经网络的原理不一样
D:对新样本起到分类预测的作用
答案: 决策树的深度越大越好

有关决策树与特征工程的关系,以下说法错误的是?
A:如果要了解影响签署合同快慢的主要因素,可以使用决策树算法。
B:决策树获得的特征是区分不同类别的最优特征。
C:决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法。
D:决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据。
答案: 决策树获得的特征是区分不同类别的最优特征。

下面有关支持向量机错误的说法是?
A:支持向量机是把高维的数据投影到低维的空间进行分类。
B:支持向量机一般处理两分类的问题。
C:支持向量机既可以处理线性可分的问题,也可以处理非线性可分的问题。
D:对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。
答案: 支持向量机是把高维的数据投影到低维的空间进行分类。

以下哪些不是贝叶斯网络的应用场景?
A:机器故障诊断
B:中文分词
C:招聘人才选拔规则
D:根据客户消费行为对其进行分组
答案: 招聘人才选拔规则,根据客户消费行为对其进行分组

下面有关线性判别分析错误的说法是哪个?
A:提高不同类样本的可分性。
B:线性变换可以使不同类别样本的距离加大。
C:线性判别分析中线性变换可以使同类样本的方差变大。
D:通过对原始的数据进行线性变换,使得不同类的样本尽量分开。
答案: 线性判别分析中线性变换可以使同类样本的方差变大。

下面有关随机森林的说法哪个是错误的?
A:类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。
B:每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。
C:随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。
D:随机森林训练后只需选择性能最好的树最为预测模型。
答案: 随机森林训练后只需选择性能最好的树最为预测模型。

如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?
A:修改用户的需求。
B:对算法的选择以及参数的调整进行优化。
C:补充或调整样本的选择,并加强样本的预处理。
D:采用多种算法组合。
答案: 对算法的选择以及参数的调整进行优化。,补充或调整样本的选择,并加强样本的预处理。,采用多种算法组合。

以下哪个算法不是基于规则的分类器 ?
A:C4.5
B:C5.0
C:ID3
D:贝叶斯分类器
答案: 贝叶斯分类器

如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?
A:关联分析
B:线性回归分析
C:决策树类算法
D:聚类分析
答案: 决策树类算法

以下哪个指标不能用于决策树的性能评价指标?
A:准确率
B:决策树规则的数目
C:ROC曲线下的面积AUC
D:召回率
答案: 决策树规则的数目

以下关于人工神经网络(ANN)的描述正确的说法是?
A:神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系
B:只能用于分类
C:不能确定输入属性的重要性
D:训练ANN是一个很耗时的过程
答案: 训练ANN是一个很耗时的过程

神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?

A:

一个神经元可以有一个输入和多个输出

B:

一个神经元可以有多个输入和多个输出

C:

其他选项都正确

D:

一个神经元可以有多个输入和一个输出

答案:

其他选项都正确

有关前馈神经网络的认识正确的是?
A:神经网络训练过程是拟合训练数据模式的过程
B:神经网络模型的分类能力比决策树好
C:神经网络可用于分类和聚类
D:神经网络训练后很容易得到分类的规则
答案: 神经网络训练过程是拟合训练数据模式的过程

下面关于感知机的说法中正确的是?
A:单个感知机是线性回归的训练过程
B:某一神经元可以连接下一层的多个神经元,表示该神经元有多个输出
C:其他都不对
D:在感知机中引入激活函数可以解决与异或问题(XOR)
答案: 单个感知机是线性回归的训练过程

在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么?

A:

搜索所有权重和偏差的组合,直到得到最佳值。

B:

根据人工经验随机赋值。

C:

赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。

D:

其他选项都不正确

答案:

赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。

有关神经网络训练时使用的学习率参数说法正确的是
A:网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。
B:学习率可以与其他网络参数一起训练,对降低代价函数是有利的。
C:学习率过大更容易导致训练陷入局部极小值。
D:学习率可以随着训练误差动态调整效果更好。
答案: 网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。,学习率可以与其他网络参数一起训练,对降低代价函数是有利的。,学习率可以随着训练误差动态调整效果更好。

激活函数通过具有以下哪些性质?
A:非线性
B:可微性
C:单调性
D:计算简单
答案: 非线性,可微性,单调性,计算简单

在神经网络训练中,有关学习率调整说法错误的是?
A:学习率设置不当会引起神经网络过拟合。
B:固定学习率设置太大可能会使神经网络训练震荡不收敛。
C:学习率太小会使神经网络的训练迅速达到极小值。
D:学习率可以根据损失函数(代价函数)减少的快慢动态调整。
答案: 学习率设置不当会引起神经网络过拟合。,学习率太小会使神经网络的训练迅速达到极小值。

减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。
A:错
B:对
答案: 错

BP神经网络在训练过程中,损失函数可能比较大,但随着训练的进行,损失函数基本不变化了,这种现象说明神经网络陷入全局最优解
A:对
B:错
答案: 错

以下哪些数据的特征会对聚类有影响?
A:高维性
B:离群点
C:噪声
D:样本规模
答案: 高维性,离群点,噪声,样本规模

有关聚类算法不正确的说法是?
A:聚类算法可以找出每组样本不同的特征
B:聚类是分类的基础
C:必须给出聚类的组数
D:把分析的样本根据距离分组
答案: 必须给出聚类的组数

聚类是一类重要的机器学习算法,以下哪些场景不属于聚类问题?
A:某网商对客户的购物行为进行分析,从而分析不同组用户的偏好。
B:判断一个网络访问是否为入侵访问。
C:根据学生的成绩,给出学生的名次。
D:对数据库的论文根据内容主题的不同做划分。
答案: 判断一个网络访问是否为入侵访问。,根据学生的成绩,给出学生的名次。

对联通客户进行分组,以便根据各组的特点,策划不同的营销方案,需要客户哪些数据?
A:客户长途市话以及漫游等通话数据
B:客户人口数据
C:家庭男女组成
D:收入数据
答案: 客户长途市话以及漫游等通话数据,客户人口数据,家庭男女组成

下列说法错误的是?
A:在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好
B:k均值算法是一种常用的聚类算法,簇的个数算法不能自动确定
C:聚类分析可以看作是一种非监督的样本分组过程
D:k均值算法的计算耗时与初始假设聚类中心的位置有关
答案: 在聚类分析中,簇之间的相似性越大,簇内样本的差别越大,聚类的效果就越好

有关聚类的算法,正确的说法有以下哪些?
A:聚类的结果要考虑业务的可解释性。
B:聚类的簇密度指样本的个数多少。
C:类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。
D:自底向上的层次聚类算法对样本的输入顺序比较敏感。
答案: 聚类的结果要考虑业务的可解释性。,类似Kmeans基于划分的聚类与基于层次的聚类都是样本的距离为划分基础。

有关k-means下列说法正确的是?
A:可以确定样本属性的重要性
B:可以处理凸型分布数据的聚类
C:适合任意数据集的分组
D:聚类的结果与初始选择的假设聚类中心有关
答案: 可以处理凸型分布数据的聚类

根据用户使用移动运营商的数据,可以为他们设计合适的套餐,使用哪种挖掘方法比较合适?
A:关联分析
B:神经网络
C:回归分析
D:聚类
答案: 聚类

对于Kmeans而言,不同的初始聚类中心选择可能导致不同的聚类结果。
A:错
B:对
答案: 对

在kmeans的训练过程中,可以选择不同的k值,比较使绝对误差标准较小的k值,结合聚类业务的可解释性,从而选择合适的k值。
A:错
B:对
答案: 对



防搽绒梧拳掂恐瞎家狄当藏呛

陀欧离榔蹈煞但论实倒朵拇匈