×

祝贺《数据挖掘:原理与应用》入选湖南省研究生优秀教材名单!配套慕课第10次开课!算法实践与案例详解出版!

hqy hqy 发表于2025-03-02 03:31:51 浏览7 评论0百度已收录

抢沙发发表评论

近日,湖南省教育厅公布了2024年湖南省研究生优秀教材名单,由国防科技大学丁兆云教授领衔编著的《数据挖掘:原理与应用》一书成功入选,该书聚焦学术与产业前沿,基于“原理讲解+案例实践”模式,使不同学科背景的本科生、研究生更容易理解和掌握数据挖掘技术。

向获此殊荣的《数据挖掘:原理与应用》教材及作者们致以热烈的祝贺!该书详情如下:

 荣获

湖南省

研究生

优秀教材

数据挖掘:原理与应用》

目前,数据挖掘类课程已成为我国新工科教育的数据科学思维提升课程,成为信息、电子等各类工科专业本科生与研究生的必修课。本书深入浅出地介绍了数据挖掘和数据分析的知识、常用的各类算法;系统梳理与比较各类算法的优缺点与适用场景,获得国防科技大学研究生教学优秀奖,本次荣获湖南省研究生优秀教材奖。

本书内容结合作者多年的科研和教学经验,大量案例来自作者的项目和科研成果,不仅适合作为大数据特色类专业的本科生和研究生教材,同时也适合机械、航空等其他工科专业的入门与自学教材,还可作为各专业本科生与研究生考试复习的参考资料。

数据挖掘:原理与应用

作者:丁兆云 周鋆 杜振国

ISBN: 978-7-111-69630-8

随着大数据、人工智能的快速发展,各高校越来越重视大数据相关专业与课程的建设,很多高校开设了大数据学院或数据科学/大数据专业。随着数据科学的普及,数据挖掘逐渐成为一种通用技术,广泛应用于人们社会生活的各个领域,因此掌握数据挖掘的基本概念和技术十分重要。

本书作者丁兆云由国防科技大学博士毕业后留校任教至今,长期教授数据挖掘课程,负责国防科技大学系统工程学院“数据挖掘”专业方向考博命题工作,近年来一直从事数据挖掘领域的研究以及课程的建设,通过将复杂的数据挖掘知识点与实际案例结合,形成了一套以案例为牵引的数据挖掘知识体系,使不同学科背景的本科生、研究生更容易理解和掌握数据挖掘技术。

本书以深入浅出、简要易懂的方式荟萃了数据挖掘的各类算法知识点;系统地梳理和比较了各类算法的优缺点与适用场景;以案例为驱动说明了数据挖掘算法的运用。知识点难度适中,适合理工科相关专业的本科生与研究生作为教材使用,也可作为相关领域的科研与工程技术人员的参考书。另外,本书选取了笔者所在高校各类数据挖掘课程的试题,这些试题不仅涵盖数据挖掘经典的知识点,而且涉及互联网公司在招聘数据挖掘、机器学习、人工智能等方向的工程师时的笔试知识点。这些试题覆盖面广、新颖性强,适合本科生与研究生进行考前复习以及应聘笔试和面试时参考。

主 要 特 色

根据高校数据科学与大数据、人工智能、计算机等专业“数据挖掘”课程的需求,以深入浅出、简明易懂的方式总结、梳理了数据挖掘的知识点。这些知识点涵盖数据挖掘的核心内容,难度适中,可帮助读者理解、掌握数据挖掘的基本原理和技术。

系统地介绍了数据挖掘常用算法,并比较了各类算法的优缺点和适用场景。同时,通过大量案例说明如何在实际工作中应用相关的算法,从而培养读者利用数据挖掘技术解决实际问题的能力。

梳理教学中总结的的试题、IT企业招聘中涉及的数据挖掘相关考题,形成本书的配套试题,读者可通过练习掌握核心知识点,应对研究生、博士生数据挖掘相关的入学测试以及企业面试。

附录汇编了数据挖掘的各类试题,读者可以通过试题的解答进一步理解知识点,试题答案可从华章网站下载。

在提炼数据挖掘知识点的基础上,在中国大学MOOC上开设了“数据挖掘”MOOC课程(见上面介绍),并在头歌平台上开设了“数据挖掘”实验课程,读者可通过在线视频课程的学习、作业训练与编程实践加深对数据挖掘知识点的理解,提高运用能力。

专家推荐

数据挖掘是人工智能、大数据的核心技术,是数据科学的内在驱动力,广泛应用于信息安全、网络安全、电子技术、航天科技等重要领域,是提升国家、军工、企业核心竞争力的重要技术之一。

本书结合实际数据挖掘案例,深入浅出地荟萃数据挖掘知识点,不仅体现了知识的内涵,也体现了知识的系统性,既适合作为高校本科生和研究生数据挖掘课程的教材,也适合作为相关领域科研与工程技术人员的重要参考读物。

——贾焰,国防科技大学教授

 配套

慕课

第十次

开课

丁兆云主讲

国防科技大学数据挖掘课程慕课2025年春季(第10次开课)已开讲!欢迎各位老师及同学关注与参与!

具体安排

观看地址:

中国大学mooc:

https://www.icourse163.org/course/NUDT-1461782176

                

据挖掘是近十几年来大数据、人工智能行业飞速发展最重要的驱动技术之一,当前大数据分析几乎都离不开数据挖掘技术,因此掌握数据挖掘的相关知识技能对于学生当下就业和未来深造都有重要意义。 本课程面向计算机、管理科学与工程、系统工程相关专业高年级本科生或低年级研究生,课程深入数据挖掘技术基础,紧跟数据科学前沿,使得学生既能够掌握数据挖掘算法的基本原理、关键技术,又使学生知道如何使用数据。此外,课程引入最新的数据挖掘案例,使得学生掌握如何通过了解数据、数据预处理、数据模式挖掘来解决现实中的数据挖掘案例。教学内容的组织与实施上,使用片段式的教学,每个知识点为一个教学片段,每个片段时长为10-25分钟。教学内容尤其是教学视频的制作上,运用信息技术将教师授课场景、ppt、动画、视频等实现动态最优组合合成,并采用视频交互模式实现,提高视觉效果和学习体验

—— 课程团队

课程背景

1.数据挖掘是近十几年来大数据、人工智能行业飞速发展最重要的驱动技术之一,当前大数据分析几乎都离不开数据挖掘技术,应用广泛,是业界所需;

2.数据挖掘集合了概率统计、机器学习、人工智能、数据可视化、算法等等多门计算机领域核心知识,是信息技术研究的重要领域;

3.掌握数据挖掘的相关知识技能对于学生当下就业和未来深造都有重要意义。

课程目标

1.认识数据的统计特性,了解数据的可视化方法,把握数据相似性计算;

2.掌握数据预处理的四大步骤及方法;

3.掌握分类、聚类、回归、关联规则挖掘等核心技术;

4.了解具体数据挖掘的处理过程。

课程设计原则

1.紧跟技术前沿,内容涉及最新的业界技术和前沿研究;

2.注重技术实践,将经典案例融入到数据挖掘课程教学中,提高课程学以致用的效果;

3.重视基础知识,将数据挖掘知识与概率统计、机器学习、算法等底层核心知识融会贯通。

课程大纲

向下滑动查看

01 绪论

1.1 绪论

1.2 章节测试

02 认识数据

2.1 数据类型和统计

2.2 数据可视化

2.3 数据相似性

2.4 章节测试

03 数据预处理

3.1 数据清洗

3.2 数据集成

3.3 数据规约

3.4 数据转换

3.5 章节测试

04 贝叶斯分类

4.1 贝叶斯分类基本概念

4.2 贝叶斯分类案例

4.3 章节测试

05 决策树分类

5.1 决策树基本概念

5.2 决策树构建方法

5.3 决策树分类案例

5.4 章节测试

06 k-均值聚类

6.1 k-均值聚类基本方法

6.2 k-均值聚类案例

6.3 章节测试

07 逻辑回归

7.1 逻辑回归基本原理

7.2 逻辑回归正则化

7.3 章节测试

08 关联规则挖掘

8.1 关联规则挖掘概念与基本算法

8.2 Apriori算法

8.3 FPGrowth算法

8.4 规则挖掘

8.5 章节测试

09 数据挖掘实践

9.1 初始数据挖掘实践

9.1.1 分类实践任务起点

9.1.2 初始数据之特征选择

9.2 数据预处理实践

9.2.1 数据预处理之清洗

9.2.2 数据预处理之转换

9.2.3 数据预处理之降维

9.3 数据挖掘基础算法实践

9.3.1 回归预测实践

9.3.2 数值预测时间特征扩展实践

9.3.3 不平衡分类实践

9.3.4 聚类算法实践

9.3.5 KNN 分类实践

9.4 章节测试

10 支持向量机分类

10.1 支持向量机数学原理

10.2 支持向量机扩展

10.3 章节测试

11 神经网络分类

11.1 神经网络基础概念

11.2 神经网络数学原理

11.3 章节测试

12 集成学习

12.1 Bagging分类

12.2 随机森林分类

12.3.1 Boosting分类基础

12.3.2 Boosting分类理论

12.4 GBDT学习

12.5 章节测试

主讲嘉宾

更多资源:

Q :  课程实践如何展开?

A :  请同学们登录https://www.educoder.net/paths/4153  开展具体课程实践。

Q :  课程采用哪个教材?

A :  课程教材为机械工业出版社出版的《数据挖掘原理与应用》。

Q :  教材对应的PPT在哪下载?

A :  2.1 数据类型和统计的“富文本资源中的附件下载PPT。

Q:课程代码在哪下载?

A :  课程代码和数据集已上传到9.1.1分类实践任务起点的“实践项目代码及数据”资源中,可以在此下载相关的压缩包资源。

Q:课程历年考试试题在哪下载?

A :课程历年考试试题已上传到9.1.1分类实践任务起点的“课程历年考试试题”资源中,可以在此下载相关的压缩包资源。

Q:课程编程如果没有python基础,是否提供学习资源?

A :  python学习相关的代码和数据集已上传到9.3.5 KNN 分类实践的“python学习相关资料”资源中,可以在此下载相关的压缩包资源。

Q:课程中是否提供大数据、深度学习等相关资源?

A :  大数据、深度学习等相关资源已上传到12.2 随机森林分类的“课程其他可参考PPT资源”资源中,可以在此下载相关的压缩包资源。

Q:课程需要什么基础?

A :  在课程制作过程中,尽可能利于易懂的案例驱动课程讲解,本课程希望同学们能够培养数据科学思维,因此,本课程学习对基础要求不高。但如果同学们后期进一步深入研究数据挖掘,建议同学们学习好高等数学、线性代数、概率统计等数学课程。

Q:老师的联系方式是什么?

A :  老师微信:dingzy1983,有问题可以随时在线交流。

老师的讲解非常精彩,扎扎实实、严谨客观;案例直观、简化,有利于学习者理解问题的核心和本质;尤其是强调了一些数据挖掘模型的前提假设是比较严苛的,在应用之前需要通过一些辅助手段先对前提假设进行验证,并基于此对问题本身进行一个大致的基本判断,然后再选用相对契合的模型开展建模和求解运算的工作。

在习得知识的同时,通过实践逐步增强理解和更好的掌握了技能,好棒的一门课!!!

在MOOC看了不少的数据挖掘和人工智能方面的视频,那些课程里面该有的知识点和内容都有说到或者提到,不过每次听完只大概记得那么几个专业名词,听得也不是特别懂。在这个课程里丁老师不仅把知识点都讲到了,而且讲得非常详细,课程中会引导我们思考为什么要这样做,并且给予我们解答,还提到了许多大学里面学过的知识点,就算有的人没有学过,听老师一讲,瞬间也能懂。反正我每次听完的感觉就是老师讲得我基本上都记得差不多,基本也都理解了,还很期待下一节。虽然课程更新还没有出几个章节,但是已经感觉到是看过的最好的数据挖掘和人工智能方面的课程视频了。

知识点全面,讲解非常详细,有具体案例结合说明原理,容易理解。很好的一门课程。

最新资讯:

继《数据挖掘:原理与应用》一书被全国许多高校广泛采用,慕课收获好评连连后,各行各业积累的数据越来越丰富,数据挖掘的需求越来越大。为帮助学生进一步掌握数据挖掘各算法的编程实现,提升大数据的实践运用能力,丁兆云老师又领衔教学团队编著了《数据挖掘算法实践与案例详解》一书。

数据挖掘算法实践与案例详解

作者:丁兆云 沈大勇 徐伟 周鋆

ISBN: 978-7-111-76069-6

该书从实践的角度,以案例为牵引,介绍数据挖掘的流程、常用的模型和算法等,并给出代码实现。内容包括数据挖掘的定义和分类、数据分类、特征选择、数据清洗、数据转换、数据降维、不平衡数据分类、回归分析、聚类、Apriori算法、KNN分类、支持向量机、神经网络分类、集成学习,并给出多个综合案例,帮助读者掌握数据挖掘技术。

本书案例丰富、可操作性强,适合作为高校数据挖掘相关课程的教材或实践教材,也适合作为相关技术人员的参考书。

主要特色

以实践为目标,系统介绍数据挖掘的流程,并给出代码实现。内容涵盖数据清洗、数据转换、数据降维、回归分析、聚类、神经网络分类等常用的数据挖掘技术和方法,使读者能够利用Python编程来解决基本的数据挖掘问题。

本书提供了丰富的案例,规模由小到大,帮助读者循序渐进地掌握各类数据挖掘模型和算法。掌握这些案例后,读者可以举一反三,进一步解决更复杂、更大规模的问题。

在总结数据挖掘实践的基础上在中国大学MOOC上开设了“数据挖掘”MOOC课程(https://www.icourse163.org/course/NUDT-1461782176),并在头歌平台上开设了“数据挖掘”实验课程(https://www.educoder.net/paths/4153),读者可通过在线视频课程的学习、作业训练与编程实践加深对数据挖掘知识点的理解,提高运用能力。

目  录

上下滑动查看

前言

第1章 绪论  1

1.1 数据挖掘技术的由来  1

1.2 数据挖掘的分类  2

1.2.1 关联规则挖掘  2

1.2.2 监督式机器学习  3

1.2.3 非监督式机器学习  4

1.3 Python的安装步骤  5

1.3.1 Python环境的配置  5

1.3.2 PyCharm的安装  7

1.4 常见的数据集  10

1.4.1 鸢尾花数据集  10

1.4.2 员工离职预测数据集  11

1.4.3 泰坦尼克号灾难预测数据集  12

1.4.4 PM2.5空气质量预测数据集  13

1.5 本章小结  13

第2章 分类  14

2.1 分类的概念  14

2.2 分类中的训练集与测试集  14

2.3 分类的过程及验证方法  15

2.3.1 准确率  15

2.3.2 k折交叉验证  16

2.4 贝叶斯分类的编程实践  17

2.4.1 鸢尾花数据集的贝叶斯分类  17

2.4.2 基于贝叶斯分类的员工离职

预测  17

2.5 本章小结  19

第3章 数据的特征选择  20

3.1 直方图  20

3.1.1 直方图可视化  20

3.1.2 直方图特征选择  23

3.2 直方图与柱状图的差异  24

3.3 特征选择实践  26

3.4 本章小结  29

第4章 数据预处理之数据清洗  30

4.1 案例概述  30

4.2 缺失值处理  31

4.2.1 缺失值处理概述  31

4.2.2 缺失值处理实例  32

4.3 噪声数据处理  32

4.3.1 正态分布噪声数据检测  32

4.3.2 用箱线图检测噪声数据  34

4.4 数据预处理案例实践  35

4.4.1 问题  35

4.4.2 解决方法  35

4.4.3 实践结论  37

4.5 本章小结  38

第5章 数据预处理之转换  39

5.1 数据的数值化处理  39

5.1.1 顺序编码  39

5.1.2 二进制编码  40

5.2 数据规范化  42

5.2.1 最小–最大规范化  42

5.2.2 z分数规范化  43

5.2.3 小数定标规范化  43

5.3 本章小结  43

第6章 数据预处理之数据降维  44

6.1 散点图可视化分析  44

6.2 主成分分析  46

6.3 本章小结  49

第7章 不平衡数据分类  50

7.1 不平衡数据分类问题的特征  50

7.1.1 数据稀缺问题  50

7.1.2 噪声问题  51

7.1.3 决策面偏移问题  51

7.1.4 评价标准问题  51

7.2 重采样方法  51

7.2.1 上采样  52

7.2.2 对上采样方法的改进  53

7.2.3 下采样  58

7.2.4 对下采样方法的改进  60

7.2.5 不平衡问题的其他处理方式  65

7.3 不平衡数据分类实践  65

7.4 本章小结  66

第8章 回归分析  67

8.1 线性回归  67

8.1.1 一元线性回归  67

8.1.2 多元线性回归  69

8.2 回归分析检测  71

8.2.1 正态分布可能性检测  71

8.2.2 线性分布可能性检测  72

8.2.3 log转换后的分布  73

8.3 回归预测案例实践  74

8.3.1 案例背景  74

8.3.2 代码实现  74

8.4 本章小结  82

第9章 聚类分析  83

9.1 k均值聚类  83

9.1.1 算法的步骤  83

9.1.2 代码实现  83

9.2 层次聚类  84

9.2.1 算法的步骤  84

9.2.2 代码实现  85

9.3 密度聚类  85

9.3.1 算法的步骤  85

9.3.2 代码实现  86

9.4 本章小结  88

第10章 关联分析  90

10.1 Apriori算法  90

10.2 关联分析案例实践  92

10.2.1 案例背景  92

10.2.2 案例的数据集  93

10.2.3 代码实现  93

10.2.4 运行结果  93

10.3 提升Apriori算法性能的方法  95

10.4 本章小结  95

第11章 KNN分类  96

11.1 KNN算法的步骤  96

11.2 KNeighborsClassifier函数  97

11.3 KNN的代码实现  98

11.4 结果分析  98

11.5 KNN案例实践  99

11.5.1 案例分析  99

11.5.2 案例实现  100

11.5.3 运行结果  103

11.6 本章小结  104

第12章 支持向量机  105

12.1 支持向量机的可视化分析  105

12.2 SVM的代码实现  108

12.2.1 鸢尾花数据分类  108

12.2.2 新闻文本数据分类  110

12.3 本章小结  111

第13章 神经网络分类  112

13.1 多层人工神经网络  112

13.2 多层人工神经网络的代码实现  113

13.3 神经网络分类案例实践  114

13.3.1 案例背景  114

13.3.2 数据说明  114

13.3.3 代码实现  115

13.4 本章小结  120

第14章 集成学习  121

14.1 Bagging方法  121

14.2 随机森林  123

14.3 Adaboost  125

14.4 GBDT  127

14.4.1 GradientBoostingClassifier

函数  130

14.4.2 GradientBoostingRegressor

函数  130

14.5 XGBoost  131

14.5.1 XGBClassifier函数  131

14.5.2 XGBRegressor函数  131

14.6 房价预测案例实践  132

14.7 点击欺骗预测案例实践  136

14.7.1 案例背景  136

14.7.2 数据分析  136

14.7.3 模型优化  141

14.8 本章小结  142

第15章 综合案例实践  143

15.1 员工离职预测综合案例  143

15.1.1 数据总览  143

15.1.2 数据预处理  144

15.1.3 模型构建与比较  147

15.2 二手车交易价格预测综合

案例  148

15.2.1 数据集简介  148

15.2.2 数据总览  149

15.2.3 数据预处理  150

15.2.4 查看变量分布  151

15.2.5 查看变量间的关系  154

15.2.6 查看变量间的分布关系  157

15.2.7 分析汽车注册月份与价格的

关系  157

15.2.8 特征工程  158

15.2.9 模型构建与训练  160

15.3 信息抽取综合案例  161

15.3.1 案例背景  161

15.3.2 数据集简介  165

15.3.3 模型的构建与训练  165

15.3.4 模型评价  168

15.4 学术网络节点分类  169

15.4.1 数据集简介  169

15.4.2 数据总览  170

15.4.3 模型构建  171

15.4.4 配置参数  172

15.4.5 训练数据  173

15.4.6 模型评价  174

识别下方二维码

欢迎讲授相关课程老师申请样书

有机会免费获得!

温馨提示:点击文中封面可购买,链接仅供参考。

撰稿:周睿

                                                       审核:朱劼