《数据挖掘与大数据分析》是一门多领域交叉学科,涉及概率论、统计学、信息论、逼近论、凸分析、算法复杂度理论等多门学科。
机器学习是《数据挖掘与大数据分析》最为核心的内容,它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是使计算机具有智能的根本途径。它的应用已遍及人工智能的各个分支,如专家系统、自动推理、自然语言理解、模式识别、计算机视觉、智能机器人等领域。
本课程以监督学习算法为主要教学内容,以生成方法、判别方法、神经网络为主线,介绍机器学习中非常基础但是却非常重要一些算法,算法包括:线性回归、局部加权线性回归、逻辑回归、glms模型、sortmax回归、岭回归、lasso回归、决策树(id3、c4.5)、knn算法、单层感知机等。
周次 | 主要讲授内容 | |
1 | 1、数据挖掘的基本概念 2、监督学习和无监督学习 3、分类和回归 4、线性回归的数学原理 5、使用python实现线性回归算法 6、使用scikit-learn实现线性回归算法 7、使用madlib实现线性回归算法 | |
2 | 1、局部加权线性回归的数学原理 2、使用python实现线性回归算法 3、使用scikit-learn实现线性回归算法 4、使用madlib实现线性回归算法 5、综合案例:基于线性回归的汽车价格预测 | |
3 | 1、逻辑回归的数学原理 2、使用python实现逻辑回归算法 3、使用scikit-learn实现逻辑回归算法 4、使用madlib实现线性回归算法 5、综合案例:从疝气病症预测病马的死亡率 | |
4 | 1、指数分布族 2、广义线性回归glms的数学原理 3、softmax回归算法的数学原理 4、使用python实现softmax回归算法 5、使用scikit-learn实现softmax回归算法 6、使用madlib实现softmax回归算法 | |
6 | 1、岭回归的数学原理 2、使用python实现岭回归算法 3、使用scikit-learn实现岭回归算法 4、使用madlib实现岭回归算法 5、lasso回归的数学原理 6、使用python实现lasso回归算法 7、使用scikit-learn实现lasso回归算法 8、使用madlib实现lasso回归算法 6、综合案例:预测乐高玩具套装的价格 7、综合案例:使用lasso回归选取财政收入预测 | |
7 | 1、判别模型和生成模型 2、gda模型的数学原理 3、使用python实现gda回归算法 4、使用scikit-learn实现gda回归算法 5、使用madlib实现gda回归算法 | |
11 | 1、朴素贝叶斯算法的数学原理 2、使用python实现朴素贝叶斯算法 3、使用scikit-learn实现朴素贝叶斯算法 4、使用madlib实现朴素贝叶斯算法 5、综合案例:基于朴素贝叶斯的垃圾邮件过滤 6、综合案例:使用朴素贝叶斯分类器从个人广告中获取区域倾向 | |
12 | 1、决策树算法的基本原理 2、使用python实现c4.5算法 3、使用scikit-learn实现c4.5算法 4、使用madlib实现c4.5算法 5、综合案例:使用决策树预测隐性眼镜的类型 | |
13 | 1、knn算法的基本原理 2、使用python实现knn算法 3、使用scikit-learn实现knn算法 4、使用madlib实现knn算法 5、综合案例:使用knn算法改进约会网站的配对效果 6、综合案例:手写识别系统 7、综合案例:基于knn和决策树算法的多模型手机价格预测 8、综合案例:基于knn和决策树算法的电信客户流失分析与预测 | |
14 | 期末考试 |