for graduate (master) students in computer science major
south campus, gdufs
starting at september 2016
36 study scores in total
scheduled as 16 weeks in total
the book 《mining of massive datasets》 version 2.1 in english, (513 pages, 3.69 mb)
《大数据-互联网大规模数据挖掘与分布式处理》(第2版), 王斌译
related resources:
the book 《mining of massive datasets》 version 1 in english, (340 pages, 2 mb)
the book 《mining of massive datasets》 version 2.1 in english, (513 pages, 3.69 mb)
《mining of massive datasets》, about the book,
《mining of massive datasets》 by jeff ullman, stanford university,
《deep learning for natural language processing》, by richard socher, stanford university,
校历周次 | 内容(章节、知识点) |
第3周 (2 * 40mins) | 课程介绍 (course introduction) |
第1章 基本概念 (basic concept) | |
第4周 (2 * 40mins) | 第2章 mapreduce及新软件栈 (map-reduce and the new software stack) 2.1 分布式文件系统 2.2 mapreduce 2.3 使用mapreduce的算法 - 主流大数据计算平台介绍 2.7 小结 |
第5周 (2 * 40mins) | 第3章 相似性发现 (finding similar items) 3.1 紧邻搜索的应用 3.2 文档的shingling 3.3 保持相似度的集合摘要表示 3.4 文档的局部敏感哈希算法 3.5 距离测度 3.6 局部敏感函数理论 3.10 小结 |
第6周 (2 * 40mins) | project 介绍 |
第7周 (2 * 40mins) | 第7章 聚类 (clustering) 7.1 聚类技术介绍 7.2 层次聚类 7.3 k-均值算法 |
第8周 (2 * 40mins) | 第7章 聚类 (clustering) 7.4 cure算法 7.5 非欧空间下的聚类 7.6 流聚类及并行化 7.7 小结 |
第9周 (3 * 40mins) | 第9章 推荐系统 9.1 推荐系统的模型 9.2 基于内容的推荐 9.3 协同过滤 |
第10周 (3 * 40mins) | 第9章 推荐系统 9.4 降维处理 9.5 netflix竞赛 9.6 小结 |
project 进度检查 | |
第11周 (3 * 40mins) | introduction to deep learning |
第12周 (3 * 40mins) | deep learning for nlp (1) |
第13周 (2 * 40mins) | deep learning for nlp (2) |
第14周 (2 * 40mins) | simple word vector representations word2vec, glove |
第15周 (2 * 40mins) | advanced word vector representations language models, softmax, single layer networks |
第16周 (2 * 40mins) | cntk - computational network toolkit for deep learning |
第17周 (2 * 40mins) | project检查 |
第18周 (2 * 40mins) | project答辩 |