随着互联网、移动互联网、社交网络、物联网、云计算等新一代信息技术的应用和推广,人类产生的数据成倍增长,数据种类繁多,数据在宽带网络中高速流动,数据的待开发价值越来越大,毫无疑问,我们已经进入了大数据(massive datasets)时代。
大数据分析是指对规模巨大的数据进行分析,通常被理解为将网络中现有的数据转化为知识,帮助用户做出明智的业务决策的工具。实时大数据分析是指对大数据高效、快速地完成分析,达到近似实时的效果,更及时的反映数据的价值和意义。
本课程详细介绍了支持大规模数据挖掘的分布式文件系统及mapreduce分布式计算框架,以及大数据分析的基本概念、方法、理论体系。实时大数据分析的经典算法、应用技术、工具及目前面临的挑战会被重点讲述。