Tools for Data Science (2019 Spring)

中央财经大学核心通识课程

上课时间与地点:

周三晚上(12-13节)19:20-21:00,沙河主教105

教学大纲 (PDF)

课程简介

数据科学工具课程是计划为面向我校二年级及以上对数据科学感兴趣的本科生开设的一门现代数据科学相关工具的通识核心课程,所属通识课模块为“科学、技术与环境”。本课程设计模块较为独立,要求学生有基本的Python编程基础,有一定的前期计算机课程如《程序设计》的学习能够帮助学生较为快速的熟悉和掌握课程内容。

该课程的主要内容涵盖数据科学分析的基本工具并体现现代数据分析的基本思路。本课程首先从企业大数据实例出发,使学生更好的理解大数据环境下数据处理的特点以及学习大数据技术的必要性。然后该课程介绍实际应用中的大数据平台基础,授课内容主要包括:Linux系统中的命令行、Python基础、基于Python的网络数据抓取、基于Python的自然语言处理、非结构化数据分析、海量数据并行计算、Hadoop分布式存储与计算。课程最后以案例分析的形式总结数据科学工具平台在实际问题中的应用。

数据科学工具课程是一门基于计算机编程处理复杂数据的工具性课程,其教学内容按照性质包括程序设计、数据科学案例、和应用三个方面,我们采取课堂教学、案例教学、和互动编程三个教学方式相互结合的方式开展。

本课程是一门以应用和实践为主的课程,其考核方式将主要结合平时上机作业加期末考核为主。平时上机实践是学生顺利完成学习目标的必要手段,平时作业占50%。期末考核点为学生是否能够利用已学数据科学工具独立完成数据分析案例分析报告(自由选题)。合格的期末报告应体现学生对一手数据的独立获取能力和探索复杂数据价值的能力。期末报告占40%,平时出勤及课堂表现占10%。

课程讲义

任课教师简介

李丰,中央财经大学统计与数学学院副院长,大数据分析专业硕士导师,中国统计教育学会高等教育分会会副秘书长。博士毕业于瑞典斯德哥尔摩大学,研究领域包括贝叶斯计算,统计预测,多元Copula模型等。曾获瑞典皇家统计学会 Cramér 奖,国际贝叶斯学会青年奖励基金, 瑞典 Knut & Alice Wallenberg 基金奖励,第二届全国高校经管类实验教学案例大赛二等奖。著有《Bayesian Modeling of Conditional Densities》和《大数据分布式计算与案例》,在International Journal of ForecastingScandinavian Journal of StatisticsJournal of Statistical Planning and InferenceBMJ Open等期刊发表多篇学术论文。

课程负责人主持的教改相关课题包括中央财经大学2014教学方法研究项目:以社会需求为导向的大数据分析能力教学方法研究,获2015年持续资助,已结项。中央财经大学2015年专业学位研究生案例集建设项目:应用统计教学案例精选,课题编号AL20150007,已结项。

其中项目负责人在“中央财经大学2014教学方法研究”项目中组建并维护数据科学计算所需的高性能计算环境,该环境配备完善的Linux系统、数据科学工具语言Python、机器学习算法、大数据分布式存储平台HDFS和分布式数据库HIVE、分布式计算平台Hadoop、数据科学分布式开发环境。该计算环境经过三年的运行,目前性能稳定,可以提供项目所需数据计算需求。在“2015年专业学位研究生案例集建设”项目中,项目负责人组织的案例参加国务院学位办全国应用统计专业学位研究生教育指导委员会、应用统计专业学位研究生教育指导委员会主办的全国应用统计专业硕士案例大赛共获得二等奖一项,三等奖六项,占总获奖数10%,居全国前列。案例指导老师所在的“统计与数学学院学科竞赛指导团队”获中央财经大学2016年度“特殊贡献奖”。