Tools for Data Science(数据科学工具)

上课时间与地点:

2023年春季学期:星期三晚上(12-13节)19:20-21:00,沙河学院第二教学楼203

教学大纲 (PDF)

课程简介

数据科学工具课程是中央财经大学核心通识课程,计划为面向我校二年级及以上对数据科学感兴趣的本科生开设的一门现代数据科学相关工具的通识核心课程,所属通识课模块为“科学、技术与环境”。本课程设计模块较为独立,要求学生有基本的Python编程基础,有一定的前期计算机课程如《程序设计》的学习能够帮助学生较为快速的熟悉和掌握课程内容。

该课程的主要内容涵盖数据科学分析的基本工具并体现现代数据分析的基本思路。本课程首先从企业大数据实例出发,使学生更好的理解大数据环境下数据处理的特点以及学习大数据技术的必要性。然后该课程介绍实际应用中的大数据平台基础,授课内容主要包括:Linux系统中的命令行、Python基础、基于Python的网络数据抓取、基于Python的自然语言处理、非结构化数据分析、海量数据并行计算、Hadoop分布式存储与计算。课程最后以案例分析的形式总结数据科学工具平台在实际问题中的应用。

数据科学工具课程是一门基于计算机编程处理复杂数据的工具性课程,其教学内容按照性质包括程序设计、数据科学案例、和应用三个方面,我们采取课堂教学、案例教学、和互动编程三个教学方式相互结合的方式开展。

本课程是一门以应用和实践为主的课程,其考核方式将主要结合平时上机作业加期末考核为主。平时上机实践是学生顺利完成学习目标的必要手段,平时作业占50%。期末考核点为学生是否能够利用已学数据科学工具独立完成数据分析案例分析报告(自由选题)。合格的期末报告应体现学生对一手数据的独立获取能力和探索复杂数据价值的能力。期末报告占40%,平时出勤及课堂表现占10%。

课程讲义

第一部分:数据科学平台与协作

李丰博士任职于中央财经大学 统计与数学学院,副教授。本科毕业于中国人民大学,博士毕业于瑞典斯德哥尔摩大学,研究领域包括贝叶斯统计学,预测方法,大数据分布式学习等。曾获瑞典皇家统计学会 Cramér 奖,国际贝叶斯学会青年奖励基金, 第二届全国高校经管类实验教学案例大赛二等奖。主持和参与多项国家自然科学基金项目。

李丰博士最新研究成果发表在统计期刊 Journal of Computational and Graphical Statistics, Journal of Business and Economic Statistics, Statistical Analysis and Data Mining,经济与管理学期刊 International Journal of Forecasting, Journal of Business Research, 运筹学期刊European Journal of Operational Research, Journal of the Operational Research Society, 人工智能期刊 Expert Systems with Applications, 医学期刊 BMJ Open, Journal of Surgical Research, Journal of Affective Disorders等。同时著有 Bayesian Modeling of Conditional Densities,《大数据分布式计算与案例》和《统计计算》。

课程负责人主持的教改相关课题包括中央财经大学2014教学方法研究项目:以社会需求为导向的大数据分析能力教学方法研究,获2015年持续资助,已结项。中央财经大学2015年专业学位研究生案例集建设项目:应用统计教学案例精选,课题编号AL20150007,已结项。

其中项目负责人在“中央财经大学2014教学方法研究”项目中组建并维护数据科学计算所需的高性能计算环境,该环境配备完善的Linux系统、数据科学工具语言Python、机器学习算法、大数据分布式存储平台HDFS和分布式数据库HIVE、分布式计算平台Hadoop、数据科学分布式开发环境。该计算环境经过三年的运行,目前性能稳定,可以提供项目所需数据计算需求。在“2015年专业学位研究生案例集建设”项目中,项目负责人组织的案例参加国务院学位办全国应用统计专业学位研究生教育指导委员会、应用统计专业学位研究生教育指导委员会主办的全国应用统计专业硕士案例大赛共获得二等奖一项,三等奖六项,占总获奖数10%,居全国前列。案例指导老师所在的“统计与数学学院学科竞赛指导团队”获中央财经大学2016年度“特殊贡献奖”。