上课时间与地点
2023年春季学期:星期三晚上(12-13节)19:20-21:00,沙河学院第二教学楼203
教学大纲 (PDF)
课程简介
数据科学工具课程是中央财经大学核心通识课程,计划为面向我校二年级及以上对数据科学感兴趣的本科生开设的一门现代数据科学相关工具的通识核心课程,所属通识课模块为“科学、技术与环境”。本课程设计模块较为独立,要求学生有基本的Python编程基础,有一定的前期计算机课程如《程序设计》的学习能够帮助学生较为快速的熟悉和掌握课程内容。
该课程的主要内容涵盖数据科学分析的基本工具并体现现代数据分析的基本思路。本课程首先从企业大数据实例出发,使学生更好的理解大数据环境下数据处理的特点以及学习大数据技术的必要性。然后该课程介绍实际应用中的大数据平台基础,授课内容主要包括:Linux系统中的命令行、Python基础、基于Python的网络数据抓取、基于Python的自然语言处理、非结构化数据分析、海量数据并行计算、Hadoop分布式存储与计算。课程最后以案例分析的形式总结数据科学工具平台在实际问题中的应用。
数据科学工具课程是一门基于计算机编程处理复杂数据的工具性课程,其教学内容按照性质包括程序设计、数据科学案例、和应用三个方面,我们采取课堂教学、案例教学、和互动编程三个教学方式相互结合的方式开展。
本课程是一门以应用和实践为主的课程,其考核方式将主要结合平时上机作业加期末考核为主。平时上机实践是学生顺利完成学习目标的必要手段,平时作业占50%。期末考核点为学生是否能够利用已学数据科学工具独立完成数据分析案例分析报告(自由选题)。合格的期末报告应体现学生对一手数据的独立获取能力和探索复杂数据价值的能力。期末报告占40%,平时出勤及课堂表现占10%。
课程讲义
第一部分:数据科学平台与协作
Topics | |
L00-Tools-For-Data-Science | HTML |
L01-Using-Linux-as-a-Data-Scientist | |
L02-Using-Git-for-Data-Science-Projects |
第二部分:数据科学语言(Python)
Jupyter Notebook (鼠标右键点击另存为下载) | Slides and Teaching videos (CN) | MBA program | Statistics, Finance and accounting programs |
---|---|---|---|
L06.1: Python and Texts | Slides Video | ✓ | |
L06.2: Natural Language Processing with Python | Slides Video1 Video2 | ✓ | |
L06.3: Text Feature Extraction | Slides Video | ✓ | |
L06.4: Chinese Text Processing | Slides Video | ✓ | |
L07.1: Web Scraping with Python | Slides Video | ✓ | ✓ |
L07.2: Interactive Scraping with Selenium | Slides Video | ✓ | ✓ |
L08.1: Probabilistic Topic Modelling | Slides Video | ✓ | |
L08.2: Automated ARIMA forecasting with Python | Slides Video | ✓ | ✓ |
任课教师简介
李丰博士(ORCiD: 0000-0002-4248-9778)内蒙古鄂尔多斯人,就职于北京大学光华管理学院,任商务统计与经济计量系副教授、研究员、博士生导师。本科毕业于中国人民大学,博士毕业于瑞典斯德哥尔摩大学,研究领域包括贝叶斯统计学,大规模时间序列预测方法,大数据分布式学习等。曾获瑞典皇家统计学会 Cramér 奖(最佳博士论文),国际贝叶斯学会青年奖励基金, 第二届全国高校经管类实验教学案例大赛二等奖。
李丰博士主持国家社会科学基金一般项目和国家自然科学基金青年项目。他的最新研究成果发表在统计与预测期刊 Journal of Computational and Graphical Statistics, Journal of Business and Economics Statistics (ABS 4), International Journal of Forecasting (ABS 3), 管理运筹期刊 European Journal of Operational Research (ABS 4),金融会计期刊 Contemporary Accounting Research (FT 50), 医学期刊 BMJ Open, Journal of Affective Disorders 等,两篇论文获评 ESI 高被引论文,他同时著有 Bayesian Modeling of Conditional Densities,《大数据分布式计算与案例》和《统计计算》。李丰老师开发适用于大规模时间序预测的开源计算机算法和程序,代码详见 https://github.com/feng-li 。
李丰博士在世界贝叶斯大会,国际预测大会等作过邀请报告。他的报告幻灯片可以从这里下载。
📢📢📢 李丰老师招收统计学专业博士生。同时热忱欢迎优秀校内外优秀学生(①有读博意愿的在读研究生 ②本校大四拟录取直博学生③大三以上学有余力同学)加入研究团队。研究团队为优秀本科生提供每周一对一指导、参与核心科研项目、与国际知名大学合作研究的机会。
课程负责人主持的教改相关课题包括中央财经大学2014教学方法研究项目:以社会需求为导向的大数据分析能力教学方法研究,获2015年持续资助,已结项。中央财经大学2015年专业学位研究生案例集建设项目:应用统计教学案例精选,课题编号AL20150007,已结项。
其中项目负责人在“中央财经大学2014教学方法研究”项目中组建并维护数据科学计算所需的高性能计算环境,该环境配备完善的Linux系统、数据科学工具语言Python、机器学习算法、大数据分布式存储平台HDFS和分布式数据库HIVE、分布式计算平台Hadoop、数据科学分布式开发环境。该计算环境经过三年的运行,目前性能稳定,可以提供项目所需数据计算需求。在“2015年专业学位研究生案例集建设”项目中,项目负责人组织的案例参加国务院学位办全国应用统计专业学位研究生教育指导委员会、应用统计专业学位研究生教育指导委员会主办的全国应用统计专业硕士案例大赛共获得二等奖一项,三等奖六项,占总获奖数10%,居全国前列。案例指导老师所在的“统计与数学学院学科竞赛指导团队”获中央财经大学2016年度“特殊贡献奖”。