教学体系A

1、《大数据分析A》(60700033,3学分,春秋季学期)

1.课程与R 软件简介,使用R 进行探索性数据分析

R 语言的缘起与发展、R 软件下载与安装、R 语言教学与基础编程

2.应用R 语言实现数据可视化

3.线性回归模型

线性相关、线性回归模型、Logistic 回归

4.非线性回归模型

多项式回归、阶跃函数、基函数、回归样条

5.多层次、纵贯性数据分析 (Multilevel and Longitudinal Models)

多层次数据特征及其统计问题、纵贯性数据特征及其统计问题、多层次模型介绍、动态多层次模型、lmer R 软件包的使用、实例和操作

6.社科理论引导下大数据研究的方法论(take-home test 1)

7.数据挖掘概述

数据挖掘的定义和任务,数据挖掘基本方法:分类、聚类、关联规则发现、序列模式发现、回归、偏差检测,数据挖掘的方法论,数据挖掘与数据库存

8.机器学习概论

贝叶斯方法、监督学习(分类、回归、支持向量机)、非监督学习(密度估计、聚类、降维)

9.统计学习中的再抽样与正则化

统计学习概论、再抽样方法、正则化

10.大数据传播学

新媒体、网络舆论、中美博弈

11.量化历史分析

量化历史、比较历史分析、Google 百万书籍数据库、时间序列分析

12.文本挖掘和情感分析1(Text Mining and Sentiment Analysis)

文本挖掘和情感分析的必要性和价值,原理、类型和一般步骤,文本挖掘和情感分析的工具介绍,文本挖掘工具与社科研究范式的变化,文本数据驱动的研究案例,情感分析的微博微信应用、情感分析和文本挖掘的相关性分析、情感分析和文本挖掘工具的未来发展

13.文本挖掘和情感分析2

政治、法律与社会文本数据的挖掘与分析,机器学习与自动文本分析的模式选择,主题模型,结构主题模型,文本统计学,网络实验与文本挖掘,研究案例

14.大数据中的社会网分析(Social Network Analysis)

社会网络分析的概念化与测量(距离、连带强度、结构洞)、小世界现象、六度分割与三度影响力、信息和行为的扩散、门槛模型

2、《大数据分析B》(60240103,3学分,秋季学期)

(1)大数据分析与处理概况:数据科学发展情况;大数据的时代背景及其重要性;大数据分析与处理的典型应用。

(2)数据统计分析的数学基础:数据统计知识回顾;多维数据分布;数据采样;主成份分析与因子分析;假设检验;线性相关与回归;非线性回归;方差分析;P-Value。

(3)大数据的分析与处理方法:时间序列分析;动态贝叶斯网络;矩阵分解理论;无参学习;大规模数据上的模型应用。

(4)大数据的分布式处理与并行计算:HDFS与HBASE;MapReduce并行计算;基于MapReduce的数据分析与智能处理方法的并行化; 深度学习框架,如TensorFlow。

(5)大数据分析与处理前沿:社交媒体大数据分析与处理;城市交通大数据分析与处理;金融大数据分析与处理;医疗大数据分析与处理。

3、《大数据系统基础A》(60470013,3学分,秋季学期)

1.绪论:大数据、大数据生命周期、大数据软件栈

2.文件存储:分布式存储、GFS、HDFS

3.计算框架:基于硬盘的分布计算框架MapReduce

4.非结构化存储:典型KV存储Cassandra

5.实践:系统实践

6.内存计算:基于内存的分布计算引擎Spark、HANA

7.流计算:Storm原理及其体系结构等

8.数据导入:ETL、Sqoop、Flume、Kafka

9.时序数据:时序数据库OpenTSDB、IoTDB

10.图数据:图数据管理分析技术、系统

11.机器学习:参数服务器Parameter Server

12.系统安全:大数据系统安全

4、《大数据系统基础B》(64100033,3学分,秋季学期)

1.绪论:大数据、大数据生命周期、大数据软件栈

2.文件存储:分布式存储、GFS、HDFS

3.计算框架:基于硬盘的分布计算框架MapReduce

4.非结构化存储:典型KV存储Cassandra

5.实践:系统实践

6.内存计算:基于内存的分布计算引擎Spark、HANA

7.流计算:Storm原理及其体系结构等

8.数据导入:ETL、Sqoop、Flume、Kafka

9.时序数据:时序数据库OpenTSDB、IoTDB

10.图数据:图数据管理分析技术、系统

11.机器学习:参数服务器Parameter Server

12.系统安全:大数据系统安全

5、《数据伦理》(60250121,1学分,春季学期)

1.从新冠病毒疫情谈起——认识职业伦理

2.从维纳到霍金?——CPS社会风险与信息伦理基本价值观

3.何处是终点?——过程:技术是“双刃”的

4.大数据时代为何处处“裸奔”?——技术与管理:数字身份、隐私保护

5.我的数据谁做主?——法治:大数据/信息权利保护

6.未来社会与公共治理——科技向善的智慧社会图景

7.算法如何守“道德”?——深度学习AI面临的伦理挑战

8.做负责任的创新者——数据伦理思考与行动

6、《大数据分析与处理》(80240632,2学分,春季学期)

(1)大数据分析与处理概况:数据科学介绍;大数据挑战与科学问与题;大数据分析与处理的方法。

(2)数据统计分析的数学基础:数据统计知识回顾;数据采样;假设检验;回归分析;方差分析。

(3)大数据的分析方法:数据表征;矩阵分解理论;机器学习;深度学习;贝叶斯网络;在线学习;强化学习;图表征学习。

(4)大数据系统与平台:MapReduce分布并行计算;Hadoop;TensorFlow;PyTorch。

(5)大数据智能:大数据分析前沿与应用;人工智能;大数据智能。

7、《大数据管理与创新》(60510202,2学分,春季学期)

1.Introduction and Data-driven Marketing

2.Data-driven Marketing I: Prospecting and Targeting the Right Customers

3.Data-driven Marketing II: Developing Customers

4.Data-driven Marketing III: Retaining Customers

5.Marketing in the Era of Big Data

6.Operation Management in the Era of Big Data

7.E-commerce in the Era of Big Data

8.Innovation in the Era of Big Data

8、《大数据治理与政策》(80591342,2学分,春季学期)

第一讲 大数据:新的治理命题

1.1课程导论

1.2依靠大数据改善治理

1.3对大数据本身的治理

1.4治理面临的技术环境变化

1.5大数据治理的功能和价值

1.6大数据重塑治理范式和路径


第二讲 政务数据的整合与共享

2.1本讲引言

2.2大数据的根本问题(一):数据在哪里?

2.3大数据的根本问题(二):如何整合起来?

2.4大数据的根本问题(三):整合起来如何用?

2.5政务数据及整合共享现状

2.6跨部门政务数据整合与共享

2.7跨层级政务数据整合与共享

2.8数据整合中的权属问题


第三讲 大数据国家战略与政策体系

3.1大数据上升为国家战略的意义

3.2国际比较(一):基本情况

3.3国际比较(二):目标和重点领域

3.4国际比较(三):人才培养

3.5国际比较(四):项目试点

3.6中国大数据(一):国家战略层面

3.7中国大数据(二):政策规划层面

3.8中国大数据(三):区域发展层面

3.9本章总结


第四讲 政府数据开放的意义、挑战与路径

4.1数据开放提升政府监督

4.2数据开放增进公民参与

4.3数据开放改善公共服务

4.4数据开放激发市场活力

4.5开放数据呼唤新的治理模式

4.6什么是真正的数据开放

4.7地方数据开放现状与改进意见


第五讲 数据隐私保护政策

5.1大数据与信息边界的研究

5.2大数据隐私问题

5.3大数据带来的安全挑战

5.4数据权与数据资产化

5.5数据隐私政策与立法


第六讲 正常信息学:大数据支撑政府决策

6.1数据爆炸带来哪些挑战

6.2大数据助力政策分析与政府管理创新

6.3政策信息学的概念

6.4政策信息学研究介绍与案例

6.5总结与展望


第七讲 地方大数据治理实践:以贵州省为例

7.1贵州为什么要发展大数据

7.2贵州凭什么能发展大数据

7.3贵州如何发展大数据

7.4贵州大数据:顶层设计

7.5贵州大数据:三大业态

7.6贵州大数据:四个中心

7.7贵州大数据:系统平台

7.8贵州大数据:“聚、通、用”

7.9贵州大数据:改善民生

7.10贵州大数据:产业发展

7.11贵州大数据:制度创新

7.12本章总结


9、《量化金融信用与风控分析》(80470193,3学分,春季学期)

第一讲:金融信用行业概况

第二讲:数据特性与评估标准

第三讲:数据采集与特征提取

第四讲:信用和欺诈的标注

第五讲:信用和欺诈模型的搭建1

第六讲:信用和欺诈模型的搭建2

第七讲:黑色产业链-安全假设的层层突破

第八讲:异常分析(1)-无监督学习和异常检测算法

第九讲:异常分析(2)-从运营到系统应用

第十讲:基于图的检测方法

第十一讲:行业案例:

第十二讲:行业案例:信用评估

第十三讲:行业案例:黑产体系

第十四讲:行业案例:黑产体系

10、《数据分析与优化建模》(80700973,3学分,春季学期)

        教学大纲:

第一讲- 数据科学概论

第二讲- 描述性统计学

第三讲- SAS编程1

第四讲- SAS上机课

第五讲- SAS编程2

第六讲- SAS宏

第七讲- 推断性统计

第八讲- 方差分析

第九讲- 相关与回归分析

第十讲- 逻辑回归分析

第十一讲- 聚类与判别分析

第十二讲- 主成分与因子分析

第十三讲- 时间序列分析

第十四讲- 优化建模

11、《数字经济环境下的企业家创新能力》(Y4100091,1学分,夏季学期)

1.Evolution of Digital Economy:

  Agriculture Economy

  Industrial Economy

  Internet Economy

  Knowledge Economy

2.Digital Economy: Challenges & Opportunities:

  Innovating Manufacturing

  Innovating Healthcare

  Innovating Financial Services

  Innovating Mobile Commerce

3.Digital Economy: Challenges & Opportunities:

  Innovating Government Services

  Innovating Smart City

  Innovating Agriculture & Food Security

4.Major advances in Digital Technology / Solutions / Services:

  Cloud Computing

  Big data / Data Analytics

  Machine Learning / Artificial Intelligence

5.Major advances in Digital Technology / Solutions / Services:

  Blockchain

  Internet Security

  Application Economy

6.“Technology Innovation” VS. “Business Innovation”

7.Redefining “Career” & “Success”

8.Innovation Education & Entrepreneurships

9.Innovating Global Ecosystem: Industry, Academia, Government partnership

10.Group Presentations

12、《政务大数据应用与分析》(80700673,3学分,秋季学期)

第一部分:政务大数据应用与分析基础

  第一讲:课程介绍

  第二讲:政务大数据概览与研究设计

  第三讲:统计学回顾

第二部分:大数据分析方法

  第四讲:因果推论:倾向值匹配和工具变量法

  第五讲:面板数据分析

  第六讲:持续期分析

  第七讲:文本分析基础

  第八讲:文本分析高级

  第九讲:实践与报告

第三部分:大数据分析中的因果推论

  第十讲:数据可视化

  第十一讲:社会网络分析

  第十二讲:数据挖掘与机器学习

  第十三讲:空间描述分析

  第十四讲:空间因果分析

  第十五讲:大数据与小数据/实验研究的结合