咨询热线:021-6073 7069



2017年8月7日-13日,上海睿亚训第一批产学合作协同育人项目的中的部分师资合作项目院校在睿亚训的支持下参加了第6期全国高校大数据课程教师培训交流班。

此次培训采用小班制,提供授课方法、课程资源、实验平台等全方位、高品质、一站式培训服务,旨在为高校教师在短期内顺利开设大数据处理技术Spark课程铺平道路。来自全国20余所高校的30余位从事大数据教学和管理工作的老师参加了培训。

大数据时代已经开启,迫切需要在全国高校加快推广和普及大数据课程,让高校更好地承担起为社会输送大批合格大数据人才的重任。此次培训交流班为全国高校从事大数据教学和管理工作的教师搭建了互动交流和经验分享的平台,将对全国高校大数据课程的推广普及和体系化建设产生重要而深远的影响。

训内容:

模块一:大数据概述

l 大数据时代

l 大数据概念

l 大数据的影响

l 大数据关键技术

l 大数据计算模式

l 代表性大数据技术

 

模块二:Scala语言基础

l Scala语言概述

l Scala基础

l 类、对象、继承、特质、模式匹配

 

模块三:Scala语言基础

l 函数定义和高阶函数

l 针对集合的操作

l 遍历操作、map操作和flatMap操作、filter操作、reduce操作、fold操作

l 函数式编程实例WordCount

 

模块四:Spark设计与运行原理

l Spark简介、Spark运行架构

l RDD的设计与运行原理

l Spark的部署模式

 

模块五:Spark安装和使用方法

l Spark的安装与使用

l 第一个Spark应用程序:WordCount

l 使用开发工具Intellij idea和Eclipse编写Spark应用程序

l Spark集群环境搭建

l 在集群上运行Spark应用程序


模块六:RDD编程

l RDD编程

l 键值对RDD

l 共享变量

l 数据读写(文件数据读写、读写HBase数据)


模块七:RDD编程实战案例

l 案例:求值

l 案例:求最大最小值

l 案例:文件排序

l 案例:二次排序

l 案例:连接操作


模块八:Spark SQL原理和实践

l Spark SQL简介

l DataFrame与RDD的区别

l DataFrame的创建

l 从RDD转换得到DataFrame

l 读取和保存数据(读写Parquet、通过JDBC连接数据库、连接Hive读写数据)


模块九:Spark Streaming原理和实践

l 流计算简介

l Spark Streaming简介

l DStream操作概述

l 输入源(文件流、套接字流、RDD队列流、Apache Kafka、Apache Flume)

l 转换操作(DStream无状态转换操作、DStream有状态转换操作)

l 输出操作(把DStream输出到文本文件中、把DStream写入到MySQL数据库中)


模块十:Spark MLlib实践

l Spark MLlib简介

l 机器学习工作流(机器学习工作流、构建一个机器学习工作流、特征抽取、转化和选择[TF-IDF、Word2Vec、CountVectorizer、标签和索引的转化、卡方选择器])

l 分类与回归(逻辑斯蒂回归分类器、决策树分类器)

l 聚类算法(KMeans聚类算法、高斯混合模型(GMM)聚类算法)

l 推荐算法(协同过滤算法)

 

培训的收获:

1、多种形式的学习,提高了理论水平。

年轻的高校教师在大数据方面有一定的理论知识,但可能不够系统也不够丰富。通过培训老师深入浅出的讲授,感觉豁然开朗,很多问题从理论上找到了依据,对原来在工作实践中觉得不好解决的棘手问题找到了切入点。

2、不同地域的学习,开阔了视野

这次培训老师来自于厦门大学,贵阳师范大学还有公司的各个专家教授,现场的参与培训的老师接受大数据高端教育的机会,开阔了眼界,丰富了知识,打开了思路,对大数据理念有了进一步的认识。

3、案例的分析,理清了思路

这次培训列举了很多大数据的案例,通过案例分析,让培训参与者更加认清了大数据的本质所在,在编程的时候更容易发现问题和解决问题,思路更清晰。

这次培训无论是课堂学习还是课后讨论,是师生互动还是所见所闻,从每个角度获得了大数据知识、学习的机会,锻炼编程能力。所学到的知识可以应用于实际教学工作中,真正的提高了大数据课程的教学质量。