咨询热线:021-6073 7069

数据科学与大数据实验室

基于云计算架构的生产实践创新型数据科学与大数据实训实验室为高校数据科学与大数据专业提供完整的实验平台,帮助高校快速建立数据科学与大数据

专业教学资源以及实训、教学科研环境,满足课程实验、课程设计、实习实训、科研训练等多方面需求,帮助学生更好地学习课程内容,提高学生动手能力,激发学生学习兴趣。

大数据实验室-培养目标

通过建设大数据实验室,可进行大数据领域的专业人才培养,如大数据科学家,大数据工程师以及统计分析师。
  • 数据科学家

运用数据分析和计算机处理能力从海量数据中提取有价值的信息

  • 数据工程师

搭建应用层和平台层之间的数据通道,并且负责数据架构

  • 统计分析师

理解统计学原理,并且应用这些原理解决实际问题




大数据实验室-支撑平台


睿亚训数据科学与大数据支撑平台睿亚训数据科学与大数据支撑平台

整个大数据实验室的运行依托于云计算技术,将云计算平台的计算资源与其他平台和各种教学资源整合在一起,向用户提供各种服务。

虚拟桌面云平台:提供底层系统资源,为用户提供桌面模板和桌面实验环境,通过intel高性能2U4服务器提供计算资源、内存资源以及分布式存储资源
云博教学云平台:绑定所有与教学实践相关资源(包括教师信息、学生信息、课程组织、实验内容和实验环境)自动工作
教学资源库平台:对教学资源集中式统一管理,用户可自行创建和修改资源
生产型实践环境管理平台:提供真实的Hadoop与Spark大数据工作环境
学宝客户端:具有良好的交互性,方便教师和学生使用平台和资源
大数据教学一体机:提供软硬件一体化的解决方案,用户插电即用

  • 大数据实验室-教学资源


  • 关于大数据实验室承载的教学资源,睿亚训针对不同院校拟定了不同的方案。


方案一:适用于开设大数据课程的院校

本课程配套:教学大纲、讲义PPT、教学视频、备课指南、实践案例、实践指南

(1)配套教材

  • 数据科学与大数据配套教材


  • 睿亚训特聘大数据首席科学家

  • 厦门大学计算机科学系林子雨博士 编著

  • 人民邮电出版社 2017年 2月版

  • 书号:9787115443304


(2)课程内容

技术领域知识点内容
大数据基础
大数据概念与影响数据量大、数据类型多、处理速度快、价值密度低、科学研究、思维方式、社会发展、就业市场、人才培养
大数据应用与产业互联网、生物医学、物流、其他领域、IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层
大数据处理架构HadoopHadoop特性、Hadoop项目结构、Hadoop的安装与使用、Hadoop集群的部署与使用
大数据与云计算、物联网的关系云计算概念与关键技术、物联网概念与关键技术、大数据、云计算与物联网相辅相成
大数据关键技术与计算模式数据采集、数据存储与管理、数据处理与分析、数据隐私与安全、批处理计算、流计算、图计算、查询分析计算
大数据存储
分布式文件系统HDFSHDFS体系结构、HDFS存储原理、HDFS读写过程、HDFS编程实践/td>
分布式数据库HbaseHBase访问接口、HBase数据模型、HBase实现原理、HBase运行机制、HBase应用方案、HBase编程实践
数据仓库HiveHive系统架构、Hive工作原理、Hive HA原理、Impala、Hive编程实践
NoSQL数据库NoSQL数据库概念、NoSQL数据库四大类型(键值、列式、文档、图形)、NoSQL数据库三大基石(CAP、BASE、最终一致性)、从NoSQL到NewSQL数据库、文档数据库MongoDB
云数据库云数据库概念、云数据库产品、云数据库系统架构UMP(UMP系统概述、UMP系统架构、UMP系统功能)、云数据库实践(阿里云RDS)
大数据处理与分析
静态数据批处理MapReduce体系结构、MapReduce工作流程、MapReduce具体应用、MapReduce编程实践
流数据实时计算流计算处理流程、Storm设计思想、Storm编程实践、Spark Streaming、Samza、Sterm,spark Streaming,Samza的应用场景
图结构数据Pregel图计算模型、Pregel的C++ API、Pregel体系结构、Pregel应用实例、Pregel与MapReduce对比(PageRank算法)、Hama的安装与使用
数据可视化入门级工具、信息图表工具、地图工具、时间线工具、高级分析工具
Hadoop架构再讨论Hadoop的优化与发展、HDFS2.0新特性、资源管理调度框架YARN、Hadoop生态圈代表性功能组件
内存计算SparkSpark运行架构、Spark SQL、Spark的部署与应用、Spark编程实践
大数据应用
安全领域:国家安全、防御网络攻击、防御犯罪 | 体育娱乐:训练球队、投拍影视作品、预测比赛结果 | 生物医学:流行病预测、生物信息学 | 物流:智能物流 | 
城市管理:智能交通、环保监测、城市规划、安防领域 | 金融行业:高频交易、市场情绪分析、信贷风险分析 | 零售行业:发现关联购买行为、客户群体细分、供应链管理 | 
其他行业:个性化服务、选举、智能电网、电信客户离网分析、餐饮O2O、推荐系统、无人驾驶汽车


方案二:适用于开设数据科学与大数据专业方向的院校

(1)数据科学与大数据专业方向教学计划(参考)

核心专业课程教学计划
第三学期第四学期第五学期第六学期第七学期第八学期
大数据技术基础Java语言Linux操作系统与程序设计计算机网络(复杂网络、SDN)数据仓库与数据挖掘JavaEE实训和毕业设计
计算机组成原理软件工程信息安全机器学习
Python语言(网络爬虫、数据分析)云计算OpenStackR语言数据分析、展现于实例Tableau数据可视化
大数据存储(Hbase、Hive、Sqoop)大数据采集与清洗(Kafka、Flume、ET)Spark技术开发大数据分析应用案例


(2)数据科学与大数据教学资源简介(部分)

数据挖掘与高级分析R语言企业版Spark语言开发与应用
数据挖掘概述
数据挖掘工作流程
深入了解数据挖掘平台
算法模型:分类算法
算法模型:回归算法
算法模型:购物篮分析算法
算法模型:聚类算法
算法模型:异常检测算法
批量部署数据挖掘结果
企业级R语言概述
使用企业级R语言进行开发
深入了解R语言开发环境
R语言图形化生产环境
企业级R语言透明度
企业级R语言嵌入式执行层——R语言接口
企业级R语言嵌入式执行层——SQL语言接口
使用企业级R语言执行预测分析
使用企业级R语言之间访问数据库
Spark简介
Spark开发与环境配置
RDD编程
键值对操作
Spark运行模式及原理
数据读取与保存
在集群上运行Spark
Spark调优与调试
Spark监控管理
Spark SQl
Spark Streaming
GraphX计算框架大数据实验室-项目案例