马云说:“未来最大的能源不是石油而是大数据”。大数据已经从概念走向了价值,甚至成为了可积累的资产,人们越来越期望通过海量数据的处理发现机遇。随着教育行业与大数据的深度融合,越来越多的高校(高职)开始着重建设大数据专业与大数据实验室,培养稀缺的大数据人才,以填补百万级的大数据人才缺口。然而,目前大多数高校的大数据专业建设仍然处于试错阶段,从实验环境、课程体系直至师资力量,亟需系统有效的统筹规划。
对此,云创大数据推出了全国高校(高职)大数据专业建设支撑计划,与全国各大高校一同探索大数据专业的建设之路。全国高校(高职)大数据专业建设支撑计划由清华大学博士、中国信息协会大数据分会副会长刘鹏教授提出,刘教授曾率队夺得2002 PennySort国际计算机排序比赛冠军(这是我国获得的较早的一个大数据比赛冠军),在清华大学、北京大学、中科院等单位做了500多场学术报告,多次主持全国性网格、云计算会议,在2010年就曾组织与培养了较早的一批云计算师资力量(http://www.chinacloud.cn/show.aspx?id=3632&cid=50),有着丰富的科研与教学经验。
早年,刘教授主编了国内较早的一本云计算教材——《云计算》,这本书已经更新到第三版,成为全国几乎所有高校的标准教材。近期,刘鹏教授联合全国多所大学共同编写的《大数据》教材即将出版,而其编著的国内较早的一本原著云计算编程书籍——《实战Hadoop——开启通向云计算的捷径》目前已经升级出版为《实战Hadoop2.0——从云计算到大数据》。同时,刘教授创办了国内知名的中国云计算(www.chinacloud.cn)和中国大数据(www.thebigdata.cn)网站,可为大数据专业的建设提供多元化的资源。
具体而言,全国高校(高职)大数据专业建设支撑计划将从以下几个方面对大数据专业建设给予支持,为大数据人才的培养提供前提条件:
制定人才培养计划,完善大数据教学体系
由于各大高校的大数据专业处于起步阶段,培养计划与教学体系的系统性建设成为了建设重点。对此,全国高校(高职)大数据专业建设支撑计划将协助各高校制定大数据人才培养计划,为开设各种大数据相关课程设定技术标准,包括《云计算》、《大数据》、《数据挖掘与R语言》、《深度学习》、《Hadoop编程》、《大数据清洗》、《大数据运维》等等,并辅助提供相应的教学计划、教材、课件、实验规划等。
提供完备的实验环境与实验教材视频
大数据实验需要每位学生提供一套集群计算环境,但这对高校而言,根本是一个无法实现的要求。即使是使用虚拟化技术,一台服务器只能虚拟出十几台虚拟机,也是远远不够的。而使用容器技术,则可以把一台机器虚拟出上千个容器,再利用大数据平台把多台服务器的数万个容器组织起来,就能实现为每个学生提供一套集群的需求了。
对此,全国高校(高职)大数据专业建设支撑计划借力BDRack大数据实验一体机,以Docker容器技术虚拟出足够的实验集群,并提供了从实验设备、实验手册直至教学视频的一站式服务,其配套的实验手册和教学视频涵盖了36个关键的大数据应用实验,每个实验呈现详细的实验目的、实验内容、实验原理和实验流程指导,广大师生通过参照手册与视频,即可轻松完成每个实验。
具体而言,BDRack大数据实验一体机主要为各大高校(高职)的大数据应用提供了软硬件于一体的平台,其基于Docker容器技术,实现了操作平台的简单易用,可提供Hadoop、HBase、Spark、Storm等大数据教学组件,以少量集群供大量学生同时在线使用,彼此隔离,互不影响,为高校大幅度节省了硬件和人员管理的投入成本。配套实验手册与教学视频,大数据实验一体机可以帮助高校更好地满足课程设计、课程上机实验、实习实训、科研训练等多方面需求。目前,郑州大学、西京学院等院校已经抢先部署使用,正在逐步建立和完善大数据教学科研体系。
其中,BDRack大数据实验一体机应用的Docker容器云平台,不仅启动可以在秒级实现,而且Docker对系统资源的利用率很高,一台主机上可以同时运行数千个 Docker容器。容器除了运行其中应用外,基本不消耗额外的系统资源,性能高且系统开销小。对于传统虚拟机方式运行10个不同的应用需要10个虚拟机,Docker只需要启动10个隔离的应用即可实现。
容器云平台
辅助开展大数据教学、实验与科研工作
全国高校(高职)大数据专业建设支撑计划利用虚拟化教学资源,搭建教学系统和集群平台,借助大数据分析主流软件框架,打造与高校一致的实验与科研环境,提供数据可视化研究、数据挖掘的基础平台等多元化应用,并由难而易、循序渐进,逐步提升学生的学习技能和实践水平,提高大数据教学、实验与科研的质量和成效。在这个过程中,无论是对于实验设备的安装调试,亦或是教材、视频的使用指导,该计划都将给予相应的指导,并提供上门服务,以辅助师生开设实验课、开展科研项目,真正实现快速上手使用。
其中,就科研而言,DeepRack深度学习一体机逐渐成为不可或缺的应用。作为专业的深度学习软硬件平台,DeepRack深度学习一体机可广泛用于图像识别、语音识别和语言翻译等多项深度学习领域,并具有很强的计算能力,四个节点满配时相当于160台服务器的计算能力,同时集成深度学习领域的开源软件框架——TensorFlow与Caffe,提供丰富的图像数据集,以满足实验与模型塑造过程中的训练数据需求,构建了从部署到使用的完整服务体系,为高校科研提供硬件、软件、数据以及技术等支持,彻底解决深度学习应用的高门槛、难部署的困境。
免费培养高校大数据教师,建立师资队伍
针对大数据教学、实验或科研,全国高校(高职)大数据专业建设支撑计划也提供优质的培训与指导。对于各种专业设备的操作使用,该计划给予了现场实施服务,并在后期提供相应的技术培训服务。此外,面向全国高校教师,云创大数据也会融合其大数据教学、科研需求,经常举办免费培训,比如近期就会在周末举办为期2天的免费培训班,以期帮助各大高校进一步培养师资力量。
从大数据实验环境、基础知识学习、真机实验训练直至师资队伍的培养壮大,全国高校(高职)大数据专业建设支撑计划给予了高校大数据教学、实验、科研清晰明确的规划,配套相应的实验教材、实验手册、视频教程以及师资培训服务,知识体系涵盖大数据算法、接口、工具、平台等多方面内容,从大数据监测与收集、大数据存储与处理、大数据分析与挖掘直至大数据创新,以此帮助所有感兴趣的高校迅速培养一支过硬的教学队,建立和完善高水平的大数据教学、实验以及科研体系,深度培育高层次大数据人才,进一步提高大数据专业就业率,增强高校的硬实力和影响力。