当前位置: 首页 > 学术活动 > 详情

探索|智慧校园中的教育大数据治理服务体系

时间:2020-12-16

高校教育大数据建设总体架构

 

高校大数据建设总体架构可分为三个层次:数据治理层、数据平台层和数据服务层,如下图所示。各层的主要功能定义如下: 

 

①底层——数据治理层。该层主要完成统一的标准和规则制定工作,包括抽取以业务数据 为主的结构化数据,以文本、音视频、机器数据为主的半结构化数据及非结构化数据,实现对 各类数据的梳理、数据标准制定、元数据管理、数据质量及数据资产梳理、数据安全管理、数 据集成服务等,从软件层面解决学校业务数据、机器数据、公共数据池数据的管理问题,为后 续的数据存储、交换与计算服务提供“干净、可靠”的数据资源。 

 

②中间层——数据平台层。基于硬件架构层面构建统一平台体系,涵盖传统的关系型数据 库和当前以 Hadoop 为基础的分布式数据存储技术,用以支撑高校内、外部多源异构的海量数 据存储、交换与计算。 

 

③顶层——数据服务层。在数据平台层和数据治理层的基础之上,构建一套完整的、标准 的数据服务体系,满足多方面的数据供给、展示、管理、决策的需求。

 

教育大数据平台与数据治理功能框架

 

教育大数据平台架构如下图所示。大数据系统基于开源的数据平台软件,依赖于数据采 集层整合高校各类基础数据(包含 Hadoop、 Spark、 Cloudera、 Sqoop、 Flume、 ETL 等),利用 数据存储层的关系数据库、非关系型数据库 MongoDB、数据仓库 Hive、列存储数据库 Hbase、 分布式文件系统 HDFS 等将各类数据归档、分类、过滤、存储,采用 Spark、 Storm 等计算框架 实现大数据的分布式计算,将可用数据推送至数据缓冲层,依赖封装的数据接口实现大数据应 用交互服务。构建具备吞吐 TB 级的数据架构,实现对 TB 级日志数据进行分布式存储和并行分 析处理(可扩展),将高校的结构化数据和非结构化数据提取至 Hadoop 的 HDFS 中,经过数据 存储层、数据计算层、数据缓冲层,通过数据接口“屏蔽”底层,能够大幅提升数据的可复用度,实现数据服务应用与数据的全解耦,让数据中心插上海量数据存储与计算的“翅膀”。

 

教育大数据治理工作的迫切性和必要性,确立了大数据治理系统在高校数据平台中的定 位。本研究基于“五元管理”(包括数据标准管理、元数据管理、数据质量管理、数据资产管 理、数据安全管理),进行了教育大数据治理系统相关功能建设,其功能框架如下图所示。

 

数据标准管理

数据范围涉及高校内、外部数据运营相关的数据,包含业务数据、机器日志数据、外部互 联网数据。以数据标准为基础的数据治理体系,实现数据的资产化,贯穿整个数据运营的全流 程,形成以高校数据平台为核心的大数据生态圈,服务于高校内、外部的数据使用人员。数据 标准的管理目标是实现高校数据的完整性、有效性、一致性、规范性、开放性和共享性管理, 进一步提升数据治理水平。 

 

数据标准制定包括数据标准体系和数据标准内容的制定。其中,数据标准体系可分为基础类数据标准和指标类数据标准,数据标准内容的制定是根据数据标准体系分类的要求制定数据 标准的规范,如下图所示。

 

元数据管理

如下图所示,元数据管理主要包含定义元数据模型,利用元数据服务接口动态存储及管理 元数据,实现元数据(技术元数据、业务元数据)的实时获取。通过对技术元数据的抽取,把 相关的字段抽取到相关工具平台,利用工具清晰查阅表或字段之间的关联,提供清晰的视图; 通过对业务元数据的维护,确定相关指标与业务流程。依托大数据治理系统便捷地管理高校数 据仓库中的数据,调整业务中的统计指标,并通过技术元数据和业务元数据两种数据的关联, 辅助数据管理者快捷地查阅详细的指标定义,全面理解业务并合理使用指标。

 

数据质量管理

数据质量管理涵盖从源数据接入数据平台到应用输出的全过程。数据质量包含数据质量管 理、数据资产评估、数据质量规则库制定及数据质量绩效监控。数据质量的管理对象包括数据 平台中的非/半结构化数据。数据质量管理既是数据平台接收数据源的“保护墙”,保障所有接 收的源数据均符合数据平台的要求;又是数据平台数据资产评估的重要组成部分,通过构建数 据资产规则库,为数据资产评估提供输入。依托数据质量绩效监控,由事后监控向事中、事后 监控相结合转化,可在计算执行过程中调用数据质量监控作业,无需等待结果出来再进行监控。

 

数据资产管理

数据资产管理过程是一个资产全生命周期的管理过程。资产全生命周期管理以数据资产作 为管理对象,以资产战略和资产策略为导向,从系统整体目标出发,统筹考虑资产的规划、投 资、设计、建设、运行、维护、稽核、变更、注销的全过程,在满足安全、效能的前提下有效 管理、监控数据资产的生产和使用情况,不断优化数据资产质量,实现数据资产的业务价值。 数据资产的功能如下图所示,具体包括:

 

①注册管理,完成多种方式(采集器、在线维护、提 供自助注册接口)注册数据资产、审核及版本控制等;

 

②变更管理,完成注册数据资产信息的 变更、审核与更新;

 

③审计管理,完成数据资产盘点与数据资产访问记录的审计;

 

④资产统计 分析,完成数据资产的评估,包括数据质量、访问情况等信息的采集,依据相关信息对数据资 产进行综合评估打分;

 

⑤权限管理,完成与数据安全管理对接,除同步数据安全管理应用对象 的信息及权限外,将数据资产访问的申请信息发送给数据安全管理模块进行处理;

 

⑥接口管理,实现与元数据管理、数据质量管理、数据安全管理的对接,收集相关基础数据,用以完成数据资产的注册、稽核及安全管理。

 

数据资产的统一管理,可以较好地解决当前数据中心普遍存在的需求分散重复、口径模糊 等问题,实现成果和经验的共享与积累,便于实现应用和数据之生命周期的自动化管理。明确 的数据资产信息,将有效支撑高校内部知识系统和资源管理的建设,为高校技术人员、管理人 员更快捷、有序、便利地提供资产使用的方式和途径,支撑数据分析、开发、运维的自治。

 

数据安全管理

数据安全管理旨在完善数据体系化的安全策略,建立完整的体系化安全策略措施,全方位 地进行安全管控,通过多种手段保障数据平台数据治理中的数据安全,完成数据“存、管、用” 的数据治理安全,做到“事前可管、事中可控、事后可查”:“事前可管”旨在全面分析系统, 及时发现存在安全风险的环节设置防线,防患于未然;“事中可控”旨在通过 4A、敏感数据管 控、隐私信息保护等手段,密切关注操作,确保安全实施;“事后可查”旨在记录所有访问痕 迹,保留操作日志提供审计。

 

随着“智慧校园”的落地生根,高校在全方位提升自身教学、科研、管理、综合服务水平 的同时,围绕高校快速发展的全过程数据逐渐引起了教育管理者的重视,并用以实现对教育大 数据的梳理、采集、清洗、规范化存储、分析、挖掘、应用。利用数据服务于高校各项工作, 也已逐步上升为高校发展的重要战略之一。教育大数据治理体系的构建,无疑将进一步解决高 校数据管理过程中的种种困境,并为优化数据质量、提升数据管理水平,实现学校数据资产的 有效管理和数据的深度共享提供必要的基础条件。通过大数据的深度治理,使教育大数据应用 在高校遍地开花,将驱动高校由经验式的教学模式向数据服务的教育模式转变、由以管理为中 心的管理模式向以用户服务为主导的需求驱动模式转变、由拍脑袋的主观决策模式向数据引导 的智慧决策模式转变。

 


本文节选自:CNKI,作者:余鹏、李艳。