上海财经大学学报

上海财经大学实施主数据管理高效发掘数据价值 

来源:上海财经大学学报 【在线投稿】 栏目:期刊导读 时间:2021-03-02
现状与问题 高校信息化经过多年发展,学校各类核心业务都建立了相应的管理信息系统,日常业务运作已经离不开信息系统,而且不同管理部门及业务的相互协作越来越多,需要不同管理系统联动的情况也越来越普遍,很少有系统能够独立于其他系统而运作。在大数据背景下高校也正在逐步迈入智慧校园时代,但是由于高校信息化规划相对落后、建设思路不同、实施厂商众多、开发技术多样等等原因,数据孤岛现象依然很严重,各业务系统在相互联动、协作方面还存在很多困难,未能形成有机整体从而充分发挥信息化优势。由此产生的问题普遍存在于各高校信息化建设过程中,也是一直困扰信息化从业人员的棘手问题,比如:缺乏数据标准、数据源头不唯一、数据不一致、数据无法共享使用、上报数据困难、对外口径不一致、各系统交互形成网状结构增加运维难度和工作量等等,这样也就导致信息系统虽然产生了很多有价值的数据,但是无法深度利用,更无法产生更多价值,仅仅完成了最基本的支撑日常业务运作任务。 以上所有问题产生的一个主要原因在于缺乏有效的主数据管理,本文从管理和技术两个方面详细介绍在高校如何有效实施主数据管理,从而能够更好地推进高校信息化建设。 主数据定义及作用 主数据(MD Master Data)是信息系统中描述核心业务、实体并且在不同业务系统间共享使用的数据,共享是关键词,它们分散在各业务系统中,是企业内部能够跨业务、跨系统重复使用的高价值数据。一个机构有很多业务系统,每个系统又有很多数据,那么如何去鉴定哪些是主数据呢?可以用一个简单的原则去区分,凡是需要在不同业务系统间进行交互和共享使用的数据都可以称之为主数据,比如教师基本信息就是高校的核心主数据,因为教师基本信息是很多业务系统中都要使用的关键数据。主数据具有准确性、一致性、集成性、共享性、高价值等特点,其范围和内容无法一次性完成定义,需要根据业务需求逐步扩展完善。主数据通常需要在整个业务范围内保持一致性、完整性、准确性和实时性,为了达成这一目标,就需要专人采用专业管理工具或平台进行主数据管理。 通过主数据的定义可以总结出主数据的主要作用:1.在企业内定义完整的全局业务实体;2.保证核心业务实体数据的准确性、实时性;3.为业务系统提供共享数据,保证数据一致性。 主数据管理在高校的实践 主数据管理(Master Data Management,简称MDM )描述了一组规程、技术和解决方案,它们用于为所有利益相关方(如用户、应用程序、数据仓库、流程)创建并维护业务数据的一致性、完整性、相关性和精确性。主数据管理的关键就是“管理”,主数据管理不会创建新的数据,它将业务系统中各类主数据进行归集和整理,纳入到统一管理平台,进行统一编码、发布和更新,自动、准确、及时地为使用方分发数据,并对数据进行验证。主数据管理涉及部门广,牵涉系统多,实施难度大,需要管理措施和技术手段相互结合才能有效地推动项目开展,取得成效。 管理措施 1.提高数据共享意识 目前信息化环境中存在数据孤岛、数据源头多、数据不一致现象的主要原因是没有进行数据共享,根本原因是数据共享意识不强,没有将数据共享意识提高到足够的高度。因此,为了走出目前由数据问题造成的困境,首要问题是从上到下、从管理层到一线人员提高数据共享意识,首先要有开放的心态,数据是全校公共资产,应该与所有相关部门、业务共享使用;其次,在建设业务系统时如果需要跨业务的数据,应该考虑通过共享手段从准确的数据源头来获取数据,坚决杜绝另起炉灶再维护一份新数据,本系统只需维保本业务领域的数据即可。 2. 改变数据共享模式 目前高校信息化建设中数据共享思路已经基本普及,但是共享模式多种多样,由此也产生了很多问题,如:数据接口重复开发、数据接口维护复杂、系统间相互共享数据形成网状结构、系统间耦合程度高等。为此,应该建立专门的主数据管理平台,维护标准的数据接口,提供统一的数据共享方法,为不同应用场景、应用需求提供不同数据接口,断绝业务系统间的引用关系,各业务系统只与主数据平台有关系,形成数据共享星型结构。 3.技术部门统筹管理 不论是企业还是高校,主数据管理、数据共享在整个信息化环境中是一盘棋,开发、维护和管理又具有一定的技术门槛,因此需要由技术部门站在全局角度去统筹规划和管理,同时成立专职技术小组去开发、维护,这样既可以避免重复建设,又可以避免业务系统间共享数据的情况再次发生,同时又能全局掌握主数据使用情况。 4.定义数据管理规范 主数据的流畅运作离不开规范的约束,配套的规范制度应该随着主数据管理平台的建设而一起制定。规范按使用对象分为对内和对外两部分,对内的主要供主数据开发、维护、管理人员使用,侧重技术方面的要求,具体包括开发技术规范、日常运维管理规范等,技术人员需要清晰掌握主数据平台有哪些主数据、来自于哪、为哪些用户提供了服务、每一种主数据有哪些共享方式等方面的内容;对外的主要供数据使用方使用,具体内容包括主数据申请、审核批准、下发使用、注销停用、安全等方面内容,数据使用方需要向数据主管部门(数据属于业务部门的资产)说明使用目的并获得同意,主数据平台管理员才能对其授权使用,用户在使用中需遵循数据安全等方面的要求,不得对外泄露数据。 5.落实数据维护职责 主数据对准确性和及时性的要求不言而喻,所有的主数据都来源于业务系统,主数据管理平台本身不产生、不修改主数据,这就有必要明确数据维护责任和要求,业务系统管理员应该及时维护数据,保证系统提供高质量的源数据。 技术手段 1.构建校级主数据平台 主数据管理平台一定是一个全局性平台,统一管理全校的主数据和数据共享,平台架构如图1所示。 平台的核心是数据抽取层、数据存储层和数据分发层,按数据内容和性质主数据可以分为三类:代码数据类、基础数据类、交易数据类,代码数据类一般指各类数据字典,基础数据一般是数据量相对较少、变化相对缓慢的用于支撑其他业务活动开展的核心数据,如教师信息、学生信息等,交易类数据一般指数据量较大、产生较快的业务数据,如一卡通交易流水、学生课表、学生成绩等。数据分发层完成对外提供数据的功能,根据应用场景选择具体的工具及技术方法。 图1 主数据管理平台架构 2. 定义主数据模型 定义主数据模型包括识别主数据实体、识别主数据属性、识别主数据关系等几个环节。一个主数据模型就是对一个业务、实体的准确全面描述,主数据模型在结构关系上并不复杂,主要由实体和描述实体的属性组成,不同主数据之间通过逻辑主外键来产生关系。主数据模型不应直接依赖于具体应用需求,准确、完整地描述业务实体即可,设计时要充分考虑模型的标准性、通用性和扩展性。不同模型之间要划清界限,尽量避免模型重叠导致不同模型存放同样的数据,每一个模型针对一类应用场景,不能期望一个模型满足所有需求。定义一个主数据模型不可能一次性完成,定义之初先确定该主数据所要描述的业务含义,然后参考现有数据共享需求填充属性,后续再根据新增需求逐步扩展、完善。这其中一定要注意数据粒度问题,同一类数据,不同粒度就是不同的模型,比如一卡通消费明细和一卡通月汇总就是不同的模型,虽然汇总数据可以由明细数据生成,但最好还是单独定义。 3.主数据命名规范 主数据存储在数据库中需要有规范的名称来标识以便于理解和使用,建议主数据名称采用英文三级形式命名,具体约束如下: 第一级表示数据存储形式,T代表数据库表、V代表视图、MV代表物化视图; 第二级表示主数据来源或业务领域,统一使用源系统三位英文简称; 第三级表示数据内容,如果数据内容无法用一个单词完整描述可以采用下划线命名方式,单词可以用全拼或缩写,保证名称长度不超过数据库限制即可。 主数据名称形式:数据存储形式_业务域简称_数据内容描述。例如,教师基本信息主数据可以定义为:V_HRS_ EMPLOYEE_INFOR。 4.主数据提取分发 主数据管理平台的第一个任务就是使用数据集成工具将分散于各业务系统的源数据按主数据模型抽取到存储主数据的数据库中,抽取过程完成分散数据的整合和异构数据源的同构。抽取过程中可对源数据进行逻辑转换或计算,比如做一些值映射、衍生一些新的属性字段等,但不得修改源数据,主数据开发完成后需要进行测试、校验,确保抽取过程进行关联、转换的正确性。数据抽取可以使用ETL工具Informatica、ODI、Kettle等,也可以编写存储过程。由于不同数据共享需求对实时性要求不同,可以根据具体需求对不同的抽取任务设置抽取频率。对于一些标准类的线下数据,一般变动较少,维护频率较低,如果没有相应的管理系统,可以一次性导入主数据管理平台,后续在主数据管理平台中进行简单维护。 主数据管理平台的另一个任务就是为数据使用方提供数据,可以采用主数据平台主动推送和使用方主动提取两种方式。开发工具可以采用ETL工具,也可以在业务系统和主数据库间建立DBlink进行读取,对于第三方用户建议封装成Webservice供其调用。这其中要注意两个问题,一是访问安全性要求,比如为了主数据库的安全,不允许建立DBlink,或者不允许直接访问数据库;另一个是数据实时性要求,这依赖于主数据的抽取和分发频率。由于应用需求存在差异性,使用方拿到数据后可以进行再次加工,如只挑选需要的属性,或者扩展属性等。 5.主数据平台监控 主数据平台的稳定运行离不开完善的系统监控,主要包括数据共享功能监控和数据质量监控两个方面。功能监控主要监控数据抽取和分发任务是否正常执行,对于异常情况要第一时间给系统管理员发送报警信息。主数据管理平台本身不产生数据质量问题,为了保证共享数据的有效利用,有必要对主数据相关的业务数据进行数据质量检查和监控,对于发现的数据问题还是回归到源头去解决。数据质量监控具体方法可以参考中国教育网络2016年1月文章《利用数据质量规则库推动数据质量管理》。 主数据管理是目前解决数据孤岛、实现数据共享比较好的方法,也是数据治理的一个重要环节,但是搭建主数据管理平台是一个长期、复杂的过程,涉及组织架构、管理流程、技术攻关等多方面内容。本文基于上海财经大学主数据管理项目的实施过程,从管理措施和技术手段两个方面详细介绍了实施主数据的几个重要环节,为高校信息化建设提供一些参考。 现状与问题 高校信息化经过多年发展,学校各类核心业务都建立了相应的管理信息系统,日常业务运作已经离不开信息系统,而且不同管理部门及业务的相互协作越来越多,需要不同管理系统联动的情况也越来越普遍,很少有系统能够独立于其他系统而运作。在大数据背景下高校也正在逐步迈入智慧校园时代,但是由于高校信息化规划相对落后、建设思路不同、实施厂商众多、开发技术多样等等原因,数据孤岛现象依然很严重,各业务系统在相互联动、协作方面还存在很多困难,未能形成有机整体从而充分发挥信息化优势。由此产生的问题普遍存在于各高校信息化建设过程中,也是一直困扰信息化从业人员的棘手问题,比如:缺乏数据标准、数据源头不唯一、数据不一致、数据无法共享使用、上报数据困难、对外口径不一致、各系统交互形成网状结构增加运维难度和工作量等等,这样也就导致信息系统虽然产生了很多有价值的数据,但是无法深度利用,更无法产生更多价值,仅仅完成了最基本的支撑日常业务运作任务。 以上所有问题产生的一个主要原因在于缺乏有效的主数据管理,本文从管理和技术两个方面详细介绍在高校如何有效实施主数据管理,从而能够更好地推进高校信息化建设。 主数据定义及作用 主数据(MD Master Data)是信息系统中描述核心业务、实体并且在不同业务系统间共享使用的数据,共享是关键词,它们分散在各业务系统中,是企业内部能够跨业务、跨系统重复使用的高价值数据。一个机构有很多业务系统,每个系统又有很多数据,那么如何去鉴定哪些是主数据呢?可以用一个简单的原则去区分,凡是需要在不同业务系统间进行交互和共享使用的数据都可以称之为主数据,比如教师基本信息就是高校的核心主数据,因为教师基本信息是很多业务系统中都要使用的关键数据。主数据具有准确性、一致性、集成性、共享性、高价值等特点,其范围和内容无法一次性完成定义,需要根据业务需求逐步扩展完善。主数据通常需要在整个业务范围内保持一致性、完整性、准确性和实时性,为了达成这一目标,就需要专人采用专业管理工具或平台进行主数据管理。 通过主数据的定义可以总结出主数据的主要作用:1.在企业内定义完整的全局业务实体;2.保证核心业务实体数据的准确性、实时性;3.为业务系统提供共享数据,保证数据一致性。 主数据管理在高校的实践 主数据管理(Master Data Management,简称MDM )描述了一组规程、技术和解决方案,它们用于为所有利益相关方(如用户、应用程序、数据仓库、流程)创建并维护业务数据的一致性、完整性、相关性和精确性。主数据管理的关键就是“管理”,主数据管理不会创建新的数据,它将业务系统中各类主数据进行归集和整理,纳入到统一管理平台,进行统一编码、发布和更新,自动、准确、及时地为使用方分发数据,并对数据进行验证。主数据管理涉及部门广,牵涉系统多,实施难度大,需要管理措施和技术手段相互结合才能有效地推动项目开展,取得成效。 管理措施 1.提高数据共享意识 目前信息化环境中存在数据孤岛、数据源头多、数据不一致现象的主要原因是没有进行数据共享,根本原因是数据共享意识不强,没有将数据共享意识提高到足够的高度。因此,为了走出目前由数据问题造成的困境,首要问题是从上到下、从管理层到一线人员提高数据共享意识,首先要有开放的心态,数据是全校公共资产,应该与所有相关部门、业务共享使用;其次,在建设业务系统时如果需要跨业务的数据,应该考虑通过共享手段从准确的数据源头来获取数据,坚决杜绝另起炉灶再维护一份新数据,本系统只需维保本业务领域的数据即可。 2. 改变数据共享模式 目前高校信息化建设中数据共享思路已经基本普及,但是共享模式多种多样,由此也产生了很多问题,如:数据接口重复开发、数据接口维护复杂、系统间相互共享数据形成网状结构、系统间耦合程度高等。为此,应该建立专门的主数据管理平台,维护标准的数据接口,提供统一的数据共享方法,为不同应用场景、应用需求提供不同数据接口,断绝业务系统间的引用关系,各业务系统只与主数据平台有关系,形成数据共享星型结构。 3.技术部门统筹管理 不论是企业还是高校,主数据管理、数据共享在整个信息化环境中是一盘棋,开发、维护和管理又具有一定的技术门槛,因此需要由技术部门站在全局角度去统筹规划和管理,同时成立专职技术小组去开发、维护,这样既可以避免重复建设,又可以避免业务系统间共享数据的情况再次发生,同时又能全局掌握主数据使用情况。 4.定义数据管理规范 主数据的流畅运作离不开规范的约束,配套的规范制度应该随着主数据管理平台的建设而一起制定。规范按使用对象分为对内和对外两部分,对内的主要供主数据开发、维护、管理人员使用,侧重技术方面的要求,具体包括开发技术规范、日常运维管理规范等,技术人员需要清晰掌握主数据平台有哪些主数据、来自于哪、为哪些用户提供了服务、每一种主数据有哪些共享方式等方面的内容;对外的主要供数据使用方使用,具体内容包括主数据申请、审核批准、下发使用、注销停用、安全等方面内容,数据使用方需要向数据主管部门(数据属于业务部门的资产)说明使用目的并获得同意,主数据平台管理员才能对其授权使用,用户在使用中需遵循数据安全等方面的要求,不得对外泄露数据。 5.落实数据维护职责 主数据对准确性和及时性的要求不言而喻,所有的主数据都来源于业务系统,主数据管理平台本身不产生、不修改主数据,这就有必要明确数据维护责任和要求,业务系统管理员应该及时维护数据,保证系统提供高质量的源数据。 技术手段 1.构建校级主数据平台 主数据管理平台一定是一个全局性平台,统一管理全校的主数据和数据共享,平台架构如图1所示。 平台的核心是数据抽取层、数据存储层和数据分发层,按数据内容和性质主数据可以分为三类:代码数据类、基础数据类、交易数据类,代码数据类一般指各类数据字典,基础数据一般是数据量相对较少、变化相对缓慢的用于支撑其他业务活动开展的核心数据,如教师信息、学生信息等,交易类数据一般指数据量较大、产生较快的业务数据,如一卡通交易流水、学生课表、学生成绩等。数据分发层完成对外提供数据的功能,根据应用场景选择具体的工具及技术方法。 图1 主数据管理平台架构 2. 定义主数据模型 定义主数据模型包括识别主数据实体、识别主数据属性、识别主数据关系等几个环节。一个主数据模型就是对一个业务、实体的准确全面描述,主数据模型在结构关系上并不复杂,主要由实体和描述实体的属性组成,不同主数据之间通过逻辑主外键来产生关系。主数据模型不应直接依赖于具体应用需求,准确、完整地描述业务实体即可,设计时要充分考虑模型的标准性、通用性和扩展性。不同模型之间要划清界限,尽量避免模型重叠导致不同模型存放同样的数据,每一个模型针对一类应用场景,不能期望一个模型满足所有需求。定义一个主数据模型不可能一次性完成,定义之初先确定该主数据所要描述的业务含义,然后参考现有数据共享需求填充属性,后续再根据新增需求逐步扩展、完善。这其中一定要注意数据粒度问题,同一类数据,不同粒度就是不同的模型,比如一卡通消费明细和一卡通月汇总就是不同的模型,虽然汇总数据可以由明细数据生成,但最好还是单独定义。 3.主数据命名规范 主数据存储在数据库中需要有规范的名称来标识以便于理解和使用,建议主数据名称采用英文三级形式命名,具体约束如下: 第一级表示数据存储形式,T代表数据库表、V代表视图、MV代表物化视图; 第二级表示主数据来源或业务领域,统一使用源系统三位英文简称; 第三级表示数据内容,如果数据内容无法用一个单词完整描述可以采用下划线命名方式,单词可以用全拼或缩写,保证名称长度不超过数据库限制即可。 主数据名称形式:数据存储形式_业务域简称_数据内容描述。例如,教师基本信息主数据可以定义为:V_HRS_ EMPLOYEE_INFOR。 4.主数据提取分发 主数据管理平台的第一个任务就是使用数据集成工具将分散于各业务系统的源数据按主数据模型抽取到存储主数据的数据库中,抽取过程完成分散数据的整合和异构数据源的同构。抽取过程中可对源数据进行逻辑转换或计算,比如做一些值映射、衍生一些新的属性字段等,但不得修改源数据,主数据开发完成后需要进行测试、校验,确保抽取过程进行关联、转换的正确性。数据抽取可以使用ETL工具Informatica、ODI、Kettle等,也可以编写存储过程。由于不同数据共享需求对实时性要求不同,可以根据具体需求对不同的抽取任务设置抽取频率。对于一些标准类的线下数据,一般变动较少,维护频率较低,如果没有相应的管理系统,可以一次性导入主数据管理平台,后续在主数据管理平台中进行简单维护。 主数据管理平台的另一个任务就是为数据使用方提供数据,可以采用主数据平台主动推送和使用方主动提取两种方式。开发工具可以采用ETL工具,也可以在业务系统和主数据库间建立DBlink进行读取,对于第三方用户建议封装成Webservice供其调用。这其中要注意两个问题,一是访问安全性要求,比如为了主数据库的安全,不允许建立DBlink,或者不允许直接访问数据库;另一个是数据实时性要求,这依赖于主数据的抽取和分发频率。由于应用需求存在差异性,使用方拿到数据后可以进行再次加工,如只挑选需要的属性,或者扩展属性等。 5.主数据平台监控 主数据平台的稳定运行离不开完善的系统监控,主要包括数据共享功能监控和数据质量监控两个方面。功能监控主要监控数据抽取和分发任务是否正常执行,对于异常情况要第一时间给系统管理员发送报警信息。主数据管理平台本身不产生数据质量问题,为了保证共享数据的有效利用,有必要对主数据相关的业务数据进行数据质量检查和监控,对于发现的数据问题还是回归到源头去解决。数据质量监控具体方法可以参考中国教育网络2016年1月文章《利用数据质量规则库推动数据质量管理》。 主数据管理是目前解决数据孤岛、实现数据共享比较好的方法,也是数据治理的一个重要环节,但是搭建主数据管理平台是一个长期、复杂的过程,涉及组织架构、管理流程、技术攻关等多方面内容。本文基于上海财经大学主数据管理项目的实施过程,从管理措施和技术手段两个方面详细介绍了实施主数据的几个重要环节,为高校信息化建设提供一些参考。

上一篇:全国高校财政学教学研究会年年会召开
下一篇:没有了