3NF浅谈BI领域的数据模型设计

发布时间:2020-08-08 11:03:17 作者:pentium
来源:ITPUB博客 阅读:247

/**********************************/

目录:

第一部分:基础概念

第二部分:设计方式

第三部分:银行业数据模型基本概念介绍

第四部分:银行业数据模型分主题介绍

第五部分:ODS和EDW

/**********************************/

第一部分:基础概念

1.什么是LDM(Logic Data Module)

LDM是一个业务组织的信息表示方式

不是Database

平台独立

是对业务数据的逻辑表示

定义存在的数据实体和它们之间的关系

业务人员通过LDM就可以知道其业务问题能否被解决

2.LDM的特点

稳定性:

可以长期满足业务需求

正确性:

对真实世界的业务one-to-one 的数据映射

共享性:

不是为特定部门或特定应用需求而设计

灵活性:

当业务环境变化后,只要进行最小的改动

3.LDM的行业特性

不同行业有不同的LDM参考模型

通信(Communication) cLDM

金融(Financial) FISLDM

医疗(HealthCare)

零售(Retail)

交通(Transportation)

旅游(Travel)

制造(Manufacture)

4.为什么要使用LDM(实施端)

减少成本(cost savings)

降低风险(Reduce Risk)

1:1 Mapping(LDM->PDM)

低维护量(Low Maintenance)

沟通(Communication)

全企业级(Cross Functional)

客户中心(Customer Centric)

5.为什么要用LDM(客户端)

生成一个精确(accurate)和一致(consistent)的业务数据视图

对业务规则的清晰表达

可以超越当前数据的局限,提供数据集成的路线图

对各个层级的参与者提供沟通的手段

6.建模框架( Data Modeling Frame Work)

7.LDM(Logic Data Module)和PDM(Physical Data Module)

8.LDM和ERD

ERD (Entity Relationship Diagram)

ERD 是一个标准建模技术,对LDM进行图形化的表达

ERD技术可以通过不同的产品进行体现:

Erwin

Power Designer

Visio

ERD 需要表达:

实体(Entity)。所有事物

关系(Relationship)。不同业务实体之间的关联关系

属性(Attribute)。实体或者关系的数据事实(data fact),是最低层级的信息,且业务含义不可拆分

主键(Primary Key)

关系描述符(Relationship Descriptor)

外键(Foreign Key)

9.LDM和Table Layout (表样式)

Table Layout 通过在LDM中加入样例数据(sampling data),使得业务人员可以更直观的理解数据。

键属性用蓝色表示,非键属性用红色表示

第二部分:设计方式

建模方式:

第一步:定义业务需求与范围(Requirement)

第二步:定义实体(Entity)

第三步:定义关系(Relationship/PK/FK)

第四步:定义属性(No-key Attribute)

第五步:验证模型(Verify)

第六步:正则化(Normalization)

第七步:历史数据建模(History Modeling)

第一步:定义业务需求和范围

LDM的构建是一个渐进的过程,也是随着企业业务和管理模型不断扩展而演进的。

LDM是对信息的表示方式,信息的分类就是主题,通过主题定义信息的范围

同一主题的内容也可能随着业务进行扩充

第二步:定义实体

什么是实体:

需要表达和维护的信息就是实体,可以包括人、地点、产品等任何概念。实体是逻辑模型的概念,对应物理模型就是表。

实体的名称:

在整个模型中是唯一的

一般是一个名词(如客户),可以加上修饰词(如VIP客户)

实体定义时会发生的错误:

同义不同名(如员工worker和雇员employee)

同名不同义(如产品和促销都定义为product)

实体中的主键(Primary Key):

主键是实体中的每个实例(instance) 区别于其他实例的标志。在物理模型中,主键是不同行(row)的区分标志。

在定义实体时,一般要最先定义主键。在图形表示的时候,一般放在最前面。

定义主键的一些原则:

每个实体(表)必须要有主键。即使表是multiset(可能出现重复记录)也必须要有主键。

每个表只能有一个主键。

主键值必须唯一(ANSI标准允许不唯一,为了保证数据加载性能,可能主键值不唯一)

主键值不能为空

主键值不能被修改

主键值可以由多个值构成。

第三步:定义关系(Relationship)

什么是关系(Relationship):

关系是两个不同实体交互方式的表达(如客户购买产品,员工在那个部门)

直接关系与间接关系如下图所示,在模型中,只要定义直接关系,而不用定义间接关系。

定义关系的原则:

关系是唯一的(由涉及的表唯一标示)

关系对与实体内的所有实例都是适用的(物理模型中对表中的所有row都是适用的)

需要定义关系的集合表达方式(cardinality)。如1:1、1:M、M:M

定义关系的步骤:

Step1: 识别实体之间是否有关系

是否存在关系

是直接还是间接关系

定义关系的名称

Step2: 识别实体之间的集合表达方式

1:1

1:M

M:M

Step3:用外键(Foreign Key)将关系表达出来

外键是表示两个实体中的实例的互相的数量关系

外键定义的原则:

一个实体可以有0/1/M个外键

外键的值可以不唯一(1:M/M:M)

外键的值可以为空(客户可以没有账户)

外键的值可以被更改(客户的账户号可以被修改)

外键可以由多个属性构成

A表的外键的属性和值必须在B表中的PK中存在

定义M:M关系需要新建一个关系实体(Associative Entities):

客户与产品的关系是M:M关系,所以需要定义一个关系实体(订购 subscription)

将A实体与B实体的主键放在一起,就构成了关系实体。

关系实体的主键是A实体主键+B实体主键

递归关系:

在实体内部存在的关系,实体的外键是本实体的主键

如下图所示

管理者本身也是一个员工

MgrEmp# 是Empolyee外键,对应的主键是Empolyee的Emp#

第四步: 定义属性( Attribute Modeling)

属性是描述实体(entity)的相关的、细节的数据项

定义属性的原则:

名称在本实体内唯一

与本实体相关

不能够被别的属性所描述

有单一的值域空间

属性应该是对实体内的所有实例都是有效的

属性的类型:

键属性(主键、外键)

非键属性

派生属性,能够从别的属性中计算而得的属性

第五步:验证模型(Verify)

通过模型验证发现上述4步的问题,不断修正,多次循环。

与客户讨论,确认客户的业务需求、业务问题和业务约束条件能否通过模型进行体现。

不要考虑任何有关物理模型的问题。

但客户的业务需求能够通过模型进行表达,就结束模型的优化。

第六步:正则化(Normalization)

正则化是设计实体的属性的规则,使得实体-属性能够更加精确的反应客观事实

正则化的作用:

减少数据冗余(避免数据多处存储)

减少由于数据修改导致的数据不一致(只修改了一处数据,而另一处忘了修改)

正则化的原则“一个事实,一处存放”(one fact ,one place)

1NF,2NF,3NF 解决非键属性对主键的依赖性

4NF, 5NF 解决是键属性互相之间的依赖关系。

一般LDM建模只要求到3NF

什么是3NF:

1NF: The Key(有主键,且没有重复的属性)

2NF: The Whole Key (非键属性对主键的依赖关系)

3NF: And Nothing But Key(属性对主键依赖关系是直接的,而非间接的)

第七步:历史数据建模(History Modeling)

业务人员不仅要对当前(current)的数据进行分析,而且要对数据的变化进行追踪(track),而且需要对历史数据进行分析。

这就要求对数据的变化历史进行建模,这就是历史数据建模(History Modeling)

History Modeling的原则:

Current和History:

如果在模型中既存在当前实体(current entity)也存在历史实体(history entity),那么当前实体的信息必然是冗余的。

在设计LDM中,只需保留历史实体,在进行物理模型设计时,可以加上一个当前标志(current flag),表明哪些记录是对应当前实体的信息。

历史数据建模:

将需要保存历史信息的属性放入到历史实体(History Entity)中。

时间属性作为主键的一部分。

历史实体(History entity)的主键必然是一个符合主键(包括多个属性)

First Normal Form (1NF)

First normal form (1NF) sets the very basic rules for an organized database:

· Eliminate duplicative columns from the same table.

· Create separate tables for each group of related data and identify each row with a unique column or set of columns (the primary key).

Second Normal Form (2NF)

Second normal form (2NF) further addresses the concept of removing duplicative data:

· Meet all the requirements of the first normal form.

· Remove subsets of data that apply to multiple rows of a table and place them in separate tables.

· Create relationships between these new tables and their predecessors through the use of foreign keys.

Third Normal Form (3NF)

Third normal form (3NF) goes one large step further:

· Meet all the requirements of the second normal form.

· Remove columns that are not dependent upon the primary key.

推荐阅读:
  1. Quick BI 的模型设计与生成SQL原理剖析
  2. 主流BI的对比

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

3nf 设计 bi

上一篇:Go语言中的指针和new(T)函数的使用

下一篇:传统计算机视觉技术落伍了吗?不,它们是深度学习的「新动能」

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》