王炸科技头像

数据库设计的三大范式、BCNF、4NF

来源:
       

  一、理解数据库的范式需要理解几个基本概念:码:表中可以唯一确定一个元组的某个属性(或者属性组),如果这样的码有不止一个,那么大家都叫候选码,我们从候选码中挑一个出来做老大,它就叫主码。相当于键的意思。主属性:一个属性只要在任何一个候选码中一、理解数据库的范式需要理解几个基本概念:

  码:表中可以唯一确定一个元组的某个属性(或者属性组),如果这样的码有不止一个,那么大家都叫候选码,我们从候选码中挑一个出来做老大,它就叫主码。相当于键值的意思。主属性:一个属性只要在任何一个候选码中出现过,这个属性就是主属性。非主属性:与上面相反,没有在任何候选码中出现过,这个属性就是非主属性。外码:一个属性(或属性组),它不是码,但是它别的表的码,它就是外码。

  二、范式详解

  为了建立冗余较小、结构合理的数据库,设计数据库时必须遵循一定的规则。在关系型数据库中这种规则就称为范式。范式是符合某一种设计要求的总结。要想设计一个结构合理的关系型数据库,必须满足一定的范式。

  在实际开发中最为常见的设计范式有三个:

  1.第一范式(确保每列保持原子性)

  第一范式是最基本的范式。如果数据库表中的所有字段值都是不可分解的原子值,就说明该数据库表满足了第一范式。

  第一范式的合理遵循需要根据系统的实际需求来定。比如某些数据库系统中需要用到“地址”这个属性,本来直接将“地址”属性设计成一个数据库表的字段就行。但是如果系统经常会访问“地址”属性中的“城市”部分,那么就非要将“地址”这个属性重新拆分为省份、城市、详细地址等多个部分进行存储,这样在对地址中某一部分操作的时候将非常方便。这样设计才算满足了数据库的第一范式,如下表所示。

数据库设计的三大范式、BCNF、4NF-第1张图片

  上表所示的用户信息遵循了第一范式的要求,这样在对用户使用城市进行分类的时候就非常方便,也提高了数据库的性能。

  2.第二范式(确保表中的每列都和主键相关)

  第二范式在第一范式的基础之上更进一层。第二范式需要确保数据库表中的每一列都和主键相关,而不能只与主键的某一部分相关(主要针对联合主键而言)。也就是说在一个数据库表中,一个表中只能保存一种数据,不可以把多种数据保存在同一张数据库表中。

  比如要设计一个订单信息表,因为订单中可能会有多种商品,所以要将订单编号和商品编号作为数据库表的联合主键,如下表所示。

  订单信息表

数据库设计的三大范式、BCNF、4NF-第1张图片

  这样就产生一个问题:这个表中是以订单编号和商品编号作为联合主键。这样在该表中商品名称、单位、商品价格等信息不与该表的主键相关,而仅仅是与商品编号相关。所以在这里违反了第二范式的设计原则。

  而如果把这个订单信息表进行拆分,把商品信息分离到另一个表中,把订单项目表也分离到另一个表中,就非常完美了。如下所示。

数据库设计的三大范式、BCNF、4NF-第1张图片

  这样设计,在很大程度上减小了数据库的冗余。如果要获取订单的商品信息,使用商品编号到商品信息表中查询即可。

  3.第三范式(确保每列都和主键列直接相关,而不是间接相关)

  第三范式需要确保数据表中的每一列数据都和主键直接相关,而不能间接相关。

  比如在设计一个订单数据表的时候,可以将客户编号作为一个外键和订单表建立相应的关系。而不可以在订单表中添加关于客户其它信息(比如姓名、所属公司等)的字段。如下面这两个表所示的设计就是一个满足第三范式的数据库表。

数据库设计的三大范式、BCNF、4NF-第1张图片

  这样在查询订单信息的时候,就可以使用客户编号来引用客户信息表中的记录,也不必在订单信息表中多次输入客户信息的内容,减小了数据冗余。

  4、BCNF范式

  鲍依斯-科得范式(BCNF是3NF的改进形式)

  一个满足BCNF的关系模式的条件:

  1.所有非主属性对每一个码都是完全函数依赖。

  2.所有的主属性对每一个不包含它的码,也是完全函数依赖。

  3.没有任何属性完全函数依赖于非码的任何一组属性。

  假设仓库管理关系表为StorehouseManage(仓库ID,存储物品ID,管理员ID,数量),且有一个管理员只在一个仓库工作;一个仓库可以存储多种物品。这个数据库表中存在如下决定关系:

  (仓库ID,存储物品ID)→(管理员ID,数量)

  (管理员ID,存储物品ID)→(仓库ID,数量)

  所以,(仓库ID,存储物品ID)和(管理员ID,存储物品ID)都是StorehouseManage的候选关键字,表中的唯一非关键字段为数量,它是符合第三范式的。但是,由于存在如下决定关系:

  (仓库ID)→(管理员ID)

  (管理员ID)→(仓库ID)

  即存在关键字段决定关键字段的情况,所以其不符合BCNF范式。

  把仓库管理关系表分解为二个关系表:

  仓库管理:StorehouseManage(仓库ID,管理员ID);

  仓库:Storehouse(仓库ID,存储物品ID,数量)。

  这样的数据库表是符合BCNF范式的。

  5、4NF

  4NF就是限制关系模式的属性之间不允许有非平凡且非函数依赖的多值依赖。因为根据定义,对于每一个非平凡的多值依赖X→→Y,X都含有候选码,于是就有X→Y,所以4NF所允许的非平凡的多值依赖实际上是函数依赖。

  这里解决几个概念:

  函数依赖简单点说就是:某个属性集决定另一个属性集时,称另一属性集依赖于该属性集。(1)数据依赖在计算机科学中,数据依赖是指一种状态,当程序结构导致数据引用之前处理过的数据时的状态。其中最重要的是函数依赖和多值依赖。(2)函数依赖设X,Y是关系R的两个属性集合,当任何时刻R中的任意两个元组中的X属性值相同时,则它们的Y属性值也相同,则称X函数决定Y,或Y函数依赖于X。(3)平凡函数依赖当关系中属性集合Y是属性集合X的子集时(Y?X),存在函数依赖X→Y,即一组属性函数决定它的所有子集,这种函数依赖称为平凡函数依赖。(4)非平凡函数依赖当关系中属性集合Y不是属性集合X的子集时,存在函数依赖X→Y,则称这种函数依赖为非平凡函数依赖。(5)完全函数依赖设X,Y是关系R的两个属性集合,X’是X的真子集,存在X→Y,但对每一个X’都有X’!→Y,则称Y完全函数依赖于X。(6)部分函数依赖设X,Y是关系R的两个属性集合,存在X→Y,若X’是X的真子集,存在X’→Y,则称Y部分函数依赖于X。(7)传递函数依赖设X,Y,Z是关系R中互不相同的属性集合,存在X→Y(Y!→X),Y→Z,则称Z传递函数依赖于X。(8)多值依赖设R(U)是属性集U上的一个关系模式。X,Y,Z是U的子集,并且Z=U-X-Y。关系模式R(U)中多值依赖X→→Y成立,当且仅当对R(U)的任一关系r,给定的一对(x,z)值有一组Y的值,这组值仅仅决定于x值而与z值无关。平凡的多值依赖与非平凡的多值依赖:若X→→Y,而Z为空集,则称X→→Y为平凡的多值依赖;若Z不为空,则称其为非平凡的多值依赖。