一、关系表的形式化定义?
关系的形式化定义:
笛卡尔积:
笛卡尔积可表示为一张二维表
表中的每行对应一个元组,元组中的一个值叫做分量
表中的每列对应一个域
关系:关系是笛卡尔积的有限子集
相关概念:
域:是一组具有相同数据类型的值的集合
例:整数、实数、介于某个取值范围的整数、指定长度的字符串集合、{‘男’,‘女’}等
基数:一个域允许的不同取值个数
属性:关系中不同列称为属性,每个属性有一个名字
候选码:若关系中的某以属性组的值能唯一地标识一个元组,则称该属性组为候选码
全码:关系模式的所有属性组是这个关系模式的候选码,称为全码
主码:若一个关系有多个候选码,则选定其中一个为主码
主属性:候选码的诸属性称为主属性
非主属性(菲码属性):不包含在任何候选码中的属性称为非主属性
关系的类型:
查询表:是查询结果对应的表
视图表:是由基本表或其他视图表导出的表,是虚表,不对应实际存储的数据
基本关系(基本表或基表):
性质:
列是同质的(Homogeneous),即来自同一个属性
不同的列可出自同一个域,称其中的每一列为一个属性,不同的属性要给予不同的属性名
列的顺序无所谓,,列的次序可以任意交换
任意两个元组的候选码不能相同
行的顺序无所谓,行的次序可以任意交换
分量必须取原子值,即每一个分量都是不可分的数据项(规范条件中最基本的一条)
关系模式:
定义:关系模式是型,关系是值,关系模式是对关系的描述
关系模式是对关系的描述,是静态的、稳定的
关系是关系模式在某移时刻的状态或内容,是动态的、随时间不断变化的
指出关系的元组集合的结构
属性构成
属性来自的域
属性与域之间的映像关系
划出完整性约束条件
形式化定义:R(U,D,DOM,F)
R:关系名
U:组成该关系的属性名集合
D:U中属性所来自的域
DOM:属性向域的映像集合
F:属性间数据的依赖关系的集合
关系数据库:
定义:在一个给定的应用领域中,所有关系的集合构成一个关系数据库
型与值:
型:关系数据库模式,是对关系数据库的描述
值:关系模式在某一时刻对应的关系的集合
二、二元关系形式化定义?
数学上,二元关系用于讨论两个数学对象的联系。诸如算术中的「大于」及「等于」,几何学中的"相似",或集合论中的"为...之元素"或"为...之子集"。二元关系有时会简称关系,但一般而言关系不必是二元的。
定义
集合X与集合Y上的二元关系是R=(X,Y,G(R)),其中G(R),称为R的图,是笛卡儿积X×Y的子集。若 (x,y) ∈G(R) ,则称x是R-关系于y,并记作xRy或R(x,y)。否则称x与y无关系R。但经常地我们把关系与其图等同起来,即:若R⊆X×Y,则R是一个关系。
例如:有四件物件 {球,糖,车,枪} 及四个人 {甲,乙,丙,丁}。 若甲拥有球,乙拥有糖,及丁拥有车,即无人有枪及丙一无所有— 则二元关系"为...拥有"便是R=({球,糖,车,枪}, {甲,乙,丙,丁}, {(球,甲), (糖,乙), (车,丁)})。
其中 R 的首项是物件的集合,次项是人的集合,而末项是由有序对(物件,主人)组成的集合。比如有序对(球,甲)∈G(R),所以我们可写作"球R甲",表示球为甲所拥有。
不同的关系可以有相同的图。以下的关系 ({球,糖,车,枪}, {甲,乙,丁}, {(球,甲), (糖,乙), (车,丁)} 中人人皆是物主,所以与R不同,但两者有相同的图。话虽如此,我们很多时候索性把R定义为G(R), 而 "有序对 (x,y) ∈G(R)" 亦即是 "(x,y) ∈R"。
二元关系可看作成二元函数,这种二元函数把输入元x∈X及y∈Y视为独立变量并求真伪值(即“有序对(x,y) 是或非二元关系中的一元”此一问题)。
若X=Y,则称R为X上的关系
三、形式化定义的四种基本算法?
形式化定义包含4个基本的多项式算法.(1) 系统初始化:Setup(λ \lambdaλ) → {PK, MSK}输入安全参数λ \lambdaλ, 输出系统公钥PK和系统主私钥MSK.
(2) 私钥生成:KeyGen(PK, MSK, S) → SK输入公钥PK, 主私钥MSK, 属性集合S, 用户密钥SK.
(3) 数据加密:Encrypt(PK, A \mathbb{A}A, M) → CT输入系统公钥PK , 访问结构A \mathbb{A}A, 明文M, 输出密文CT.
(4) 数据解密:Decrypt(PK, CT, SK) → M输入公钥PK, 密文CT, 用户私钥SK, 输出明文M. 否则解密失败.
四、解释2nf,3nf的形式化定义?
2NF是关系中存在传递依赖,但不存在部分依赖的关系,3NF是关系中既不存在部分依赖,也不存在传递依赖的关系.
比如有关系R(学号,姓名,性别,年龄,所在系的编号,所在系的名称),在这个关系中,主码是(学号),各个非主属性对主码的依赖关系有:学号→姓名,学号→性别,学号→年龄,学号→所在系编号,另外还存在依赖关系:所在系的编号→所在系的名称,即所在系名称对主码(学号)存在传递依赖,所以属于2NF,分解为3NF:
R1(学号,姓名,性别,年龄,所在系的编号),R2(所在系的编号,所在系的名称)
再比如,有关系R(课程号,课程名,学分,教师姓名,教师性别,教师职称)【假设教师姓名不存在重复情况】,在这个关系中,主码是(课程号),各个非主属性对主码的依赖关系有:课程号→课程名,课程号→学分,课程号→教师姓名,另外还存在依赖关系:教师姓名→教师性别,教师姓名→教师职称,即所在教师性别对主码(课程号)存在传递依赖,教师职称对主码(课程号)存在传递依赖,所以属于2NF,分解为3NF:
R1(课程号,课程名,学分,教师姓名),R2(教师姓名,教师性别,教师职称)
五、重要数据定义?
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
六、usb数据定义?
USB数据是由二进制数字串构成的,首先数字串构成域(有七种),域再构成包,包再构成事务(IN、OUT、SETUP),事务最后构成传输(中断传输、并行传输、批量传输和控制传输)。下面简单介绍一下域、包、事务、传输,请注意他们之间的关系。
(一)域:是USB数据最小的单位,由若干位组成(至于是多少位由具体的域决定),域可分为七个类型:
1、同步域(SYNC),八位,值固定为0000 0001,用于本地时钟与输入同步
2、标识域(PID),由四位标识符+四位标识符反码构成,表明包的类型和格式,这是一个很重要的部分,这里可以计算出,USB的标识码有16种,具体分类请看问题五。
3、地址域(ADDR):七位地址,代表了设备在主机上的地址,地址000 0000被命名为零地址,是任何一个设备第一次连接到主机时,在被主机配置、枚举前的默认地址,由此可以知道为什么一个USB主机只能接127个设备的原因。
4、端点域(ENDP),四位,由此可知一个USB设备有的端点数量最大为16个。
5、帧号域(FRAM),11位,每一个帧都有一个特定的帧号,帧号域最大容量0x800,对于同步传输有重要意义(同步传输为四种传输类型之一,请看下面)。
6、数据域(DATA):长度为0~1023字节,在不同的传输类型中,数据域的长度各不相同,但必须为整数个字节的长度
7、校验域(CRC):对令牌包和数据包(对于包的分类请看下面)中非PID域进行校验的一种方法,CRC校验在通讯中应用很泛,是一种很好的校验方法,至于具体的校验方法这里就不多说,请查阅相关资料,只须注意CRC码的除法是模2运算,不同于10进制中的除法。
(二)包:由域构成的包有四种类型,分别是令牌包、数据包、握手包和特殊包,前面三种是重要的包,不同的包的域结构不同,介绍如下
1、令牌包:可分为输入包、输出包、设置包和帧起始包(注意这里的输入包是用于设置输入命令的,输出包是用来设置输出命令的,而不是放据数的)
其中输入包、输出包和设置包的格式都是一样的:
SYNC+PID+ADDR+ENDP+CRC5(五位的校验码)
(上面的缩写解释请看上面域的介绍,PID码的具体定义请看问题五)
帧起始包的格式:
SYNC+PID+11位FRAM+CRC5(五位的校验码)
2、数据包:分为DATA0包和DATA1包,当USB发送数据的时候,当一次发送的数据长度大于相应端点的容量时,就需要把数据包分为好几个包,分批发送,DATA0包和DATA1包交替发送,即如果第一个数据包是DATA0,那第二个数据包就是DATA1。但也有例外情况,在同步传输中(四类传输类型中之一),所有的数据包都是为DATA0,格式如下:
SYNC+PID+0~1023字节+CRC16
3、握手包:结构最为简单的包,格式如下
SYNC+PID
七、数据来源定义?
01 远古时代的数据
「数据」本身是存在的,就像空气,只有出现雾霾使它显式地呈现在我们脑海里。在百万年前,推及上亿年前,在人类没有出现在这个蓝色星球之时,数据这个事物一直在那里,它等待着的是人类那灵光乍现的智慧赋予它正真的含义。
在没有计算这个高端的家伙之前,人们为了让「数据」更加具象,便于统计,进行了至今数万的探索。在身边坚硬的物体如石器、骨片以及树干为载体,刻下纹理来代表对现实事物的表达,似乎成为了一个理所当然的开始。
1960年在非洲乌干达与扎伊尔交界处的伊尚戈渔村发掘的一根记数刻骨“Ishango Bone”(伊尚戈骨头),这是距今一万前伊尚戈人新石器时代早期的作品,是最早的刻符记数实物。远古部落人民使用这些凹痕记录日常的交易活动、物资储备和大事小情,并用他们来进行基本的算术计算。
02 现代化的数据
在今日计算机普及的社会里,数据更是显得非常有存在感,身处于大数据时代的我们已然意识到数据的重要性。那么什么是数据呢?看起来简单的问题,往往是最复杂的。
当下对数据更普遍的定义往往是从计算机原住民的视角。我们对客观事物进行观察、度量、猜测,按照统一或者不统一的尺度标准将结果予以记录,这些记录或多或少,都是数据。这些数据期望是未经加工的,它们能非常良好地代表原始事物本来的面貌和形态。
国际数据管理协会(DAMA)也认为,数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。也就是说,数据要表现事实,受限于数据的采集技术以及数据解读能力,这或许这是一种理想。
数据表征存在,存在是不以人的意志为转移,包括物质的和精神的。物质方面有大自然中的风、雨、雷、电、人和动物等实体,这些是有明确感知的,非常方便数据化。在精神方面,人的欢乐、哀怨等情绪可以被大量多次主观度量,最终也可以形成数据。
数据似乎往往应用于实体,实体是大多数据刻画的对象。在刻画实体时往往需要系统数据,单一的数据似乎不那么受欢迎。在拥有了大量的对一个实体的刻画数据后,经常会从量变发生质变。
集结数据成为「信息」,加工信息成为「知识」,运用知识产生「智慧」,数据成为低层的驱动者;它们之间环环相扣、循序渐进,构成了「DIKW 金字塔」。
数据-信息-知识转化模型
我们再来看看东方智慧。中文词语「数据」暂且不论其词源,容我们从字面窥探一二。
「数」有两层含义,一个是数据往往用数字来记录事实,如一个人的年龄,一座山的高度;另个一个层面是它用数学的方法来进行统计最终得到记录结果,如一群人的平均年龄和群峰的平均高度,都应用了数学中的平均数概念。
再看「据」,我将据理解为日常生活中的票据,票据是证明,证明发生过此事,是人类大脑缺点的补充,是对时间的凝固,因此「据」是事实。所谓数据就是事实的数字化凭据。
03 展望未来
正如开头所讲的一样,对于数字时代的我们,数据或许真的和空气一样,已经不需要我们再去思考其概念。
当我们每天生活有数字化加持的小区里,工作在繁华的智能办公商业区,享受着数字生活的便利时,这一切显得是那么自然,而这也正是物联网时代下新的数据生态。
八、ugc数据的定义?
UGC数据,即用户原创内容,最早起源于互联网领域,即用户将自己原创的内容通过互联网平台进行展示或者提供给其他用户。
在UGC模式下,网友不再只是观众,而是成为互联网内容的生产者和供应者,体验式互联网服务得以更深入的进行。
UGC 是伴随着以提倡个性化为主要特点的Web2.0概念兴起的。
九、社交数据的定义?
社交数据:随着移动社交成为最主要的社交方式,社交不仅仅只有人与人之间的交流作用,社交数据中包括了人的喜好、生活轨迹、消费能力、价值取向等各种重要的用户画像信息。
十、大数据数定义?
大数据数是指那些数据量特别大、数据类别特别复杂的数据集。