主页 > 大数据 > 元数据的基本定义是什么?

元数据的基本定义是什么?

一、元数据的基本定义是什么?

元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。元数据(Metadata)是描述其它数据的数据(data about other data),或者说是用于提供某种资源的有关信息的结构数据(structured data)。元数据是描述信息资源或数据等对象的数据,其使用目的在于:识别资源;评价资源;追踪资源在使用过程中的变化;实现简单高效地管理大量网络化数据;实现信息资源的有效发现、查找、一体化组织和对使用资源的有效管理。 元数据的基本特点主要有:a)元数据一经建立,便可共享。元数据的结构和完整性依赖于信息资源的价值和使用环境;元数据的开发与利用环境往往是一个变化的分布式环境;任何一种格式都不可能完全满足不同团体的不同需要;b)元数据首先是一种编码体系。元数据是用来描述数字化信息资源,特别是网络信息资源的编码体系,这导致了元数据和传统数据编码体系的根本区别;元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。元数据体系构建了电子政务的逻辑框架和基本模型,从而决定了电子政务的功能特征、运行模式和系统运行的总体性能。电子政务的运作都基于元数据来实现。其主要作用有:描述功能、整合功能、控制功能和代理功能。由于元数据也是数据,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。 在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。 在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估、选择等功能。一般认为,所谓元数据是关于数据的数据,或关于数据的结构化的数据。从已有的结论看,元数据的含义是逐渐发展的。元数据一词,早期主要指网络资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。元数据这一术语实际用于各种类型信息资源的描述记录。此外,元数据在地理界,生命科学界等领域也有其相应的定义和应用。

二、usb数据定义?

USB数据是由二进制数字串构成的,首先数字串构成域(有七种),域再构成包,包再构成事务(IN、OUT、SETUP),事务最后构成传输(中断传输、并行传输、批量传输和控制传输)。下面简单介绍一下域、包、事务、传输,请注意他们之间的关系。

  (一)域:是USB数据最小的单位,由若干位组成(至于是多少位由具体的域决定),域可分为七个类型:

  1、同步域(SYNC),八位,值固定为0000 0001,用于本地时钟与输入同步

  2、标识域(PID),由四位标识符+四位标识符反码构成,表明包的类型和格式,这是一个很重要的部分,这里可以计算出,USB的标识码有16种,具体分类请看问题五。

  3、地址域(ADDR):七位地址,代表了设备在主机上的地址,地址000 0000被命名为零地址,是任何一个设备第一次连接到主机时,在被主机配置、枚举前的默认地址,由此可以知道为什么一个USB主机只能接127个设备的原因。

  4、端点域(ENDP),四位,由此可知一个USB设备有的端点数量最大为16个。

  5、帧号域(FRAM),11位,每一个帧都有一个特定的帧号,帧号域最大容量0x800,对于同步传输有重要意义(同步传输为四种传输类型之一,请看下面)。

  6、数据域(DATA):长度为0~1023字节,在不同的传输类型中,数据域的长度各不相同,但必须为整数个字节的长度

  7、校验域(CRC):对令牌包和数据包(对于包的分类请看下面)中非PID域进行校验的一种方法,CRC校验在通讯中应用很泛,是一种很好的校验方法,至于具体的校验方法这里就不多说,请查阅相关资料,只须注意CRC码的除法是模2运算,不同于10进制中的除法。

  (二)包:由域构成的包有四种类型,分别是令牌包、数据包、握手包和特殊包,前面三种是重要的包,不同的包的域结构不同,介绍如下

  1、令牌包:可分为输入包、输出包、设置包和帧起始包(注意这里的输入包是用于设置输入命令的,输出包是用来设置输出命令的,而不是放据数的)

  其中输入包、输出包和设置包的格式都是一样的:

  SYNC+PID+ADDR+ENDP+CRC5(五位的校验码)

  (上面的缩写解释请看上面域的介绍,PID码的具体定义请看问题五)

  帧起始包的格式:

  SYNC+PID+11位FRAM+CRC5(五位的校验码)

  2、数据包:分为DATA0包和DATA1包,当USB发送数据的时候,当一次发送的数据长度大于相应端点的容量时,就需要把数据包分为好几个包,分批发送,DATA0包和DATA1包交替发送,即如果第一个数据包是DATA0,那第二个数据包就是DATA1。但也有例外情况,在同步传输中(四类传输类型中之一),所有的数据包都是为DATA0,格式如下:

  SYNC+PID+0~1023字节+CRC16

  3、握手包:结构最为简单的包,格式如下

  SYNC+PID

三、数据来源定义?

01 远古时代的数据

「数据」本身是存在的,就像空气,只有出现雾霾使它显式地呈现在我们脑海里。在百万年前,推及上亿年前,在人类没有出现在这个蓝色星球之时,数据这个事物一直在那里,它等待着的是人类那灵光乍现的智慧赋予它正真的含义。

在没有计算这个高端的家伙之前,人们为了让「数据」更加具象,便于统计,进行了至今数万的探索。在身边坚硬的物体如石器、骨片以及树干为载体,刻下纹理来代表对现实事物的表达,似乎成为了一个理所当然的开始。

1960年在非洲乌干达与扎伊尔交界处的伊尚戈渔村发掘的一根记数刻骨“Ishango Bone”(伊尚戈骨头),这是距今一万前伊尚戈人新石器时代早期的作品,是最早的刻符记数实物。远古部落人民使用这些凹痕记录日常的交易活动、物资储备和大事小情,并用他们来进行基本的算术计算。

02 现代化的数据

在今日计算机普及的社会里,数据更是显得非常有存在感,身处于大数据时代的我们已然意识到数据的重要性。那么什么是数据呢?看起来简单的问题,往往是最复杂的。

当下对数据更普遍的定义往往是从计算机原住民的视角。我们对客观事物进行观察、度量、猜测,按照统一或者不统一的尺度标准将结果予以记录,这些记录或多或少,都是数据。这些数据期望是未经加工的,它们能非常良好地代表原始事物本来的面貌和形态。

国际数据管理协会(DAMA)也认为,数据是以文本、数字、图形、图像、声音和视频等格式对事实进行表现。也就是说,数据要表现事实,受限于数据的采集技术以及数据解读能力,这或许这是一种理想。

数据表征存在,存在是不以人的意志为转移,包括物质的和精神的。物质方面有大自然中的风、雨、雷、电、人和动物等实体,这些是有明确感知的,非常方便数据化。在精神方面,人的欢乐、哀怨等情绪可以被大量多次主观度量,最终也可以形成数据。

数据似乎往往应用于实体,实体是大多数据刻画的对象。在刻画实体时往往需要系统数据,单一的数据似乎不那么受欢迎。在拥有了大量的对一个实体的刻画数据后,经常会从量变发生质变。

集结数据成为「信息」,加工信息成为「知识」,运用知识产生「智慧」,数据成为低层的驱动者;它们之间环环相扣、循序渐进,构成了「DIKW 金字塔」。

数据-信息-知识转化模型

我们再来看看东方智慧。中文词语「数据」暂且不论其词源,容我们从字面窥探一二。

「数」有两层含义,一个是数据往往用数字来记录事实,如一个人的年龄,一座山的高度;另个一个层面是它用数学的方法来进行统计最终得到记录结果,如一群人的平均年龄和群峰的平均高度,都应用了数学中的平均数概念。

再看「据」,我将据理解为日常生活中的票据,票据是证明,证明发生过此事,是人类大脑缺点的补充,是对时间的凝固,因此「据」是事实。所谓数据就是事实的数字化凭据。

03 展望未来

正如开头所讲的一样,对于数字时代的我们,数据或许真的和空气一样,已经不需要我们再去思考其概念。

当我们每天生活有数字化加持的小区里,工作在繁华的智能办公商业区,享受着数字生活的便利时,这一切显得是那么自然,而这也正是物联网时代下新的数据生态。

四、重要数据定义?

麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

五、数据网格化定义?

数据网格化(data gridding)是将空间上不均匀分布的数据,按一定方法(如滑动平均法、克里格法或其他适当的数值推算方法)归算成规则网格中的代表值(趋势值)的过程。

规则网格的大小和形状依研究目的和工作比例尺而定。数据网格化的基本功能,是遵循所研究变量的空间变化趋势,将空间上分散的数值转换成规则分布的网格数值,可压抑局部噪音,弥补空白网格的数值;同时,为不同变量的综合及对比提供划一的空间结构,以更加完整和充分地反映客体变量的空间模式。数据网格化是许多成图技术和模式识别技术处理数据的基本程序,也是GIS技术构建数据层的一种基本手段

六、数据增值的定义?

1、数据增值

允许组织中各种角色通过自助分系统,对数据进行分析,发掘数据价值。 

2、海量数据

为了保护产生于边缘的离散数据,30%的企业将在多个数据中心上建立和运行数据仓储;

3、数据交互

49%的应用将与其他应用有紧密相互关联,每个企业级应用都将与4-8个其他应用有频繁的交互。

七、数据跨境的定义?

是指任何正在转移数据到其他司法管辖区或是转移到其他司法管辖区之后意图再转移的行为。一般将数据跨境理解为“数据从一法域被转移至另一法域的行为”或“跨越国界对存储在计算机中的机器可读数据进行处理”。

按照“境外实体接触”,数据跨境主要包括两类

1、数据跨越国界的传输、转移行为;

2、尽管数据尚未跨越国界,但能够被境外的主体进行访问。

八、vhdl数据定义详解?

vhdl数据和其他软件编程语言一样,也有严格的标识符、数据对象、数据类型定义,准确、熟练掌握基本的数据定义,对初学者是非常必要的。

1.基本标识符

基本标志符有:

A~Z,a~z,0~9,以及下划线“_”。VHDL不区分大小写。标志符必须以字母开头,不能以下划线为结尾,不能出现连续的两个或多个下划线。

以下是一些有效的基本标志符:DRIVE_BUS、addr_bus、decoder_38、RAM18。

2.数据对象

数据对象也可认为是数值的载体,共有3种形式的数据对象:常量(constant)、变量(variable)、信号(signal)。

九、数据库定义?

数据库(Database),简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间(Tablespace)构成。

十、大数据的定义?

大数据(Big Data)是指规模巨大、类型繁多的数据集合,这些数据集合通常难以用传统的数据处理工具进行处理和管理。

大数据的特点包括数据量大、数据类型多样、数据处理速度快、数据价值高等。大数据的来源包括社交媒体、物联网、传感器、移动设备等各种数字化设备和应用。

大数据技术可以帮助人们从海量的数据中提取有价值的信息,支持商业决策、科学研究、社会管理等各个领域的发展。

相关推荐