首 页| 企业简介| 荣誉客户| 文书档案整理| 人事档案整理| 档案数字化| 数据处理| 档案法律法规| 档案学堂| 联系我们
档案扫描
档案数字化
电子档案整理
设备档案整理
科技档案整理
资产档案整理
基建档案整理
声像档案整理
人事档案整理
文书档案整理
13969066503
13188947478
45603201   
61646666   
数据处理
文献信息资源的数据处理

[摘要]描述了信息与数据的关系和数据模型的建立,概述了数据描述语言的进展及在数据库系统阶段,异构数据库的数据集成技术进行资源共享和辅助决策发展。

[关键词]信息数据数据库数据字典数据集成

[分类号]G250.74

  信息革命使人类超越了工业社会下形成的技术观,实现了人类认识世界、改造世界的观念的转变。信息社会,信息成为物资和能源之后更为重要的“第三资源”。信息技术与计算机技术拓宽了人们的认识领域,推动了信息生产力的变革。因此,信息资源建设区别于传统图书馆的文献资源建设,代表着数字图书馆的发展及数字化知识体系的建立和形成。

1 信息世界的认知进程

  信息是客观事物的反映,而数据是信息的表现形式。因此,信息处理可视为数据处理。数据处理通常是将现实世界的“事物”经过认识,抽象成信息世界的实体,然后,描述成计算机世界的“数据记录”。

  三个世界的对应术语列表

  随着计算机技术的发展,数据处理的发展在短短的五十多年经过了三个阶段:①初级文件管理阶段(20世纪50年代中期以前)。②文件系统阶段(20世纪50~60年代中期)。③数据库系统阶段(20世纪60年代后至今)。数据库是结构化的按照信息的自然联系组织的数据集合,它不仅反映实体的内部联系,而且也反映了各种实体间的联系。马丁先生在《计算机数据库组织》一书中描述:“数据库是各种记录类型出现的集合,它包含记录、数据聚合和数据项之间的联系。”而我们定义的数据库是:“数据库是多个记录型数据集合体,它不仅储存数据,也储存数据之间的联系。”能够用数据或统一的结构表示的,称为结构化数据库(如数字、字符)。另一类信息根本无法用数据或统一的结构表示,称为非结构化数据库(如文本、图像、声音、网页等)。非结构化数据库是结构化数据库的一般情况,它包含着结构化数据库。数据模型是数据库中数据的整体逻辑结构,著名数据库专家戴特在《数据库系统导论》一书中给出数据模型的一般定义:一组目标型、一组算子、一组通用的完整型规则。流行的数据模型有:关系模型、层次模型和面向对象的模型。

  数据库系统是记录和维护信息的系统,由软件、硬件、数据和用户组成。数据库系统的描述分为三层:内层、概念层和外层。外层是近用户层,是局部数据库的描述,称为外视图。概念层是整个数据库的抽象描述,是全体用户视图,称为概念视图。内层是近物理存储层,涉及数据局部存储方法,称为内视图。图书信息管理系统中采购部、编目部、流通部,面向数据组织的称为概念视图。而采购部、编目部、流通部用户级的数据库观点对应采购视图、目录视图、流通视图,是局部逻辑结构描述,即外视图。内视图由内模式定义,内模式涉及存储字段表示法、物理顺序、索引、杂凑寻址以及物理记录大小、块的存取办法等,但它不是物理层,不受任何设备约束,具有一定的独立性。

2 数据描述语言概况

  数据和信息是密不可分的,数据包括各种信息与信息之间的联系,这些数据可以共享,是“集成化”储存的。数据字典是数据库管理系统(DBS)进行数据描述的特殊数据库。它包含每一个数据类型的名字、定义、来源、格式、用途以及它与其他数据联系的数据。这类数据称为元数据(meta data),元数据是描述数据的数据(data that describes data),是促进数据处理和标引数据的数据,也是人们组织和检索Internet信息资源的数据。英国UKOLNThe UK office for Library and lnformation Networking)的DESIREDevelopment of European Service for Information On Research and Education)项目研究成果把元数据分为三个级别:

  故数据字典又称为元数据库,一个字典数据库包含数据类型、数据项、组项、记录、文件、外模式、概念模式、内模式、用户应用程序、存取口令、安全性要求、完整性约束、映像等。

  信息资源数据库由参考数据库(如文献目录库、咨询库)和源数据库(如全文数据库、数值数据库)构成。情报数据具有三种来源:①自己加工建立的数据文件。②通过协作和交换的数据文件。③通过市场购买的机读数据文件。其中通过交换和购买的数据文件就有一个数据转换的问题,数据转换包括代码转换和格式转换,转换后的数据即可投入运行。MARC格式是机读目录格式的简称,是美国国会图书馆提出的著名机读目录发展计划1964~1968年期间研制的,目前大多数国家图书馆都是MARC用户。作为信息交换的工具,MARC格式结构在1971年确定为美国国家标准,1973年被ISO审定为国际标准,即著名的ISO27091973E)。GB2901是国家标准总局制定的中华人民共和国国家标准,它参照参考ISO2709第二版(1981-10-01)编制,ISO2709GB2901格式是完全兼容的两个标准。

  标准通用语言SGML为用户提供了一种类似于语法的机制,用来定义文档结构和指示文档结构标签(Tag),SGML规定了文档中嵌入描述标记的标准格式,指定了描述文档结构的标准方法。SGML从两种层次———结构和内容描述文献,其核心是文献类型的定义DTDDocument Type Definition)。SGML把来源不同的原始信息(如图形、文本、声音、动画、视频文件等各方面资料)组装在同一个文件中,DTD可以自由地定义文件结构,给新文件添加标记,反映文件结构单元,并校验电子文件是否遵循DTD中的文件结构。这种标记不依赖于任何软件和硬件。SGML是一个复杂的系统,它的应用标准包括超媒体语言HyTimeHypermedia Time-based Document Structuring Language),文献样式语义和规范说明语言DSSSLDocument Style Semantic and Specification Language),可扩展格式XSLeXtensible Style Language),可扩展连接语言XLLeXtensible Linking Language)等。

  Internet的广泛应用,超文本标记语言HTMLHyper Text Markup Language)应运而生,它提供了一种文本结构和格式,使其在浏览器上呈现给访问用户。HTMLASCII文件的增强版,目前HTML 40版本比较普遍,可支持不同种类语言,可为信息检索工具提供高效的检索、高质量的网页和更好的文语转换(Text to Speech,简称TTS)等。199611月,在波士顿SGML年会上新的数据描述语言———可扩展标记语言XML公布于世,XML是一种半结构化的数据模型,是Web应用服务的SGMT的一个重要分支,是一种元标记语言(Meta-markup Language),可提供描述结构化资料的格式。XML类似于HTML,在HTML中,用户软件不能阅读特殊语言字符,就不能阅读使用该文档,而XML提供了一种独立的运行程序的方法来共享数据和自动描述信息,XML的统一代码的新编码标准支持世界上所有的主要语言编写的混合文本,能阅读XML语言的软件就能使用处理这些不同语言的字符的任意组合。

3 异构数据库系统的数据集成

  信息资源建设的目的是完善信息服务。建立在智能联网技术基础上的浏览器/服务结结构以web为中心,采用TCPIPHTTP传输协议和HTML文档格式,这种BS结构实质上是一种三层结构的CS模式:①表示层。②功能层。③数据层。表示层在客户端,功能层放在应用服务器上,数据层放在数据库服务器上。

  数据库管理系统是数据处理的核心,是与应用密切相关的一般支撑软件。数据集成的目的是将系统中的数据按一定规则组织成一个整体,使用户有效地对数据进行操作。数据集成处理的主要对象是系统中的异构数据库的数据。数据库技术的发展趋向于辅助决策、服务决策。因此,形成了数据仓库———新的数据处理技术。数据仓库的数据概念模型是数据的多维视图,构成层次多维空间存放数字测量值。关系数据库中的元数据是对表、列、数据库视图和其他对象的定义。这是数据仓库的内部转移。

  异构数据集成将参与数据库的信息在逻辑上集成一个异构分布式数据库,属于异构分布式数据库的全局概念模式,达到信息共享。通过提取和格式转换,实现多数据源中的数据向数据仓库的集成。异构数据库中提取数据多采用ODBCJDBC,它们是数据库系统之间标准应用程序接口,使数据库系统具有良好的开放性,数据格式转换方便。另一种提取方法是C语言接口程序。多源异构数据集成有三个步骤:①清洗数据解析、校正、标准化、增补。②匹配,各数据源内部或之间数据比较,获取相似信息。③合并,消除重复数据。数据集成的四个层次:第一,基本数据集成办法:①隔离:保证实体每次出现指派一个惟一标识符。②调合:确认合并相同实体。当目标元素有多个来源时,指定某一系统在冲突中占主导地位,采用未丢失数据生成接近实际估计值的办法来解决数据丢失问题。第二,多级视图集成:多级视图机制有助于数据之间关系集成,底层数据表示局布格式,如关系或文件;中层数据表示公共模式,如拓展关系模型或对象模型;高层数据表示为综合模型格式。视图集成化过程的两级映射:①数据翻译、转换集成为符合公共模型格式的中间视图。②进行语意冲突消除,数据集成和数据导出处理,将中间视图集成为综合视图。第三,模式集成:模式合并属于数据库设计问题,操作系统中模式集成的基本构架,如属性等价、关联等价、类等价,均终归于属性等价。第四,多粒度数据集成:理想的多粒度数据集成模式可自动逐级抽象。①数据综合(或数据抽象):指由高精度数据经过抽象形成精度较低但粒度较大的数据,某作用过程从多个较高精度局域获取较低精度的全局数据,要对局域数据进行综合,提取主要特征。数据综合集成过程实际上是特征的提取与合并。②数据细化:是通过一定精度的数据获取精度高的数据,其实现途径有时空转换、相关分析或由综合中的数据变动记录(元数据)进行恢复。数据集成最终实现数据共享和辅助决策的基础。

  数据库的建设规模、信息量的大小和使用频率已成为衡量一个国家综合国力的重要尺度。坚持可持续发展的全新发展模式,实现图书馆资源的可持续配置、可持续开发、保存、利用,充分挖掘现代科学技术,实施科学管理,进行知识创新,实现资源重整,深化信息服务,既是知识经济发展的需要,也是保证人类社会长远与持续发展的不竭之源。

参考文献:

1 肖沪卫等.论图书馆管理的时代特征.图书馆学刊,20031

2 刘哲.数字图书馆资源建设与管理系统功能初探.图书馆学刊,20034

3 王瑞菊,韩喜运.试论网络化信息生产力.图书馆学刊,20035

4 张维明主编.信息系统集成技术.北京:电子工业出版社,2002

5 周宁编.信息资源数据库.武汉:武汉大学出版社,2001

6 周宁编.信息组织.武汉:武汉大学出版社,2001

马天舒 女,1971年生。毕业于辽宁工程科技大学,馆员。

添加时间:  2010-05-09 点  击  数: 1637
友情链接

海通证券大智慧下载 |滕龙购物资讯|钢铁资讯网|搜索引擎| 新股申购| 潮人网|香菇|石材雕刻机|123543互联网|济南人才网|哈尔滨电脑维修网|站长导航|大智慧新一代 |济南办公用品|国泰君安大智慧下载 |八闽给排水导航|档案服务|档案管理|档案扫描|人事档案管理软件|档案管理软件|济南沙发|山东布衣沙发|济南家庭沙发|济南档案用品| 中信建投大智慧下载 |

搜索关键词:人事档案整理|文书档案整理|档案扫描|档案技术服务
版权所有 2006-2009 山东省档案技术服务中心 电话:13969066503 13188947478 传真:0531-68851881
     QQ在线客服:45603201 鲁ICP备2024127756号