设为首页 | 加入收藏
文献检索:

基于主题图与MARC的书目可视化检索系统设计与实现


□ 桂思思 石义金

华中师范大学信息管理系,湖北武汉430079

摘 要:

融合MARC、主题图与可视化技术,从设计步骤、实现方法两方面阐述基于主题图与MARC的书目可视化检索系统构建原理,并实现系统原型。系统以可视化的方式展示书籍间联系,有利于用户通过联系查找更多书籍。

桂思思 石义金

(华中师范大学信息管理系 湖北 武汉 430079)

摘 要:融合MARC、主题图与可视化技术,从设计步骤、实现方法两方面阐述基于主题图与MARC的书目可视化检索系统构建原理,并实现系统原型。系统以可视化的方式展示书籍间联系,有利于用户通过联系查找更多书籍。

关键词:MARC;主题图;可视化检索;书目检索;系统设计

中图分类号:G254.36      文献标识码:A

图书馆资源组织对象已由文献单元、元数据转向知识,其组织方式决定图书馆功能,影响服务的深度与广度。主题图在知识组织方面有突出优点,它可通过定义主题类型与相互联系形成某一领域的结构化的具有导航能力的知识网络。各方学者在主题图用于知识组织方面取得了很多积极成果。MARC(Machine-Readable Catalog,机读编目格式标准)是图书馆结合计算机的基础,它虽问世40余年,但其语义丰富,作为一种基本无损的书目信息格式的交换中介,仍受推崇。可视化能解释对象间联系,广泛用于数据分析、信息检索等领域。可视化在图书馆的应用研究较多,但涉及可视化检索较少。

若将三者结合,定能发挥MARC数据内涵丰富、主题图知识导航及可视化清楚明了的优势,有效帮助用户检索所需书籍。因此,本文在前人研究基础上,分析了MARC与主题图相结合的可行性,构建了基于主题图与MARC的书目可视化检索系统。

1 系统设计原理

MARC是专业图书馆员结合专业知识与相关操作规范,如《中国图书馆分类法》、《中西文电子资源CNMARC格式著录细则》等,经过智力劳动后得出的可信数据,可看作知识。同时,MARC数据按特定格式存储,结构化程度高,计算机处理方便。主题图作为一种描述信息资源的知识结构的元数据,可表示知识概念间的相互联系。主题图有三个要素:主题类型、联系、资源出处。

MARC记录可为主题图所用。例如,将MARC一个字段看作一个主题类型,当建立了主题类型(即MARC字段)间联系后,就完成了主题图概念模型的构建。再将每一条MARC记录看成一个主题,将主题图中的主题类型实例化,添入适当资源指引,可构建基于MARC的主题图实例。另外,MARC与主题图结合能避免重复信息标引的工作,优化信息组织的过程。

2 系统理论模型

本系统用主题图对MARC再组织,建立以书籍为对象的知识网络,并将检索结果以可视化方式反馈给用户。该模型包括资源层、主题图层、检索层以及用户层四个模块。理论模型如图1所示。

(1)资源层。包括图书馆实际馆藏书籍信息及相应MARC记录。馆藏书籍是检索的最终目的,MARC记录是馆藏书籍用于计算机分析处理的替身,是最直接操作的基本对象。

(2)主题图层。该层是系统的核心,本文第3节将作详细阐述。

(3)检索层。操作对象是主题图文档。主要是主题图文档的检索及检索结果的可视化反馈。

(4)用户层。提供人机交互界面,方便用户使用系统,帮助系统理解用户操作。

3 主题图层构建步骤

主题图层构建步骤如图2所示。

3.1 构建主题图概念模型

主题图概念模型是后续步骤的基础,直接影响本系统检索结果的精确性。若“主题类型”过少,则检索入口变少;若“联系”过少,则检索结果显示的关联性较弱,无法达到展现书目之间隐性联系的目的。

3.1.1 MARC字段确定

MARC字段多达几百条,因此必须思考哪些字段对用户具有更大的检索意义。如何选择MARC字段作为主题图要素是构建主题图概念模型的首要问题。通读《CALIS联合目录CNMARC字段一览表》、理解字段含义后,笔者结合温州大学图书馆以“OPAC书目检索字段选择情况”为题的问卷调查、《NBI net合作编目书目资料处理原理》及相关研究成果,结果见表1。

3.1.2 主题类型分析

“主题类型”要有代表性。本主题图概念模型有11个主题类型,具体如下:

(1)“正题名”、“并列正题名”。正题名是读者检索使用最多的检索入口,同时也是区分书籍的最佳方式。“并列正题名”是“正题名”的另一种表达形式,有利于检索翻译版书籍。

(2)“分类号”、“论题主题”。分类号、论题主题分别从中图法、主题法角度揭示书籍的内容,有效反应书籍的内容特征。

(3)“作者”。从侧面反应书籍间联系。跟踪某作者编著的书籍以及其合作者编著的书籍能发现内容相近书籍。

(4)“ISBN”、“出版社”。ISBN唯一标识书籍,查找结果唯一。不同出版社出版的书籍具有不同的内容偏向性,利用出版社可发现内容相似书籍。

(5)“主丛书名”、“附属丛书名”、“分辑名”、“分辑号”。“丛书名”相同的书籍在某一专业领域的内容相关度高。“分辑名”“分辑号”能反映书籍内容上的连续性。

3.1.3 联系分析

上述主题类型在主题图概念模型中只是分散的点,因此需建立主题类型间联系,形成图。具体而言,有3类联系:

(1)主题名与作者。第一作者编写关系、其他作者编写关系。通过上述关系,可推出作者间的合作关系。

(2)主题名、分辑名、分辑号间与主题名、主丛书名、附属丛书名间。均为三者关系,分别在书籍顺序及书籍内容方面有联系。

(3)主题名与并列主题名间、主题名与ISBN间、主题名与出版社间、主题名与分类号间、主题名与论题主题间。前三者为一对一关系。后两者是一对一、一对多关系。

3.1.4 主题图概念模型

综上,主题图概念模型如图3所示。

3.2 主题图实例模型构建

主题图概念模型只能方便人理解书目信息中各项目间关系,需要利用XTM(XML Topic Maps)技术将主题图概念模型代码化,方便计算机理解。XTM标准由topicmaps.org制定,通用标准为XTM 1.0。XTM语法严格,但人工编写代码繁琐且易出错,可读性弱。因此编写XTM常采用集成开发工具。因组件齐全且免费使用,本文选择Ontopia为主题图编写工具(http://www.ontopia.net):先利用Ontopia创建主题图原型(Topic Types、Association Types、Occurrence Types)。再将MARC对应字段的数据作为“Instance”加入Ontopia。在此处,笔者暂未开发自动提取MARC数据并加入Ontopia的工具,所以此处人工查找MARC记录,再输入Ontopia。

4 检索层构建步骤

检索层实现检索及结果可视化。

4.1 技术路线

本系统利用Java进行数据处理,利用ActionScript实现图形界面展示。系统涉及几个开源框架:解析XTM采用Ontopia框架,展示节点间关系采用基于Flex的SpringGraph组件,检索工具包采用的Lucene,中文分词组件采用Paoding。

(1)Ontopia解析XTM。Ontopia包含了建立一个完整主题图的所有基础应用。本系统采用Ontopia存储和维护主题图,借助Ontopia可方便查询出主题间联系、主题类型及资源指引。

(2)Lucene检索。Lucene是开放源代码的全文检索引擎工具包,提供完整的查询引擎、索引引擎、部分文本分析引擎。本系统采用Lucene创建索引及检索,提高检索速度。

(3)Paoding中文分词。Paoding有较高的分词效率和较令人满意的分词效果,支持词库扩展。本系统采用Paoding分词组件,对中文进行分词。

(4)SpringGraph图形化展示。SpringGraph是基于Flex的图形化展示组件。本系统采用SpringGraph组件实现主题图可视化,通过图形化的方式展示书籍间的联系。

4.2 结果可视化展现详述

本系统采用B/S模式,由检索模块和结果可视化展示模块构成。

(1)检索模块。本模块包括三个功能:检索框、结果显示及属性显示。系统仅一个检索框,类似简单检索模型,能减轻用户检索的负担。检索结果将反馈在结果显示窗口。因本系统只有一个检索入口,会遇上同名不同类型的检索结果。为使检索结果清晰明了,属性显示窗口显示该结果的类别(即主题的主题类型)。

(2)结果可视化展示模块。本模块有两个功能:可视化显示与可视化显示设置。

可视化界面将根据用户双击的主题,构建出新的可视化界面,显示多个主题间的联系。本系统支持自适应显示调节、关联显示、间距设置、深度显示调节、全屏显示调节。

5 实例分析

为获取本系统的书籍资源数据,笔者于2012年4月登陆华中师范大学图书馆书目检索系统(http://202.114.34. 15/opac/search.php),通过题名限制为“信息”、馆藏地限制为“信管系资料室”、分类限制为“文化、科学、教育、体育”,共选取包括《信息经济学通论》等书籍共93本,并提取其对应的MARC记录。

5.1 应用界面

图4是本系统的主界面。左侧是可视化显示区域,含可视化设置工具栏。右侧为检索区域,显示检索结果及检索结果的属性。首次打开时,左侧自动显示上次检索结果。

5.2 结果对比

原系统只能根据题名、责任者等固定字段进行检索,检索结果是书籍的列表形式。本系统是可视化检索,不仅可检索书籍本身,更可通过图中连线发现书籍间的联系。

为有效检测本系统的有效性,笔者分别在两个系统中利用“信息组织”四个字在题名项检索与信息组织相关的书籍,结果见表2。其中,直接检索结果数是系统根据第一次检索式反馈的结果数。间接检索结果是指根据直接检索结果通过一层链接点击后再次发现的书籍数。间接检索操作是得到间接检索结果的操作步骤。书籍关联项是指书籍间的途径关联。

通过直接检索所得书籍为《信息组织》等7本,间接检索书籍为《信息管理基础》、《信息管理》、《信息管理科学导论》、《信息管理学基础》、《信息管理概论》。

结合表2,本系统在书籍关联显示、帮助快速扩展检索结果、帮助读者发现书籍关联方面有明显的优势。

6 结语

本文在基于MARC的书目检索系统的基础上,利用主题图对MARC记录进行知识组织,再建立基于主题图与MARC的可视化书目检索系统原型。它能有效帮助用户通过可视化检索结果发现书籍间的内在联系,达到图书馆知识服务的目的。核心重点在于书籍信息的主题图构建以及可视化技术的应用。本文只是在图书馆书目检索系统检索结果可视化方面做出一点尝试,更完善的方法、功能更强大的系统有待进一步研究。

参考文献

1 毕强.数字图书馆知识组织系统建构的发展趋势——从机器可读到机器可理解[J].国家图书馆学刊,2010(1)

2 张玉涛,夏立新.基于主题图的电子政务信息资源整合模型研究[J].情报杂志,2009(7)

3 马建霞.主题图技术在数字化知识组织中的应用研究[J].现代图书情报技术,2004(7)

4 李清茂.基于主题图的旅游文献知识管理模型研究[J].情报杂志,2010(2)

5 刘丹,叶继元.中文引文索引主题图的构建及其实现[J].图书情报工作,2010(14)

6 胡小菁,李恺. MARC四十年的发展及其未来[J].中国图书馆学报,2010(2)

7 赵金龙,胡小丽,王硕等.利用Web3D技术建设数字图书馆平台的研究[J].大学图书馆学,2011(1)

8 陈俊凤,何晓萍.数字图书馆建设中的信息可视化技术[J].图书情报工作,2010(2)

9 刘姝.知识可视化在信息检索中的实际应用[J].图书馆杂志,2011(6)

10 何建新.主题图及其应用[J],中国索引,2005(1)

11 胡越慧.高校图书馆编目业务外包模式选择及质量控制——以温州大学图书馆为例[J].图书馆建设,2009(12)

12 胡小菁. MARC字段使用对图书馆元数据实践的意义[J].图书与情报,2010(3)

13 王冠华,危红.编目数据格式简化的标准化[J].图书馆论坛,2009(5)

14 李美红.新型OPAC系统下中文图书题名相关字段的简化著录——以广州大学为例[J].图书馆杂志,2012(1)

(责任编辑 梁 工)

特别说明:本文献摘要信息,由维普资讯网提供,本站只提供索引,不对该文献的全文内容负责,不提供免费的全文下载服务。

关于我们 | 网站声明 | 合作伙伴 | 联系方式
金月芽期刊网 2017 触屏版 电脑版 京ICP备13008804号-2