信息检索相关论文(精彩4篇)
【路引】由阿拉题库网美丽的网友为您整理分享的“信息检索相关论文(精彩4篇)”文档资料,以供您学习参考之用,希望这篇范文对您有所帮助,喜欢就复制下载支持吧!
信息检索相关论文【第一篇】
〔关键词〕信息检索用户交互认知分析相关反馈
〔分类号〕
User Interaction Behaviors and Effect Factors in Information Retrieval Process
Pei Lei
Information Research Center, Wuhan University, Wuhan430072
〔Abstract〕Focused on the interactions between users and system, this paper elabrates the general methods of user interactions research form aspects of behaviors discover, cognition and relevant feedback. Then, it analyzes the main effect factors of user interaction behaviors in information retrieval process, such as users' literature, retrieval tools' functions and socio-culture background. At last, it gives some advices on promoting the functions of retrieval tools.
〔Keywords〕information retrievaluser interactioncognition analysisrelevant feedback
国外大量研究表明,用户的差异性逐渐在网络检索行为中得到重视,网络检索系统逐渐从异质化的资源整合扩展到异质化的用户需求整合。在信息检索研究中,也开始从用户交互角度考虑网络信息资源检索机制和机器学习功能,开发针对特定用户组的检索系统和个性化的信息导航。但是,目前国内这类交互研究主要集中在算法和技术改进层面,而信息行为分析层面的文献并不多见。另一方面,正如唐宇萍所言[1],“用户认知对情报检索具有战略性的研究意义”。因而,本文主要从情报学理论和信息行为层面讨论信息检索过程中的用户交互过程和改进策略,以期引得国内同仁的关注与探讨。
1用户交互行为及其研究现状
用户交互研究是通过研究用户与检索系统对信息需求的生成、表达、传递、处理和反馈的全过程来改良检索系统的检索效率,或者建立面向用户的网络检索工具的研究方法。从理论背景来看,用户交互研究整合了用户认知研究、系统学习理论、社会信息学和信息检索,通过用户信息检索的心理需求,用户需求表达,人机交互(HCI)中的沟通、学习与反馈,跨语言和跨文化环境的社会影响,提高检索系统的信息识别和匹配来提高检索效率的研究机制。从研究方法上看,用户交互研究的出发点是用户特征,以用户为中心开展的面向用户需求的适应性系统改良,形成对检索过程的反复匹配和精炼。
目前,用户交互研究主要集中在用户检索交互行为、用户认知、系统学习与反馈等几个方面,逐渐形成了基于统计的用户需求调查研究方法、基于用户认知的知识概念映射方法、基于系统相关反馈的智能学习以及推理方法等典型的研究方法。通过中国期刊网的文献调研,发现我国在上述领域已经形成了一定的研究规模(如表1所示)。但是,交互检索和用户行为研究还并不多见,而且用户检索行为也并没有从用户需求、情报认知和相关反馈研究领域独立成专门研究。相对而言,国外在20世纪90年代已经开始系统研究用户交互行为,Wilson用户交流通用模型、Ingwersen用户交互检索过程模型、Saracevic交互检索层次模型以及Belkin对用户交互过程的认知解释都是这一研究领域的标志性成果。
2 用户交互行为的研究方法
用户调查统计研究方法
用户调查统计研究最常用的方法是通过网络检索实践中用户与系统交互数据的大样本定量分析方法。比如Amanda Spink和Bernard J. Jansen在《网络搜索:网络公共检索》中通过众多搜索引擎的检索数据统计分析来研究用户的检索行为特征,进而对用户公共网络检索行为特点进行综合研究[2]。
还有一类是对小样本的持续研究,通过对固定样本的跟踪研究来发掘用户的检索行为特征和习惯。比如Cothey对英国的206个大学生进行了10个月的网络信息查寻行为的研究[3],对URLs的事务日志分析5 431个用户信息搜寻的行为,为网络信息资源的建设和规划提出定量化的决策依据。此外,还有Schacter等1998年对儿童群体的检索特征和过程研究[4]等。
用户认知研究方法
20世纪70年代后,一批研究者提出把认知研究作为用户研究的理论基础,并逐渐将情报认知理论引入信息检索研究。1992年,P. Ingwersen专门分析了用户认知特征和用户认知分析方法,并提出了基于用户认知交互的查询模型[5]。该模型指出,用户的信息目标揭示、检索结果类型设定、信息理解推理和用户支持设计是认知检索的四个关键因素,通过领域分析、认知任务分析、生命周期测试和实验测试等方法可以完成“用户认知概念与系统检索指令的概念桥接”。而Belkin的ASK理论提出信息检索的任务是尝试描述、理解和解决知识的非常状态,并在1995年建立了一个信息查寻模型关注信息查寻过程中的检索行为[6],该模型认为认知交互过程主要包括交互的目标(学习――选择)、检索方式(识别――详述)、资源类型(信息――元信息)三个方面。Saracevic的用户交互检索模型[7]可看作是一个“层次化的模型”,它包含三个层次:界面、认知与状态。其中,认知层次上,用户和系统的输出发生交互,通过这种交互,用户获得与其问题状态相关的文本信息。
此外,Dervin的意义建构理论提出构建以概念为基础的系统开发模型,Kuhlthwu、Ellis和Wilson对非确定性和问题解决理论的研究等也将用户思维行为与信息检索过程结合形成基于用户认知的信息检索过程。国内还有一些学者关注认知中介知识结构[8]和认知主体的相关性研究[9]。
系统相关反馈研究方法
相关反馈的目标是从用户与查询系统的实际交互过程中进行学习、发现并捕捉用户的实际查询意图,并以此修正系统的查询策略,从而得到与用户实际需求尽可能相吻合的查询结果。目前,关于系统相关反馈的研究:一是对系统相关性的揭示;二是对系统反馈机制的研究。有些学者还采用匹配、相似度、系统相关反馈、主题性等术语描述系统相关,但在反馈机理上主要还是通过机器对检索对象相关性的识别来改进检索效果。迄今为止,主要的相关反馈方法包括词汇选择相似性相关研究、语法结构相似性相关研究、词频相关和概率模型相关研究等。
词汇选择相似性相关研究是解释用户或者标引者与系统之间的词汇选择相似性,但是标引者主题词选择存在相当的不一致性,不同标引者对同一对象的标引存在很大差异,使得纯粹词汇的相似难以反映内容相似度。而在语法结构相似性相关揭示中,目前还缺乏强大的能够支撑语法分析的语义和语用知识库,尤其还涉及跨语言及跨文化的协调。相对而言,基于词频和概率的相关性研究能够具有多维、动态、可测度和反馈控制的特点,具有相当广泛的应用,也是当前大多数相关反馈技术的理论基础。
在应用层面,基于相关反馈的各种检索技术采用最多的是向量模型,即将文本或者图像都表示成特征空间中的向量形式,从向量模型的角度出发,开发检索模式。典型的相关反馈技术算法模型包括MARS系统中实现的查询向量转移算法,CBIR模型权重调整算法,SVM的相关反馈算法以及基于贝叶斯的反馈算法等。
由于相关反馈可以实时地修改系统的查询策略,为检索系统增加了自适应功能,提高了检索效率。但是,相关反馈在控制信息搜集方面主要还是关注文本或信息本身的内容揭示来改进检索,文本内容与用户需求表达之间的匹配关注程度仍然不高,也是ACM SIGIR 2006提出的今后算法改进的重点突破领域。
3信息检索过程中用户交互行为影响因素
信息检索过程中的用户交互行为主要包括用户需求表达和系统反馈两个过程,两者相互作用,通过系统对用户需求的反馈,能够改进和提高用户对检索认知及检索需求表达的准确性。因此,用户交互行为涉及用户的信息认知和表达能力、系统功能、用户社会文化背景等相关因素。
3.省略、Alta Vista和Ask Jeeves等搜索引擎1997年到2003年的查询数据[2],在网络公共查询中,大约2/3的用户习惯一次检索到位,超过6/7的用户不会使用两次以上的查询检索,平均检索查询次数是次;只有大约8%的用户接受或者利用模糊检索来获取信息,使用布尔代数和专业查询的用户大约占总用户数量的1/18,但检索语言错误非常多。
在用户检索行为研究中,尤其在非搜索引擎的浏览查找中,记忆、操作印象和检索路径存储都是影响信息检索效果的因素。有学者指出[10],用户经验一是指用户自身的网络使用经验,二是包括检索系统对用户访问路径的记录和对用户访问习惯的学习。因此,网络信息检索用户交互一方面应该提高用户的基本信息素质;另一方面应该通过揭示和披露用户信息素质,在系统层面建立与用户素质相适应的使用与导航体系,优先考虑用户的适应程度。
检索系统功能
检索交互的本质是人和机器的相互学习,人对机器的学习体现在用户的信息素质上,而机器对人的学习则反映在检索系统的设计上。纵观检索系统学习机制的设计,主要有两大类:一类是行为识别,通过对特定用户的检索行为特征进行归纳,设计个性化的检索系统,缩减用户的检索步骤;另一类是逻辑推理,利用检索信息内容的关联,提供用户检索决策支持,提供推理机(专家智能)和Push服务。
在行为识别中,检索系统认知理论吸纳了心理学家对信息处理过程和学习认知行为的基本理论,提出在认知语境之外主要提供三种行为揭示机制:①认知结构理论,用户在基本认知过程和结构中是一致的,如果系统能够揭示出认知特征,借助知识推理,反映认知过程,也就是人工智能过程;②用户认知测试,要么通过问卷或标准问题组反映用户的信息认知特征,要么通过用户定制,让用户自我表述认知特征,进而设计不同风格、领域和粒度的信息资源;③知识兴趣群体(COPs),通过兴趣社区的模式,以关联、推荐、志同道合者交流反映用户认知特征。
逻辑推理更多是系统工程,提高智能模拟和推理的准确率是人机交互的关键。目前,逻辑推理不仅关注推理规则的设计,而且还逐渐整合语境、资源特征、社会环境因素,将界面风格、整合信息粒度、用户认知能力进行统一考察。
总之,对检索系统用户交互的关注,使网络信息检索系统在资源展示的内容与形式、界面设计、检索式编制、资源粒度、网站构建、系统对检索词的处理都得到不同程度的关注与改进。
社会文化背景
信息检索作为知识过程,涉及认知和内容匹配,社会文化背景的差异必然会影响用户在语言、检索过程和资源选取上的差异。社会文化背景对信息检索交互的影响主要在于信息检索的社会化趋势。而信息检索的社会化主要有两层解读:
信息检索需求的社会性。检索需求来源于生活和工作的社会环境,识别用户信息检索需求依托用户社会环境,社会环境和检索过程交互进行。
信息检索过程的社会性。检索过程社会性是指除用户的知识领域、检索技能和检索经验外的常识能力、操作习惯、思维特征及文化背景对检索过程的影响,主要表现为社会暗示、协作行为、环境适应和跨语言协调。其中,信息检索专家对社会协作行为和跨语言检索最为关注。社会协作检索从检索入口词对数据库的信息映射检索流程,向信息映射和人际关系关联相结合,从检索信息内容向检索信息专家转变。在跨语言检索研究中,对翻译机制和语义消歧方法研究较多,成立了文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议等组织和研究中心。
4用户交互研究对检索工具的影响
信息检索的用户交互技术是改良信息系统功能和效果的重要手段,因而也是国内外信息机构和企业所关注的热点问题。2006年,ACM SIGIR会议主题就是互动搜索分析,围绕搜索引擎模型、翻译技术、点击和浏览行为模式,构建“为预测网络搜索结果偏好而了解用户的互动模型”和“通过一体化用户的行为模式来改进网络搜索的优先次序,提高检索命中率的检索模型”[11]。
在检索理论和模型研究中,面向用户/任务的检索理论、用户需求搜集策略、用户认知能力的可视化和资源展示的可视化、基于用户的信息检索系统构建、用户查询反馈控制、基于用户的文本过滤等问题也逐渐成为信息检索工具研究的热点和难点。
参考文献:
[1]唐宇萍。用户认知观视野中的情报检索。情报理论与探索,2004(5):458-461.
[2]Spink A, Jansen J. Web search: public searching of the web.[2006-12-20]./~aspink/DIY%
[3]Cothey V. A longitudinal study of world wide web users' information searching behavior. Journal of the American Society for Information Science and Technology, 2002,53(2):67-78.
[4]Schacter J, Cung K W K, Dorr A. Children's Internet searching on complex problems: Performance and process analyses. Journal of the American Society for Information Science, 1998,49(9):840-849.
[5]Ingwersen P. Information retrieval interaction:1992.[2006-12-10]. /pi/iri/.
[6]Belkin N J. Cases, scripts, and information seeking strategies: on the design of interactive information retrieval systems. Expert System with Application, 1995(9):379-395.
[7]Saracevic T. Digital library evaluation: Toward an evolution of concepts. Library Trends, 2000,49(3):350-369.
信息检索论文【第二篇】
作者:李爱军 孙智英 单位:山东农业大学图书馆 潍坊科技学院
在查找英文文献时更是如此,如要查找与土壤铜形态转化有关的文献时,可以直接查“copperspeciation”也可以查“cop-perfractionation”还可以将前面的“copper”换成“heavymetal”,这样就可以保证对所有相关的资料都检出。当然在检出条目过多时也可缩小检索的范围,或者在检出的文献中再选择关键词进行检索,以保证检出那些与目标内容密切相关的文献。运用检索的规则,调整检索范围对于文献较多的检索,不可能每篇文章都看,需要从中筛选出密切相关的进行阅读,因此需要调整策略进一步缩小检索的范围,减少文献检出的数量。而对于文献较少的内容则希望扩大检索的范围,这就需要熟悉检索规则,合理界定检索的范围。常用的方法有:(1)逻辑与(逻辑乘)的运用。用“and”或“*”连接几个检索词,可以缩小检索范围,减少检出文献的数量。例如,AandB(A*B)表示检出记录中必须同时含有检索项A和B,两个概念的交叉,即用逻辑与连接的检索词越多,检索范围越小[2-3]。(2)逻辑或(逻辑和)的运用。用“or”或“+”连接检索词,如检索AorB(A+B)可以检出单独含有检索项A或检索项B以及同时含有A、B两者的文献,可大大扩大信息检索范围,提高查全率,避免都信息查找的遗漏。(3)逻辑非(逻辑差)的运用。用“not”或“-”连接检索词,如AnotB(A–B)表示检索内容中有A但没有B,即凡含有检索项A而不含检索项B的记录为命中记录。逻辑非检索可以有效排除不相关的文献,提高了检索内容的准确度。运用通配符进行模糊搜索一般用“?”和“*”等通配符可以代替检索词中的一个或多个字母,这样仅利用检索词的部分不完整词形即可进行检索。通配符可以放在词根的前面、后面、中间,也可以放在两端。例如,检索“?Comput-er”则凡是后方为computer的词均可被检出,如可检出Microcomputer、Minicomputer等。检索“Comput-er?”时,前方为computer的词均可被检出,检出词可为Computers、Computerization等。检索“?Com-puter?”,检出词可为:Microcomputer、Minicomputer、Computers、Computerization等,凡是中间部分包含Computer的词均可被检出。对于意思相同但写法不同的的词,为了将所以包含这些词的文献检出,可将通配符置于检索词的中间,而词的前后方一致进行检索。通常用于英、美拼写不同的词的检索。如,检索“Colo?r”,检出词可包括为Colour和Color。限定检索词的出现位置有时为了提高查准率,需要固定检索词出现的位置关系,那么就需要用到一些限制位置的特殊用法。
位置限定运算符号一般有以下四种:①使用N(near的缩写)表示检索词的距离远近,如A(N)B表示两词相邻且词序可变,A(nN)B表示两词间可插入n个词(n为0,1,2…整数)[3,4]。②使用S(sentence的缩写)表示两次在句子中的关系,如A(S)B表示两词必须同时出现在同一句短语中,两词的前后顺序不限,中间插入词数量不限。③使用F(是field的缩写)表示两词在字段中的位置关系,如A(F)B表示A、B两检索词必须同时出现在同一文献记录的同一字段中,词序、中间插入词的数量不限,但必须指定所要找的字段。④用C(是citation的缩写)表示两检索词在文献纪录中的位置关系,如A(C)B表示两词必须同时在同一个文献记录中,两词的词序、出现的字段不限。限定检索的范围电子文献信息资源内部还包含许多个信息资源数据库,为了提高检索的速度和提高查准率,可以对要检索的数据库进行选定。如目前的《中国期刊全文数据库》可分为:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理等10大专业数据库。如果要查找与农业相关的专题(如作物栽培)可以只选农业专业数据库即可。
而对有些检索主题可能会涉及多个专业数据库,那么就可以多选几个。在具体检索时还可对检索范围进行限定,如可选择检索词出现的位置,如主题、篇名、刊名、关键词、摘要、作者、单位及参考文献等,还可限定刊物出版的时间段等。利用二级检索功能或高级检索功能二级检索是指利用前一次检索的结果作为后一次检索的数据库,逐步缩小检索范围,即在上一次的检索查询结果中,再输入另外的检索词进行查询,这样检索的结果相当于用“and”或“*”连接几个检索词,或者直接输入几个关键词的检索效果,可以缩小检索范围、提高查准率。几乎所有的数据库都提供高级搜索服务,使用这一功能就可方便地对自己要检索的内容进行限定,在这里可以增加附加的检索条件,以缩小查询的范围,不同的搜索引擎提供不同的选项,常规的选项一般包括日期、作者、关键词、文献类型、范围、网域、语言等。
信息检索论文【第三篇】
关键词可视化;本体;期刊论文检索
“一幅图胜过一千句话”,信息可视化以满足信息检索用户日益增长的多样化、个性化检索需求为目的,帮助用户揭示信息背后隐藏的信息关联及规律,提高检索效率。本文使用文献[1]构建的数字参考咨询领域的本体及数据关系进行可视化研究,将信息可视化应用到期刊论文语义检索中,一方面实现了基于领域本体图的可视化导航,方便用户了解领域概念及概念之间的关系;另一方面将检索结果转换成图形,将期刊元素如作者、引用与被引用等多维关系转换成二维关系,显示在一个二维空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率和性能。
1.信息可视化的国内外研究动态
信息可视化在国外的研究
信息可视化研究被国际上列为热点研究课题是在20世纪90年代中期,以两个系列的国际研讨会为重要标志。一个是从1995年开始,每年10月在美国召开的IEEE Symposium on Information Visualization,除了定期召开会议外,还出版了一系列会议论文集,在业界产生了较为广泛的影响。与此同时,从1997年开始,IEEE每年7月在英国伦敦召开信息可视化国际研讨会(IEEE International Conference on Information Visualization),并同样出版了一系列会议论文集。欧美的这两个系列的国际学术研究会已形成了一种气候,它不断将理论研究与实际应用推向新的高度。欧美国家的可视化研究已经取得了一批具有领先地位的成果,在理论研究方面比较注重可视化模型方法,在应用领域不仅出现了一批原型系统,而且部分系统早已投入使用。
笔者以主题为“论文信息可视化”进行了EBSCO数据库外文检索,在EBSCO中查找的的数据库有:Academic Source Premier、Bu-
siness Source Premier、ERIC、Library、Information Science & Technology Abstracts、Teacher Reference Center。检索范围为1985-2010,检索式为“Title=(visualization)AND Abstract=(literature research+papers research)”,检索结果为34篇,剔除重复的1篇,共33篇相关文献,检索结果统计分析如表1-1。
EBSCO数据库中相关文献的检索结果显示,最早的关于论文信息可视化的外文文献是1991年Cort,Louise Allison撰写的“Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan (Book)”此篇为一书评[2]。1992年后的5年中只有1篇相关文献。1997-2010年累计发表相关文献31篇,这表明新世纪以来国外对可视化在文献检索中的研究日益重视。笔者在研读以上文献时发现,国外在信息可视化的研究方面的论文主要集中可视化在医学中的应用、可视化工具在文献关系揭示中的研究、可视化检索模型研究、个人信息搜索并可视化显示等,说明可视化为文献检索提供可视的直观的效果,同时文献检索也促进了可视化技术的不断发展。
信息可视化在国内的研究
我国最初几年关于信息可视化的研究中大量的文献主要是对信息检索可视化概念的介绍,以及地理、空间、数据库、文献和多媒体等方面的可视化技术的介绍。现在己经有越来越多的学者关注面向网络及大规模信息资源的检索可视化技术、各个具体领域的可视化、各种算法的改进等具体问题。针对可视化技术在文献研究领域中的应用主要有:胡志刚、侯海燕撰文对科学技术期刊群中的17种期刊进行了聚类和社会网络分析,可视化地显示了各个期刊之间的亲疏关系和关联特点,其可视化对象是期刊及其期刊之间的关系,其研究对象是期刊论文[3]。鲍杨、朱庆华在论文中以CSSCI数据库收录的全部情报学领域的论文(1998—2007年)为数据源,运用社会网络分析方法,建立了较为完整的情报学研究领域引文网络、共引网络及作者合著网络。同时他们还选取其中的重要节点,用Pajek进行了可视化,体现了近10年来我国情报学研究领域的主要作者和论文[4]。张学福教授在信息检索可视化领域的研究成果颇多,他不仅介绍了信息检索可视化的基本问题,即信息检索模型、信息内容描述、可视化映射技术、可视化显示技术、全局映射与局部映射、实时可视化和人工参与的可视化等。而且从功能特点等角度介绍了几种代表性的可视化开发工具:OpenGL、Open Inventor、IDL和VTK等,以便用户根据其特点选择相应的开发工具来开发可视化信息检索的应用软件[5][6]。张学福教授带领的研究生有3篇相关的硕士论文:《基于引文的信息检索可视化系统研究》一文基于信息检索可视化技术及引文理论,研究并构建了具有个性化特色的集检索、可视化及统计分析功能于一体的基于引文的信息检索可视化系统[7];《基于摘要信息的中文信息检索可视化系统研究与实现》分析比较国内外典型的信息检索可视化系统,并将基于词共现的概念空间方法与信息检索可视化技术相结合实时生成概念空间图,实现了检索过程和检索结果的可视化,设计并实现了集成信息检索、情报分析和服务功能的基于摘要信息的中文信息检索可视化系统,并对系统进行测试与评估[8]。
可视化的检索平台在国内的研究有人立方[9],谷歌挑歌[10]等。人立方关系搜索是微软亚洲研究院正式的一款新型社会化搜索引擎,它能够从中文网页中自动的抽取出人名、机构名、地名以及中文短语等,根据搜索的关键词和与其相关的人名之间的关联度强弱自动的计算每一个人名与关键词直接的距离、数据大小以及具体的摆放位置等等,并通过一条有标明人际关系的细线连接他们。谷歌挑歌相比其他音乐搜索引擎来说,谷歌挑歌采用的是一种相对模糊的搜索模式。该系统不是根据歌名或歌手名来搜索,而是调节节奏从舒缓到强烈、声调从低沉到高亢、音色从丰富到单纯这三个滚轮,依次在音乐库中挑选出符合条件的歌曲。虽说是相对模糊的搜索模式,但对寻找某一类型的歌曲还是很有帮助的。
从整体上看,我国在该领域的研究与应用还处于起步阶段,与国外先进技术有较大差距,研究呈现出零星、分散的特征,没有形成规模。主要研究单位有武汉大学信息资源研究中心,中科院国家科学图书馆,中科院软件所及部分大学的图书情报院系和计算机学院等。
2.基于领域本体的可视化导航检索机制的设计与实现
基于领域本体的可视化导航检索首先确定可视化对象,这里的对象包括基于领域本体的领域概念集合和文献及其属性两类。其次,构建可视化空间。即降低高维向量空间的维数,构建低维可视化空间,这是可视检索的关键,不同的可视化检索工具构建可视化空间的方法不同,一般来说,构建可视化空间应主要考虑两个因素:一是以其信息可视化的方法为基础,二是以其自身文献信息系统的结构为基础。本文基于领域本体概念的可视化导航按照双曲树[12]的表现方式,将层次关系显示在一个双曲平面上,然后将双曲平面映射到显示区域。而期刊论文语义检索结果由于受人类认知能力的限制,我们只能感知到一维、二维和三维的物理对象,所以我们的可视化空间只能是二维或三维,显示维数不同,接口的空间表达能力也就不同。本系统为了能清晰地表现节点文献的属性,将四维关系降为二维显示,方便用户理解和使用。
基于领域本体概念的可视化导航
目前出现很多检索系统采用了无定型关键词的询问系统,只要输入检索词,平台就会询问希望用到的代名词、相似词及下位词等,以便用户拓展查询。而基于本体的可视化检索系统用可视化的方式显示检索词的语义关系,一方面体现可视化的优点,以直观的可视的形式为初入本检索领域的用户介绍该领域的具体内容及研究热点等问题;另一方面,避免了用户筛选词的过程,本系统根据领域本体库中概念间的语义关系,直接检索,将最全、最准确的结果反馈给用户。基于本体的导航机制通过揭示信息对象间的语义关联,能够准确、深入地表征信息的内容,是一种高层次的内容导航方法。本系统采用Flash工具,以本体概念为节点,实现了可视化的导航。执行代码如下:
基于本体的期刊论文检索结果可视化
期刊论文的检索结果可视化是基于用户需求的智能导航,其目的是通过期刊论文间的关系指导用户检索所需文献,即随着用户浏览意图的不同,提供不同的信息,实现动态导航。因此,用户使用过程中,用户点击不同的属性按钮实体,将根据实体类别生成不同的检索结果。这种导航是根据不同的中心节点内容动态生成。例如点击甲文献,则以甲文献为中心节点,以同著者文献、相关文献、参考文献、被引文献为四个属性按钮实体,点击任何相关文献按钮实体,则生成相关的文献,如果选择相关文献中的文献乙,则以乙文献为中心节点,并动态生成乙的属性按钮实体和相关文献。可视化的显示通过Flash调用JS方法,对数据库元数据进行检索,录入XML中,然后调用显示。具体代码如下:
期刊论文检索结果可视化导航,将中心节点文献的四维属性降为二维关系显示在页面。如果属性有值则显示节点球体,同时显示节点文献题名;如果属性值为零则不显示。随着鼠标在属性节点的点击转换中心节点。其实现代码如下:
3.基于本体的期刊论文可视化检索系统介绍
领域本体的可视化
基于本体的期刊论文可视化检索系统以数字参考咨询领域的期刊论文为例,在用户只知道数字参考咨询这个大类,而对下位类领域知识不了解,却需要认识该领域知识的用户提供帮助,即给初入数字参考咨询领域的用户指引方向;同时也为身在参考咨询领域的人员理顺知识结构,指导期刊论文的语义检索。用户只要点击导航列表中的数字参考咨询,主页面中将显示本文中构建的本体图,此图实现双曲几何的可视化,将层次关系显示在一个双曲平面上,然后将双曲平面映射到显示区域。点击图中的概念节点,系统将以该节点为检索词列出相关的文献。可视化导航图如图3-1。
可视化导航列表
点击本体概念的可视化导航中任意节点,系统就会以该节点为输入词将语义检索结果以列表图的形式返回到用户桌面。以下以点击参考咨询为例,其实现效果如图3-2。
检索结果的可视化导航
以可视化导航列表为基础,点击任意1篇文献题名,系统将以该篇文献为中心节点,以参考文献、同著者文献、被引文献和相关文献四个属性值为四个检索方向,实现文献在可视化状态下的连续导航。将中心节点的四维关系将为二维关系显示。图3-3为点击期刊论文《虚拟参考咨询全景扫描》,可视化导航以该文献题名为中心节点,以参考文献、同著者文献、被引文献和相关文献四个属性关系展开显示。
点击被引文献,《虚拟参考咨询全景扫描》这篇期刊论文的被引文献将以被引文献按钮为中心散发开来。其效果如图3-4。
点击参考文献则以参考文献按钮为中心展开该篇文献的参考文献题名,其效果如图3-5。
点击同著者按钮则以同著者文献按钮为中心展开该篇文献的同著者文献。如图3-6所示。
由于本系统数据量只有1362条,所以检索结果有可能是1条记录或没有相关记录,这种情况可以随着数据量录入的加大逐渐得到改善。
点击相关文献则以相关文献按钮为中心展开《虚拟参考咨询全景扫描》的相关文献题名,其效果如图3-7所示。
以上都是针对《虚拟参考咨询全景扫描》的相关可视化导航,而相关属性按钮展开的文献节点同样在鼠标的点击下变为中心节点。如图3-8,点击相关文献《基于知识管理框架的合作数字参考咨询服务》,则中心节点就会变为《基于知识管理框架的合作数字参考咨询服务》文献题名,同时显示与之对应的该篇文献的相关文献。点击其他文献也是同样的道理。
只要系统中存有相关数据,则就有记录显示,如果没有相关数据,则不显示。同时,为了用户返回方便,系统提供了后退按钮,使用户操作起来来回自由且方便。
4.总结与展望
信息语义检索及可视化导航是一个较新的研究方向,随着信息检索技术及信息可视化技术的发展而发展起来,同时随着网络信息资源激增,以及用户信息需求的进一步提高而获得了更大的发展空间,将日益显示其优势。而在实际检索环境中,信息语义检索及可视化显示并没有得到广泛应用。本文针对传统期刊论文检索系统可视化效果差的不足,实现了对数字参考咨询领域期刊论文基于本体语义图的可视化导航检索系统的开发。提供了基于本体的可视化导航,方便用户对领域知识一目了然,同时能指导用户检索,让检索变得轻松自如。
然而,目前系统的可视化不能以线条的长短或球体的大小来指导记录的权重或重要性,需要进一步改进。在动态效果等方面也需要进一步完善。
参考文献
[1]张学梅。基于本体的期刊论文检索系统研究。图书馆学研究(理论版),2011(12):66-71.
[2]Cort,Louise in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan[J].Journal of Asian Studies,1991(2):171-173.
[3]胡志刚,侯海燕。科学技术学期刊群的可视化分析[J]大连理工大学学报(社会科学版),2009(2):119-123.
[4]鲍杨,朱庆华。近10年我国情报学研究领域主要作者和论文的可视化分析——基于社会网络分析方法的探讨[J]情报理论与实践,2009(4):9-13.
[5]张学福。信息检索可视化基本问题研究[J].中国图书馆学报,2006(3):37-40
[6]张学福。信息检索可视化开发工具[J].现代情报,2005 (11):38-41.
[7]孙巍。基于引文的信息检索可视化系统研究[D].黑龙江大学信息管理学院,2007:1-73.
[8]陈颖。基于摘要信息的中文信息检索可视化系统研究与实现[D].黑龙江大学信息管理学院,2007(2):1-56.
信息检索论文【第四篇】
关键词:信息检索 信息分析 信息提炼 立体印刷
中图分类号:TM63 文献标识码:A 文章编号:1674-098X(2016)09(c)-0100-02
在新的生活环境下,每个人都需要从各种各样的信息源中收集、提炼有用信息,为正确决策提供参考。一方面,人们可以利用网络方便、自由、快捷的、查询信息;但另一个方面,由于网络环境的开放性,信息更新的快速性,使得信息资源出现分散、异构、无序的特性,极不利于人们有效开发和利用这些资源。面对信息急剧增长、技术不断更新的新局面,需要我们对信息检索技术进行深入的研究,从而提高网络信息资源的利用率,尤其是科研工作者必须增强获取、选择和利用信息的能力。
1 信息检索概述
信息检索是将信息按一定的方式组织起来,并根据信息用户提交的查询条件检索出相关文档的过程和技术。信息检索涉及数据库技术、图书和情罂蒲А⑷斯ぶ悄堋⒆匀挥镅源理、机器学习等众多知识和学科领域[1]。信息检索作为一门学科,主要研究信息的获取、表示、存储、组织和访问。
信息检索的意义
信息检索是对信息进行集中表示、存储、组织加工、统一管理,使用户更容易得到所需要的信息,进而对信息进行加工,根据分析得出新的思路和方法,实现信息激活和增值。有效的信息检索可以节省科技人员的时间,提高工作效率;帮助人们进行知识更新;继承和借鉴前人劳动成果,促进科技的快速发展;协助管理者做出正确的决策。
信息检索的四要素
信息检索包含四个要素:信息意识、信息源、信息获取能力、信息利用[2]。信息意识是信息检索的前提,指人们借助信息系统获取所需信息所做出的能动反映,使人们对信息的敏感程度、选择和运用信息能力;信息源是信息检索的基础,如专著、期刊、报告、学位论文、会议记录、专利、标准、统计数据、政府出版物、档案文献信息等;信息获取能力是信息检索的核心,是指人们对信息的了解、查找、整理加工;信息利用是信息检索的关键,即对信息进行有效的加工和利用。
检索语言及方法
检索语言是为沟通文献标引与文献检索而编制的人工语言,是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。检索语言主要包含分类、主题、代码和自然四类语言[3]。分类语言是指用各种分类号来进行检索的标识,按学科性质进行系统排列,包括主题、科学、图书和专利分类语言;主题语言是直接以表达文献主题的词语作为检索标识,包括关键词、标题词、单元次和叙词语言等;代码语言是指将事物的某一方面特征用代码系统来标引和排列的检索语言,例如,分子式索引系统;自然语言是指未经规范化处理的检索语言。
信息检索包括手工和计算机检索,常用的检索方法有拉网法、引文法、顺查、逆差和抽查法、排除、限定和合取法。检索途径归为两大类:一类是用信息的外部特征,如责任者、题名、某种序号、机构名等作为检索标识;另一类是用描述信息内容的分类号、关键词、主题词等作为检索标识。通常直接输入检索字段直接点击搜索,但需要精确查找目标文献时,要利用高级检索方式设置一些查询条件,如查询范围、时间、方式(模糊和精确)、字段逻辑关系的编辑等。
2 信息检索流程
信息检索过程可分为以下步骤:课题的确定――选择合适的数据库――初步拟定检索式检索――调整检索策略(考虑准确性)――命中结果分析――批量下载――信息分析。下面以立体印刷技术的相关资料的搜集为例介绍信息检索过程。
检索工具选择
对于日常信息的搜索,通常采用百度、谷歌等网站,但对于专业文献的检索则需要专门的数据库,每个数据库都有自己的特点。
(1)馆藏书目查询:书目是将图书、期刊按一定规则收录,并有序编排的检索工具。通常包含题名、责任者、主题词、分类号、索取号、ISBN/ISSN号、出版社等字段,输入检索词即可检索,大多数高校图书馆都有自己的馆藏书目数据库,检索、下载。
(2)中国学术期刊全文数据库:目前世界上最大且连续动态更新的数据库,内容覆盖工程技术、自然科学、农业、哲在新的生活环境下,每个人都需要从各种各样的信息源中收集、提炼有用信息,为正确决策提供参考。一方面,人们可以利用网络方便、自由、快捷的、查询信息;但另一个方面,由于网络环境的开放性,信息更新的快速性,使得信息资源出现分散、异构、无序的特性,极不利于人们有效开发和利用这些资源。面对信息急剧增长、技术不断更新的新局面,需要我们对信息检索技术进行深入的研究,从而提高网络信息资源的利用率,尤其是科研工作者必须增强获取、选择和利用信息的能力。
1 信息检索概述
信息检索是将信息按一定的方式组织起来,并根据信息用户提交的查询条件检索出相关文档的过程和技术。信息检索涉及数据库技术、图书和情报科学、人工智能、自然语言处理、机器学习等众多知识和学科领域[1]。信息检索作为一门学科,主要研究信息的获取、表示、存储、组织和访问。
信息检索的意义
信息检索是对信息进行集中表示、存储、组织加工、统一管理,使用户更容易得到所需要的信息,进而对信息进行加工,根据分析得出新的思路和方法,实现信息激活和增值。有效的信息检索可以节省科技人员的时间,提高工作效率;帮助人们进行知识更新;继承和借鉴前人劳动成果,促进科技的快速发展;协助管理者做出正确的决策。
信息检索的四要素
信息检索包含四个要素:信息意识、信息源、信息获取能力、信息利用[2]。信息意识是信息检索的前提,指人们借助信息系统获取所需信息所做出的能动反映,使人们对信息的敏感程度、选择和运用信息能力;信息源是信息检索的基础,如专著、期刊、报告、学位论文、会议记录、专利、标准、统计数据、政府出版物、档案文献信息等;信息获取能力是信息检索的核心,是指人们对信息的了解、查找、整理加工;信息利用是信息检索的关键,即对信息进行有效的加工和利用。
检索语言及方法
检索语言是为沟通文献标引与文献检索而编制的人工语言,是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。检索语言主要包含分类、主题、代码和自然四类语言[3]。分类语言是指用各种分类号来进行检索的标识,按学科性质进行系统排列,包括主题、科学、图书和专利分类语言;主题语言是直接以表达文献主题的词语作为检索标识,包括关键词、标题词、单元次和叙词语言等;代码语言是指将事物的某一方面特征用代码系统来标引和排列的检索语言,例如,分子式索引系统;自然语言是指未经规范化处理的检索语言。
信息检索包括手工和计算机检索,常用的检索方法有拉网法、引文法、顺查、逆差和抽查法、排除、限定和合取法。检索途径归为两大类:一类是用信息的外部特征,如责任者、题名、某种序号、机构名等作为检索标识;另一类是用描述信息内容的分类号、关键词、主题词等作为检索标识。通常直接输入检索字段直接点击搜索,但需要精确查找目标文献时,要利用高级检索方式设置一些查询条件,如查询范围、时间、方式(模糊和精确)、字段逻辑关系的编辑等。
2 信息检索流程
信息检索过程可分为以下步骤:课题的确定――选择合适的数据库――初步拟定检索式检索――调整检索策略(考虑准确性)――命中结果分析――批量下载――信息分析。下面以立体印刷技术的相关资料的搜集为例介绍信息检索过程。
检索工具选择
对于日常信息的搜索,通常采用百度、谷歌等网站,但对于专业文献的检索则需要专门的数据库,每个数据库都有自己的特点。
(1)馆藏书目查询:书目是将图书、期刊按一定规则收录,并有序编排的检索工具。通常包含题名、责任者、主题词、分类号、索取号、ISBN/ISSN号、出版社等字段,输入检索词即可检索,大多数高校图书馆都有自己的馆藏书目数据库,检索、下载。
(2)中国学术期刊全文数据库:目前世界上最大且连续动态更新的数据库,内容覆盖工程技术、自然科学、农业、哲学、医学、人文社会科学等各个领域。可进行高级、专业、跨库检索以及期刊Ш健
(3)中国优秀博硕士论文数据库:目前国内相关资源最完备、连续动态更新的高质量学位论文数据库,包含理工、农业、医药、文史哲、法律、教育与社会科学、电子与信息科学、经济以及专题文献等。
(4)外文文摘数据库:既包含单学科数据库,如CA(化学)、PA(石油)、Georef、Medline等,又包含多学科综合数据库,如Dialog、EI、CSA、SCI、IEEE/IET、Spinger等。对于国际化的今天,外文检索已成为每个考研人员必备的技能。
(5)其他数据库:Google学术中文和外文搜索、万方、维普、知网、专利检索系统以及标准文献检索数据库等。数据库文件普遍采用CAJ和PDF格式,须下载专门的浏览器来阅读。
检索词确定
确定中文检索词:设置与论文名字相关的检索词进行检索,如,立体印刷、3D印刷、立体图像、立体印刷品;确定英文检索词:stereoscopic printing、3D printing、stereoscopic image printing、auto-stereoscopic image
检索过程及结果分析
利用以上介绍的检索方式以及各个数据库的特点,选用中国知网、Google学术、硕博士论文数据库、EI和专利网,结合设定的检索词进行文献检索,该文例子主要围绕图书、期刊、硕博士论文和专利来搜索。为了便于对文献的管理、引文编排,论文写作采用EndNote插件建立分类文献库。在搜索文献时注意尽可能将时间设定在近5年内,学位论文搜索优先,这样对研究对象的背景、现状首先有大概的了解;其次进行大量其它文献的检索,可以参考论文后的参考文献、某个领域的专家或数据库连接到的相似文献等来扩展检索。无论对于中文还是外文的搜索,不能盲目下载,必须注意文章摘要与目标对象是否有关,否则会加大有用文章筛选的工作量。
检索到的文章由于存在相似性,一定要做好分类,方便快速查找。总的来看立体印刷技术相关文献主要涉及人眼视觉理论、光栅成像、立体图像制作、光栅材料及使用、立体印刷产品质量评价和市场分析、立体印刷工艺研究以及相关设备制造等。通过以上文章的搜索我们可以对立体印刷有大致的了解,对于写综述性的论文可以按照以上点来设置章节标题,如果要进行某一点的深入研究,需要认真研读,将文章的各个点吃透,或进一步查阅相关资料。总之,文献检索不能盲目,初步检索分析后,再次具有针对性性的进行检索。
3 结语
该文围绕信息检索技术展开讨论,首先,简单的介绍了信息检索的含义、目的、意义、检索要素和方法等,让大家对此有直观的认识。其次,结合立体印刷技术综述报告的例子,详细的阐述了文献的查找渠道、提炼、分析和总结过程,对以后工作和学习中有效的进行信息检索具有一定的参考价值。
参考文献
[1] 刘双魁。信息检索与利用[M].上海:东南大学出版社,2010:8.
[2] 祁延莉。信息检索概论[M].北京:北京大学出版社,2013:7.