首页 >> 图书情报学
大数据时代的语义技术
2017年06月22日 09:51 来源:《数字图书馆论坛》 作者:黄智生 字号

内容摘要:语义技术为海量数据处理及知识管理提供有效的技术手段。本文系统化介绍面向大数据环境的语义处理技术,包括大数据时代的语义数据环境、海量语义数据处理平台及语义技术在智慧城市与医学大数据中的应用。

关键词:大数据;语义技术;知识图谱;知识管理;智慧城市技术

作者简介:

  作者简介:黄智生(1957- ),男,博士,教授,荷兰阿姆斯特丹自由大学计算机系。阿姆斯特丹 1081hv;北京工业大学未来网络科技高精尖创新中心。北京 100022;研究方向:人工智能与大数据,E-mail:1990245070@qq.com。

  内容提要:当前正处于大数据时代,大数据为智慧城市提供丰富的数据环境。智慧城市技术需要面向万维网大数据处理及其知识服务的支持。语义技术为海量数据处理及知识管理提供有效的技术手段。本文系统化介绍面向大数据环境的语义处理技术,包括大数据时代的语义数据环境、海量语义数据处理平台及语义技术在智慧城市与医学大数据中的应用。

  关 键 词:大数据 语义技术 知识图谱 知识管理 智慧城市技术

  中图分类号:TP182

  万维网为大数据时代提供海量的异构数据环境,进而为智慧城市技术及其知识服务提供巨大的开发空间。但是,数据异构性使我国面临如何对大数据进行有效语义整合和处理的巨大挑战。有效整合海量异构数据,其中一个核心主题就是如何实现异构数据的互操作(Interoperability)。

  数据互操作指多源数据能够实现类似单一系统数据般的无缝链接。语义网思想及围绕语义网目标实现所开发的一系列技术,称为语义网技术,简称语义技术(Semantic Technology)。语义技术为异构数据提供数据互操作的技术基础,也为大数据的有效分析提供一种技术途径[1-3]。本文将系统化地介绍面向大数据环境的语义处理技术。

  1 大数据时代的语义数据环境

  1.1 语义技术的基本思想

  面对海量的万维网数据,一个核心问题是如何快速有效地寻找所需信息。目前通用的办法是通过网络搜索引擎,采用键入对应的关键字来获得结果。但是,传统搜索引擎主要通过关键字对网络资源进行字符串匹配获取检索结果,易获得包含部分关键字的噪声数据。如检索“化学”,检索结果却出现“自动化学习”和“机械化学习”。为避免此类字符串误匹配,可通过对网络中的文本描述进行结构化处理,即采用专业词典,将长串文本描述进行分词处理,切割成独立的子部分。如把“自动化学习”切分成“自动化”和“学习”两个独立的部分,在使用“化学”进行查找时就不会匹配到“自动化学习”,因为需要满足同时匹配两个独立的子结构。将长串文本切分成子结构的处理方法称为结构化处理,但结构化处理不能实现数据互操作。在进行网络搜索使用的关键字只是表达语义上的需求,而并不在意网络资源是采用何种具体的词来表达。因此,需要一种网络资源描述方式,来刻画语义上的关联性。刻画某个特定领域的概念集合及该领域概念间的关联性被称为本体(Ontology)[4-5]。

  近十多年,国际万维网组织制定和出台了一系列语义技术标准,得到广泛的应用。其中主要的语义技术标准包括以下四类。

  (1)网络资源描述框架(Resource Description Framework,RDF)和网络资源描述框架模式(Resource Description Framework Scheme,RDFS)。主要用于描述网络信息资源,前者用于描述具体的网络信息资源及其对应概念,后者用于描述网络信息资源概念间的关联性。RDF/RDFS可以采用不同的数据格式表达,可被写成类似XML格式的文件。经常使用的RDF/RDFS表达格式是Ntriple三元组格式。

  (2)网络本体语言(Web Ontology Language,OWL)。RDF/RDFS仅能描述网络信息资源及其相关概念的基本特征,但逻辑表达能力不强。OWL对RDF/RDFS的逻辑表达能力进行扩展,使之能够表达更复杂的逻辑关系,提供逻辑推理能力[5]。

  (3)RDF查询语言SPARQL。SPARQL是一种针对RDF/RDFS语义数据的查询语言,也可用于OWL数据查询;若语义数据处理平台已嵌入对应的推理机,SPAROL还可用于对语义数据的推理结果查询。一个规范的语义数据处理平台通常会提供规范的SPAROL查询接口,被称为SPAROL服务端。

  (4)规则交换格式(Rule Interchange Format,RIF)。RIF语言标准提供一种面向网络信息资源的高级规则知识表达能力,可弥补OWL对领域概念逻辑相关性描述的不足。

  语义技术标准,建立在对网络信息资源进行数据连接的统一概念格式上,其主要概念表达方法是三元组(Triple)法,即将信息资源以类似主语、谓语和宾语结构来表达。为增强语义标示的唯一性,通过网络资源进行唯一性语义标定是语义技术的核心思想之一。所以,语义技术标准的基本作用是对网络资源进行描述,用于提供语义唯一标识,同时让数据内容独立于表达形式。

  语义网(语义技术)的主要思想包括:(1)任何信息系统都需要数据;(2)数据表示要独立于具体的应用和平台,以保证最大程度的可重用性;(3)采用统一的数据概念表示,以保证数据表示独立于具体系统(可采用Triple/Tuple形式);(4)数据应能描述网络资源(要采用RDF/RDFS或其他类似的语言);(5)数据应提供初步推理支持(要采用OWL或其他知识表示语言)。值得注意的是RDF/RDFS/OWL均采用Triple语义模型。

  1.2 现代信息系统的数据基础——关联语义数据云图

  近十年,信息领域的重大进展之一是获得关联语义数据云图(Linked Data Cloud),其中每个结点表示一个开放的数据源,结点间的弧表示数据源相互链接。截至2011年9月,关联语义数据云图已覆盖295个数据集、310亿条RDF语句、5.04亿个RDF链接(见图1)。其领域涵盖地理信息、生命科学、媒体、出版、政府信息、计算机与通信技术、工程学科、社会科学等。2011年6月,谷歌、雅虎和微软共同宣布推出新的语义搜索的技术标准;2012年5月,谷歌搜索引擎推出基于语义技术的知识图谱;截至2016年,关联语义数据云图的规模已经超过一张图所能表达的程度。

  

图1 关联语义数据云图

  数据集均采用语义技术标准(RDF或者OWL形式)来表达,且绝大多数数据集是公开的,可以免费下载。由于采用国际语义技术标准与规范的本体工程技术开发方法,很容易将数据载入语义数据处理平台。关联语义数据云图的核心部分是维基百科,知识采用语义技术标准表达的数据DBpedia,其他领域数据集均可在语义上同维基百科的概念融合,其中Freebase是类似维基百科的数据集。2012年,谷歌以1亿美元购买Freebase,将其改造成知识图谱(knowledge graph)。

分享到: 0 转载请注明来源:中国社会科学网 (责编:毕雁)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们