首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

大规模数据集成 Linked Data(1)

大规模数据集成 Linked Data(1)

Linked Data 原则为了鼓励以一致的方式在网络上发布数据,Tim Berners-Lee 定义了  :
  • 使用统一资源标识符 (URI) 作为事物的名称。
  • 使用 HTTP URI,使人们能够查找这些名称。
  • 在有人查找一个 URI 时,可以使用标准(RDF*、SPARQL)来提供有用的信息。
  • 包含其他 URI 的链接,以便他们可以发现更多的信息。
关于本系列本系列介绍、探讨和应用全球标准,解决开发人员、架构师和数据管理员每天所面临的大规模数据集成难题。本系列文章介绍的一些跨平台的、独立于语言和应用程序的技术,支持在数据库、文档、电子表格、服务                    API 中进行信息集成。您将了解的数据模型和工具可以让您的工作变得更轻松,并对您的组织产生实质性的影响。

在本系列文章中,现在应该不需要太多地解释这些原则背后的动机,但为明确了解这些动机,我将进行快速介绍。
首先,命名模式的用途是在共享的上下文中创建引用。这些引用应该一致、清楚明白而且无冲突。URI                标准提供了一种命名模式模式:一种创建命名模式的模式。只要您知道如何在系统中解析、表达以及可能存储                URI,就可以接受来自其他任何符合该标准的系统的标识符。这些系统可能包括目前编写和部署的,接受对未来符合 URI 的新名称的名称引用的代码。
URNURI 的使用并不意味着 ISBN 对语义 Web 无用。统一资源名称 (URN) 是一种 URI,它允许通过命名空间前缀将外部命名模式映射到                    URI 空间内。一本书的有效的 URN 可能为:urn:isbn:978-1608454303。

还存在其他全局命名系统。一种常见的模式是   (ISBN)。ISBN                多年来对标准化图书的引用至关重要。该模式的成功主要源于,对命名系统的支持减少了突出出版和发行市场的成本和错误。不幸的是,ISBN                                    引用图书。杂志、乐谱和视听产品(电影、电视节目、广播体育活动)都拥有不同的标识符模式。图书的主题可使用一种分层的分类模式来指定,比如   系统,但这是另一个不兼容的标识符系统。学术研究人员可通过                  标识符标识,但非学术领域没有这样的系统。因此,要表明一本(学术)图书是由一位特定的研究人员为一个已知主题编写的,不仅涉及到这 3                个不同的标识符,还涉及到 3 种不同的模式!拥有一种标准模式来引用所有这些事物,显然非常有意义。
请注意,Berners-Lee 的指导方针并不是说每个人都需要使用同样的 URI。您可以使用 URI                标准实现基本的互操作性。这在人们对事物的叫法达成一致时非常好,但它们不需要一致。RDF 图表中的截点和链接标识符都属于此情况。
第二,即使任何 URI 感知系统可在外部数据集中使用一个 URI                标识符的引用,该系统的用户也可能不认识该标识符。不熟悉的标识符需要一种途径来查找它指向的事物。要找到指定实体的任何信息,摄入系统必须知道这样一种服务或拥有一种途径来发现它。因此,用户应用程序为使用特定的命名约定而需要支持的依赖关系和耦合增加了。
第二条原则为数据交换增添了巨大的价值。如果您的系统可使用 URI,如果它们是可解析的                URI(URL),那么(要了解它们引用的对象的更多信息),您可像其他任何 Web 资源一样对待它们,向它们发出一个 GET                请求。不需要发现任何单独的服务,在 HTTP 和它的统一接口之外不存在任何新依赖性。名称既是标识符,也是您可用来了解更多信息的手段。
第三个原则表明,除了在解析您的资源时您希望返回的其他任何自定义格式                ,如果您允许对标准数据模型进行标准序列化,那么解析系统不需要知道任何额外的信息来解析得到的结构。系统可能不知道这些标识符的含义,但通过第二条原则,它可以在任何想要了解更多信息时解析它们。除了标准序列化格式之外,对                SPARQL 协议等标准查询机制的支持还是的客户端能够询问有关您数据的问题。
“Linked Data                    是一种完全不同的方法,如果您拥有与企业和编程语言相关的解决方案,那么该方法能实现难以想象的生产力、规模和灵活性水平。 ”

因为第一条原则不需要使用标准标识符(仅标准标识符模式),所以同一个事物在不同的数据集中肯定具有多个名称。此问题可通过许多方式解决,但我不会花时间深入介绍。一般而言,您可以使用更高阶的语义关系(比如来自   (OWL) 的                owl:sameAs),在标识符之间建立永久的等同关系。从那时起,您可以使用任何理解 OWL                语义的推理系统来查询任何等同的资源,从所有这些资源获取属性。这里的重点是,这些机制为您提供了将您的术语与其他术语联系起来的途径。这么做可以充实您的数据,帮助在数据集中实现可发现性。
总体上讲,这些原则非常适合公共和私有数据。不要认为所有这些技术仅是您想要放弃的免费的公共数据。到最后,它们都是 Web                资源,您可以将它们放在防火墙后,设置付费门槛,采用身份验证和授权模型。目的在于使用规模化的技术解决在各种不同的数据源之间连接信息的许多问题。与未基于网络友好的标准的更昂贵、零散且耗时的技术相比,满足该目标有助于将集成成为降低到几乎为零。
您只需要考虑 Linking Open Data 社区项目,就可以看到这些想法的大规模实现。
返回列表