吸引眼球的主页在 Web 诞生之初,您想查看的所有内容都在一个主页上。最初的这些网页就像贴在公告板上的个人公告,但包含一些超链接。Web 的目的是让人们查看这些页面。
不久以后,Mosaic 浏览器实现了在文本间嵌入图像,这使 Web 变得对用户更具吸引力。嵌入式媒体对象向音频、视频和应用程序对象敞开了大门。很快,除了信息和通信行业,其他行业也开始使用(并最终主导)Web。
随着互联网数据的爆炸性增长,人们很快就必须对内容进行分类和标记,以便更容易地找到他们想要寻找的信息。
早期的 Web 发明者希望在 Web 上更广泛地传播组织工具。在 20 世纪 90 年代,“Web 数据”技术的研究工作就开始了。人们对 Web 上数据的最初预期是非常高的。2001 年 5 月,Sir Tim Berners-Lee 和同事在科学美国人上发表了一篇名为《语义网》的文章,阐述了他们对一种新技术的雄心,该技术将为 Web 上的数据提供一种通用语言,使自动化变得更容易。
尽管所构想的这种自动化如今在很大程度上已成为现实,但这主要归功于大型搜索引擎和科技公司大量处理数据的卓越功绩,而不是由于针对 Web 上的数据的通用语言的诞生。结果,由于没有通用语言,我们现在拥有的自动化并不是很有用。Web 似乎是一个令人惊艳的创新之地,但我们错过了更多的可能性。
Schema.org 的诞生为语义网带来了生机。通过一些大型企业的努力,即使较小的企业现在也能从 Web 中获益。
RDF、链接数据、微格式等在 2000 年,我为 IBM developerWorks 编写了一篇名为“RDF 简介”的文章,解释了万维网联盟 (W3C) 提倡的这种技术,该技术旨在为 Web 上的数据提供一种通用语言。Resource Description Framework (RDF) 是一组用于在网络上对数据进行建模的规范,旨在让自主代理的工作更轻松,并改进搜索引擎和服务目录。RDF 最初被构想为一种简单模型,用于表示 Web 上的大量数据。
不幸的是,W3C 最终在 RDF 上堆叠了如此多的复杂规范(包括成熟的 AI 工具),以至于他们从未真正弄清楚如何将语义网简化为一个典型 Web 开发人员可以轻松学习的足够简单的东西。
图 1. 语义网堆栈为了抵消这些复杂规范,一个名为“Linked Open Data”的项目开始推行一组简化的原则。该规范的名称简称为“Linked Data”,并且很明显,这些原则甚至对于企业和私有上下文也很有用。Linked Data 主要推荐使用 HTTP URL 来标识事物,而不是纯文本字符串,并使用简单 RDF 之类的约定来提供所识别事物的相关信息。例如,此信息可能包括使用了纯文本字符串的标签。
最初,此元数据是与网页本身分开提供的,但 Web 开发人员很快开始提倡使用简单 HTML 约定将元数据编码到网页中。这些约定称为微格式。
十年来取得的所有这些进展都在 2011 年浓缩为 Schema.org。人们寄予厚望的语义网被简化为 Linked Data,而使用微格式技术消除了对单独文件表示的需求。