利用开源的 Apache Solr 搜索引擎构建 RESTful 基础存储服务（1）前言

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-9-14 16:46 | 只看该作者

利用开源的 Apache Solr 搜索引擎构建 RESTful 基础存储服务（1）前言

前言搜索引擎已经成为我们生活的组成部分，对很多人来是已经是每天生活的必须品。无论是 Internet 的搜索引擎，例如 Google、Yahoo 们，还是服务于企业的私有搜索引擎，它们都已经成为我们获得信息的必要手段。搜索引擎优秀的检索性能无疑曾经、且还在给我们留下越来越深刻的印象，而搜索引擎整合各种各样资源的能力同样令我们刮目相看——无论是私有的数据库、还是晦涩的文件服务器，甚至是您的桌面系统。搜索引擎是如此的令人印象深刻，那么作为最贴近我们人类思维方式的一种服务形式，它在随时随地、快捷的为我们检索信息以外，搜索引擎还可以为我们做什么？
问题的提出想象一下每天都在发生改变的 Internet：每过一天，就会有越来越多的容纳人类智慧财富的网站、网页连入 Internet 与人分享；每时每刻都有大大小小、各种搜索引擎的爬虫们（Crawler）不知疲倦的访问各个 Internet 站点，它们读取、下载网页后，根据越来越复杂的索引技术对其进行分析，将分析结果缓存下来，为各种各样检索需求提供高性能的服务。
Internet 中每个网页除了自身包含的内容以外，还有各种各样指向外部资源的链接，这些外部链接资源所包含的内容一般是链接源页面的内容的补充、详细说明或参考资源，这些外部资源页面本身同样也会包含有指向其他资源的链接，外部链接的页面内容和链接源页面内容一起，描述某一个主题。实际上，只要 Internet 上的每个网页都有通向外部资源的链接，那么随便从哪个页面开始，遍历所有的链接，就可以访问到 Internet 的每个网页。
互联网存储了各种各样的海量资源，而搜索引擎给我们提供了访问这些资源的接口，不过这个接口现在只能提供检索服务，那么一个很简单的问题是自然而然的：搜索引擎是否还可以为我们提供存储服务？假如现在我们把 Internet 倒过来——想象一下：如果搜索引擎不仅仅提供检索各个网页信息的服务，还提供将信息存储到“Internet 的各个网页”的服务，即将各个站点、网页作为存储信息的容器、来提供信息存储服务，那么这是不是一个理想的分布式、近乎无限扩展的基础存储服务系统？
灵感来源让我们先看看人类的大脑结构，虽然现阶段人类对大脑的结构和运作方式的了解还不是那么全面，但是最基本的结构我们还是知道的：人类的大脑中有数千亿的神经元，各个神经元可能同数以万计的神经元通过树突、轴突连接。当外界的刺激信号传递到某一个神经元时，根据树突和轴突的阀值，受刺激的神经元可能会将刺激信号传递到与之相关的其他神经元，以此类推，很显然，这是一个类似链式反应的系统。可能随便一个简单的外界刺激信号，就会引起大脑中无数的神经元产生各种各样的信号，这些信号在传递和交互过程中互相作用和影响，这大概就是人类智慧的来源吧。如果把 Internet 中的每一个网页看作大脑中的一个神经元，而网页中通向外部的链接相当于神经元之间的联系（例如树突和轴突），那么 Internet 也就可以看作是人类智慧的存储系统。

收藏分享评分

回复引用

订阅 TOP

返回列表