首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中

Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中




业务数据存储在各种格式和来源中。在将数据导入 IBM® InfoSphere BigInsights                                                分布式文件系统中之前,您必须:
  • 确定想要通过分析回答哪些问题
  • 识别数据来源的数据类型
  • 使用最适合您的业务需要的工具和过程
可以在现有基础架构或数据仓库中使用 InfoSphere                                                BigInsights,以原始格式导入数据和内容,或者可以导入大量静止(静态)数据或不断传入的活动数据(不断更新的数据)。在导入数据后,可以单独探究该数据或组合数据来完成探究和分析。
许多企业可能希望了解某个特定品牌或服务在社交媒体中流行度。为本教程提供的数据是一个                                                 应用程序对互联网上的 “IBM Watson™” 短语的实例的搜索结果。此搜索已经在教程                                                  “”(developerWorks,2012 年 6                                                月)中详细介绍。
您需要使用本教程中引用的数据,所以请在继续阅读后面的文章之前  它。
接受条款和条件,将文件 article_sampleData                                                保存到本地系统中。解压文件内容后,article_sampleData 文件夹包含文件                                                RDBMS_data.csv、blogs-data.txt、news-data.txt                                                和详细描述该数据输出的                                                README.txt。记下保存这些文件的位置,很快您就需要将它们上传到云中。
在本教程和本系列中的下一篇教程中,仅使用了该搜索所返回的新闻和博客数据。返回的数据经过了细微修改,以便仅包含                                                BoardReader 应用程序从博客和新闻源收集的信息子集。已删除帖子、新闻的完整文本/HTML                                                内容,以及一些元数据,以便让每个文件的大小变得容易管理。
现在查看该文件系统,创建一个将用来加载该数据的文件夹。
创建一个文件夹
  • 打开 InfoSphere BigInsights Web 控制台。
  • Files 选项卡中搜索 hdfs                                                  文件夹。(备注:hdfs 文件夹可能已打开。)
  • 在 hdfs 文件夹中,导航到 user 文件夹并找到包含您的用户 ID                                                  的特定文件夹。(备注:这个 ID 位于 IBM Analytics                                                  for Hadoop 启动页面上。)
  • 单击 Flies 工具栏中的 Create directory                                                  图标,以便在分布式文件系统中创建一个存储此数据的目录。
  • 为您的目录命名。对于本教程,我们将它命名为                                                  bi_sample_data。然后您应该具有以下目录结构:hdfs/user/[userID]/bi_sample_data。
现在您有一个目录来存储所有来源数据文件和应用程序结果。接下来将要加载该数据。
加载数据可以通过许多方式将数据加载到 BigInsights 中。但为了简便起见,本教程只使用了 BigInsights 中原生的                                                Upload 功能,该功能仅推荐用于较小的数据集(低于 2 GB)。对于较大的数据集,可以使用                                                Distributed File Copy 应用程序。(请参见 IBM 知识中心,了解  的更多信息)。
  • 确保您在 bi_sample_directory 文件夹中。
  • 在 Files 工具栏中,单击 Upload 图标。
    这将打开一个新的 “Upload files”                                                  窗口。
  • 在 “Upload files” 窗口中,单击 Choose                                                  file
  • 在您的本地文件系统中导航到您在本教程前面保存 blogs-data.txt 和                                                  news-data.txt 文件的地方。
  • 选择 blogs-data.txt 并上传该文件。
  • 重复该过程,以便选择并上传 news-data.txt。
  • 两个文件都在 “Upload files” 窗口中时,单击                                                  Ok
  • 导航回您的 bi_sample_data                                                  文件夹,确保这些文件都在这里。(备注:您可以单击 Files                                                  工具栏上的 Refresh 按钮来刷新视图。)
如果想要看看刚加载的内容,可以单击 blogs-data.txt 或 news-data.txt 文件。 files                                                目录右侧的窗口显示了该半结构化数据的快速采用。
返回列表