Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-23 08:29 | 只看该作者

Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中

业务数据存储在各种格式和来源中。在将数据导入 IBM® InfoSphere BigInsights 分布式文件系统中之前，您必须：

确定想要通过分析回答哪些问题
识别数据来源的数据类型
使用最适合您的业务需要的工具和过程

可以在现有基础架构或数据仓库中使用 InfoSphere                                              BigInsights，以原始格式导入数据和内容，或者可以导入大量静止（静态）数据或不断传入的活动数据（不断更新的数据）。在导入数据后，可以单独探究该数据或组合数据来完成探究和分析。
许多企业可能希望了解某个特定品牌或服务在社交媒体中流行度。为本教程提供的数据是一个                                              应用程序对互联网上的 “IBM Watson™” 短语的实例的搜索结果。此搜索已经在教程                                                 “”（developerWorks，2012 年 6                                              月）中详细介绍。
您需要使用本教程中引用的数据，所以请在继续阅读后面的文章之前  它。
接受条款和条件，将文件 article_sampleData                                              保存到本地系统中。解压文件内容后，article_sampleData 文件夹包含文件                                              RDBMS_data.csv、blogs-data.txt、news-data.txt                                              和详细描述该数据输出的                                              README.txt。记下保存这些文件的位置，很快您就需要将它们上传到云中。
在本教程和本系列中的下一篇教程中，仅使用了该搜索所返回的新闻和博客数据。返回的数据经过了细微修改，以便仅包含                                              BoardReader 应用程序从博客和新闻源收集的信息子集。已删除帖子、新闻的完整文本/HTML                                              内容，以及一些元数据，以便让每个文件的大小变得容易管理。
现在查看该文件系统，创建一个将用来加载该数据的文件夹。
创建一个文件夹

打开 InfoSphere BigInsights Web 控制台。
从 Files 选项卡中搜索 hdfs 文件夹。（备注：hdfs 文件夹可能已打开。)
在 hdfs 文件夹中，导航到 user 文件夹并找到包含您的用户 ID 的特定文件夹。（备注：这个 ID 位于 IBM Analytics for Hadoop 启动页面上。）
单击 Flies 工具栏中的 Create directory 图标，以便在分布式文件系统中创建一个存储此数据的目录。
为您的目录命名。对于本教程，我们将它命名为 bi_sample_data。然后您应该具有以下目录结构：hdfs/user/[userID]/bi_sample_data。

现在您有一个目录来存储所有来源数据文件和应用程序结果。接下来将要加载该数据。
加载数据可以通过许多方式将数据加载到 BigInsights 中。但为了简便起见，本教程只使用了 BigInsights 中原生的 Upload 功能，该功能仅推荐用于较小的数据集（低于 2 GB）。对于较大的数据集，可以使用 Distributed File Copy 应用程序。（请参见 IBM 知识中心，了解的更多信息）。

确保您在 bi_sample_directory 文件夹中。
在 Files 工具栏中，单击 Upload 图标。
这将打开一个新的 “Upload files” 窗口。
在 “Upload files” 窗口中，单击 Choose file。
在您的本地文件系统中导航到您在本教程前面保存 blogs-data.txt 和 news-data.txt 文件的地方。
选择 blogs-data.txt 并上传该文件。
重复该过程，以便选择并上传 news-data.txt。
两个文件都在 “Upload files” 窗口中时，单击 Ok。
导航回您的 bi_sample_data 文件夹，确保这些文件都在这里。（备注：您可以单击 Files 工具栏上的 Refresh 按钮来刷新视图。）

如果想要看看刚加载的内容，可以单击 blogs-data.txt 或 news-data.txt 文件。 files 目录右侧的窗口显示了该半结构化数据的快速采用。

收藏分享评分

回复引用

订阅 TOP

返回列表