Board logo

标题: Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中 [打印本页]

作者: look_w    时间: 2018-6-23 08:29     标题: Bluemix 上的 Analytics for Hadoop-将数据加载到 InfoSphere BigInsights 中




业务数据存储在各种格式和来源中。在将数据导入 IBM® InfoSphere BigInsights                                                分布式文件系统中之前,您必须:
可以在现有基础架构或数据仓库中使用 InfoSphere                                                BigInsights,以原始格式导入数据和内容,或者可以导入大量静止(静态)数据或不断传入的活动数据(不断更新的数据)。在导入数据后,可以单独探究该数据或组合数据来完成探究和分析。
许多企业可能希望了解某个特定品牌或服务在社交媒体中流行度。为本教程提供的数据是一个                                                 应用程序对互联网上的 “IBM Watson™” 短语的实例的搜索结果。此搜索已经在教程                                                  “”(developerWorks,2012 年 6                                                月)中详细介绍。
您需要使用本教程中引用的数据,所以请在继续阅读后面的文章之前  它。
接受条款和条件,将文件 article_sampleData                                                保存到本地系统中。解压文件内容后,article_sampleData 文件夹包含文件                                                RDBMS_data.csv、blogs-data.txt、news-data.txt                                                和详细描述该数据输出的                                                README.txt。记下保存这些文件的位置,很快您就需要将它们上传到云中。
在本教程和本系列中的下一篇教程中,仅使用了该搜索所返回的新闻和博客数据。返回的数据经过了细微修改,以便仅包含                                                BoardReader 应用程序从博客和新闻源收集的信息子集。已删除帖子、新闻的完整文本/HTML                                                内容,以及一些元数据,以便让每个文件的大小变得容易管理。
现在查看该文件系统,创建一个将用来加载该数据的文件夹。
创建一个文件夹现在您有一个目录来存储所有来源数据文件和应用程序结果。接下来将要加载该数据。
加载数据可以通过许多方式将数据加载到 BigInsights 中。但为了简便起见,本教程只使用了 BigInsights 中原生的                                                Upload 功能,该功能仅推荐用于较小的数据集(低于 2 GB)。对于较大的数据集,可以使用                                                Distributed File Copy 应用程序。(请参见 IBM 知识中心,了解  的更多信息)。
如果想要看看刚加载的内容,可以单击 blogs-data.txt 或 news-data.txt 文件。 files                                                目录右侧的窗口显示了该半结构化数据的快速采用。





欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0