首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

收集和分析社交数据而不编写任何代码(2)

收集和分析社交数据而不编写任何代码(2)

第 3 步. 使用 IBM Analytics for Hadoop 分析推文现在 ETL 已完成且已收集了数据,您已准备好使用 Bluemix 中的 IBM Analytics for Hadoop 控制台来分析该数据。
  • 返回到 Bluemix。在您应用程序的 Services 部分,单击 IBM Analytics for                        Hadoop 服务。
  • 在服务页面上,单击 LAUNCH 打开 BigInsights 控制台。
  • 在 IBM InfoSphere BigInsights 中,单击 Files                        选项卡,然后浏览文件资源管理器,找到您创建的文件:/user/biblumixsampleTwitterData/stream
  • 选择 Sheet,它在该文件上方,然后选择该文件。Sheet 按钮将会打开 BigSheets 导入器。您可以将                        BigSheets 视为一个能够分析 PB 级数据的电子表格样式的 Web                        应用程序。它管理如此多数据的方式是,在一个小的数据采样上定义实际的数据处理工作流,然后将该数据处理工作流作为一个 MapReduce 流程推送到                        Hadoop 集群。
  • 单击 Save as Master Workbook
    • Name 字段中,输入 tweets
    • 单击 Save,这会自动转到 BigSheets 选项卡。
  • 单击 Build new workbook。您必须执行这一步,因为默认情况下,您无法修改 BigSheets                    中的初始工作簿中的数据,因为该工作簿所基于的原始文件从不会修改。在创建新工作簿后,可以修改基础数据(如接下来的两步所示)。
  • 从下拉列表中选择 Add sheets,然后选择 Function
    • 在 New sheet:Function 对话框中,单击 Categories,然后单击                                Entities
    • 滚动该列表并单击 Organization。在选择 Organization 时,会使用一个内置的                            BigInsights(基于 Watson/NLP)功能从数据中提取公司名称用于分析。
    • Fill in parameter 下拉列表中选择                                Header,然后单击绿色勾号。该表格的第一列(包含默认名称 Header)将用作基于 IBM                                Watson 技术的函数的输入,用于从推文中提取公司名称。
  • 您推文中与术语 “cloud” 一起提及的不同公司列表显示在 Organization 下。该列表是所有数据的子集,用于帮助您设计和测试分析。单击                        Save > Save & Exit,然后单击                        Save
  • 在窗口中部,单击 Run。一个 MapReduce 作业现在向您 HDFS                    文件中所有收集的推文应用分析。等待窗口右上角的进度条显示 100%。
  • 单击 Add chart > cloud > Bubble                        Cloud,然后单击绿色勾号。最初,图表是根据采样数据来绘制的。
  • 再次单击 Run 计算 HDFS 中所有数据的聚合值。等待窗口右上角的进度条显示 100%。最终结果显示了最近 10                        分钟内提及 cloud 的推文数量在各个组织中的分布情况。
这是我运行我们的应用程序时的一个示例图表;您的图表可能会有所不同,因为您的 Twitter                流来自不同的时期,而且社会影响可能难以琢磨,这正是良好的分析至关重要的原因。分析不同的时间切片时,您可能看到不同的结果。

例如下图显示了在拉斯维加斯举行 IBM Interconnect Conference 后的图表:

您现在可以关闭 IBM InfoSphere BigInsights 应用程序和 IBM Bluemix 了。
结束语本教程介绍了如何使用 Node-RED 快速构建 ETL 工作流,以及如何使用 IBM Analytics for Hadoop 分析所收集的数据。整个项目使用了 IBM                Bluemix 服务,所以您不需要编写任何代码。您现在可以使用 Node-RED 来构建其他工作流,还可以使用 Hadoop 分析功能分析您收集的任何数据。
  • 可以帮助您分析和可视化 Hadoop 上的大数据,无需配置或管理集群。
返回列表