标题:
收集和分析社交数据而不编写任何代码(2)
[打印本页]
作者:
look_w
时间:
2018-6-23 11:01
标题:
收集和分析社交数据而不编写任何代码(2)
第 3 步. 使用 IBM Analytics for Hadoop 分析推文现在 ETL 已完成且已收集了数据,您已准备好使用 Bluemix 中的 IBM Analytics for Hadoop 控制台来分析该数据。
返回到 Bluemix。在您应用程序的
Services
部分,单击
IBM Analytics for Hadoop
服务。
在服务页面上,单击
LAUNCH
打开 BigInsights 控制台。
在 IBM InfoSphere BigInsights 中,单击
Files
选项卡,然后浏览文件资源管理器,找到您创建的文件:/user/biblumixsampleTwitterData/stream
选择
Sheet
,它在该文件上方,然后选择该文件。Sheet 按钮将会打开 BigSheets 导入器。您可以将 BigSheets 视为一个能够分析 PB 级数据的电子表格样式的 Web 应用程序。它管理如此多数据的方式是,在一个小的数据采样上定义实际的数据处理工作流,然后将该数据处理工作流作为一个 MapReduce 流程推送到 Hadoop 集群。
单击
Save as Master Workbook
。
在
Name
字段中,输入 tweets
单击
Save
,这会自动转到 BigSheets 选项卡。
单击
Build new workbook
。您必须执行这一步,因为默认情况下,您无法修改 BigSheets 中的初始工作簿中的数据,因为该工作簿所基于的原始文件从不会修改。在创建新工作簿后,可以修改基础数据(如接下来的两步所示)。
从下拉列表中选择
Add sheets
,然后选择
Function
。
在 New sheet:Function 对话框中,单击
Categories
,然后单击
Entities
。
滚动该列表并单击
Organization
。在选择 Organization 时,会使用一个内置的 BigInsights(基于 Watson/NLP)功能从数据中提取公司名称用于分析。
从
Fill in parameter
下拉列表中选择
Header
,然后单击绿色勾号。该表格的第一列(包含默认名称 Header)将用作基于 IBM Watson 技术的函数的输入,用于从推文中提取公司名称。
您推文中与术语 “cloud” 一起提及的不同公司列表显示在 Organization 下。该列表是所有数据的子集,用于帮助您设计和测试分析。单击
Save
>
Save & Exit
,然后单击
Save
。
在窗口中部,单击
Run
。一个 MapReduce 作业现在向您 HDFS 文件中所有收集的推文应用分析。等待窗口右上角的进度条显示 100%。
单击
Add chart
>
cloud
>
Bubble Cloud
,然后单击绿色勾号。最初,图表是根据采样数据来绘制的。
再次单击
Run
计算 HDFS 中所有数据的聚合值。等待窗口右上角的进度条显示 100%。最终结果显示了最近 10 分钟内提及
cloud
的推文数量在各个组织中的分布情况。
这是我运行我们的应用程序时的一个示例图表;您的图表可能会有所不同,因为您的 Twitter 流来自不同的时期,而且社会影响可能难以琢磨,这正是良好的分析至关重要的原因。分析不同的时间切片时,您可能看到不同的结果。
例如下图显示了在拉斯维加斯举行 IBM Interconnect Conference 后的图表:
您现在可以关闭 IBM InfoSphere BigInsights 应用程序和 IBM Bluemix 了。
结束语本教程介绍了如何使用 Node-RED 快速构建 ETL 工作流,以及如何使用 IBM Analytics for Hadoop 分析所收集的数据。整个项目使用了 IBM Bluemix 服务,所以您不需要编写任何代码。您现在可以使用 Node-RED 来构建其他工作流,还可以使用 Hadoop 分析功能分析您收集的任何数据。
可以帮助您分析和可视化 Hadoop 上的大数据,无需配置或管理集群。
欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)
Powered by Discuz! 7.0.0