Board logo

标题: 收集和分析社交数据而不编写任何代码(1) [打印本页]

作者: look_w    时间: 2018-6-23 11:00     标题: 收集和分析社交数据而不编写任何代码(1)

您是否知道您能通过分析社交数据了解很多信息,但由于您没有足够的时间或资源来构建所需的工具,所以没有行动?在本教程中,我们将展示如何轻松地使用 IBM                Bluemix™ 中的 Node-RED 工作流编辑器捕获社交数据提要(一个 Twitter 提要),然后从该数据构建一个 Hadoop                Distributed File System (HDFS) 文件。我们还将展示如何使用 IBM Analytics for Hadoop                服务来分析数据和生成摘要图表。您会对将未知数据集转换为可用信息的轻松程度感到惊讶。
“您会对将未知数据集转换为可用信息的轻松程度感到惊讶。”

构建您的应用程序需要做的准备工作                第 1 步:设置 Bluemix 服务要实现提取、转换和加载 (ETL) 工作流,需要使用 Bluemix 中的 Node-RED 功能。要开发该工作流,首先需要创建一个 Node-RED                应用程序,并向其添加 IBM Analytics for Hadoop 服务。
第 2 步. 在 Node-RED 最终构建 ETL 工作流接下来,您将使用 Node-RED 工作流编辑器来构建 ETL。该工作流从 Twitter 获取推文,并动态地构建一个 Hadoop Distributed File                System (HDFS) 文件。您将在下一步中使用此文件来分析这些推文。Node-RED 工作流编辑器中完成的工作流看起来与这个工作流类似:
您的服务现在正在运行。Twitter 数据正被收集并写入该文件中。该文件存在于 Hadoop (BigInsights) 服务的 HDFS 中,而且可能增长到 20                GB,这是免费 BigInsights 服务的 HDFS 的存储极限。
因为 HDFS 支持线性横向扩展,所以惟一限制该文件大小的是您的预算。您可以选择一个更高级的计划来获取更多存储空间。已知最大的 HDFS 是 Yahoo,它运行着 455                PB 的数据,您可以看到,Hadoop 可以真正地进行扩展。Bluemix 中的高级 Hadoop 集群在 SoftLayer 中的裸机硬件上运行。最小为 18                TB,但是,如果需要的话,可以扩展到几 PB。




欢迎光临 电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/) Powered by Discuz! 7.0.0