首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

实时分析社交媒体数据(1)

实时分析社交媒体数据(1)

您想知道人们在发微博谈论世界的哪些不同地方吗,是在谈论各大洲还是在谈论您的国家?您想要了解某个地区的人们的倾向或看法吗?您需要检测事件吗?数据科学可以帮助您实时获取此信息。
这是一篇关于使用 Spark Streaming 实时分析社交数据的简短指南。我创建了一个不停运转的流程序,实时获取 Twitter 数据,根据文本和位置来收集推文,并使用了 k 均值算法。我的目标是向您展示如何使用最先进的方法(比如 Spark)使我们能够快速而又轻松地编写具有最少代码行的程序。在这里,您将练习采用各种各样的 Spark 命令来实现此应用程序。
这就是我们的 Spark Streaming 程序中的数据流:Twitter 数据被提供给 Spark Streaming,Spark Streaming 将它们收集在一起,并在地图上实时标绘出推文。
首先,我们需要读取 Twitter 数据。不过,不同于传统的方法,在本教程中,我们并没有将推文实际保存到我们的磁盘或者数据库中。相反,我们会实时地清理、分析和可视化这些 Twitter 数据。所以在这种情况下,我们不必面对可伸缩性问题——我们可以花几个小时的时间读取数据,并继续在一个地图上可视化它们。
本指南包含两个部分:
  • Scraper:从 Twitter 中读取数据
  • Analyzer:清理、分析和可视化数据
在 Scraper 部分,我们从 Twitter 中读取数据,并将它们写入一个套接字中。为什么呢?因为稍后在本教程的第二部分(Analyzer 部分)中,我们会以流的方式从该套接字中动态读取数据并分析它们。所以,Scraper 的基本任务就是成为 Twitter(原始数据)流与 Analyzer 之间的调停者。
为了使用 Python 编写这段代码,我们使用了一个便捷的平台,即 Data Scientist Workbench (DSWB),它承载了科学数据中使用的大量开源工具,比如 Jupyter Notebooks、RStudio 和 Zeppelin。它还为每个工具预先安装了 Apache Spark。所有一切都已经准备就绪,我们需要做的就是编写您的代码。您可以观看这个 3 分钟的视频,了解有关这些的更多信息。您可以使用以下两个选项之一上传 Notebook:
1) 在顶部菜单中,转到 “Build Analytics”,然后转到 “IPython/Jupyter Notebooks”。现在,在右上角搜索栏中,复制和粘贴下面的 URL 并按下 Enter。
  • Scraper.ipynb:
https://share.datascientistworkbench.com/#/api/v1/workbench/10.115.89.160/shares/tBMdz4H7LoyxWSj/Scraper.ipynb
  • Analyzer.ipynb:
https://share.datascientistworkbench.com/#/api/v1/workbench/10.115.89.160/shares/BbOY3brvUkhP9iq/Analyzer.ipynb
2) 或者,您可以下载此处的 IPython Notebooks:
并在显示 DSWB 时将每个文件拖放到侧边栏中。
该图显示了如何将一个文件上传到 Data Scientist Workbench 中。
返回列表