实时分析社交媒体数据（1）

论坛元老

Rank: 8 Rank: 8

UID: 1066743

1^#

打印

字体大小: tT

look_w发表于 2018-6-24 13:31 | 只看该作者

实时分析社交媒体数据（1）

您想知道人们在发微博谈论世界的哪些不同地方吗，是在谈论各大洲还是在谈论您的国家？您想要了解某个地区的人们的倾向或看法吗？您需要检测事件吗？数据科学可以帮助您实时获取此信息。
这是一篇关于使用 Spark Streaming 实时分析社交数据的简短指南。我创建了一个不停运转的流程序，实时获取 Twitter 数据，根据文本和位置来收集推文，并使用了 k 均值算法。我的目标是向您展示如何使用最先进的方法（比如 Spark）使我们能够快速而又轻松地编写具有最少代码行的程序。在这里，您将练习采用各种各样的 Spark 命令来实现此应用程序。

这就是我们的 Spark Streaming 程序中的数据流：Twitter 数据被提供给 Spark Streaming，Spark Streaming 将它们收集在一起，并在地图上实时标绘出推文。
首先，我们需要读取 Twitter 数据。不过，不同于传统的方法，在本教程中，我们并没有将推文实际保存到我们的磁盘或者数据库中。相反，我们会实时地清理、分析和可视化这些 Twitter 数据。所以在这种情况下，我们不必面对可伸缩性问题——我们可以花几个小时的时间读取数据，并继续在一个地图上可视化它们。
本指南包含两个部分：

Scraper：从 Twitter 中读取数据
Analyzer：清理、分析和可视化数据

在 Scraper 部分，我们从 Twitter 中读取数据，并将它们写入一个套接字中。为什么呢？因为稍后在本教程的第二部分（Analyzer 部分）中，我们会以流的方式从该套接字中动态读取数据并分析它们。所以，Scraper 的基本任务就是成为 Twitter（原始数据）流与 Analyzer 之间的调停者。
为了使用 Python 编写这段代码，我们使用了一个便捷的平台，即 Data Scientist Workbench (DSWB)，它承载了科学数据中使用的大量开源工具，比如 Jupyter Notebooks、RStudio 和 Zeppelin。它还为每个工具预先安装了 Apache Spark。所有一切都已经准备就绪，我们需要做的就是编写您的代码。您可以观看这个 3 分钟的视频，了解有关这些的更多信息。您可以使用以下两个选项之一上传 Notebook：
1) 在顶部菜单中，转到 “Build Analytics”，然后转到 “IPython/Jupyter Notebooks”。现在，在右上角搜索栏中，复制和粘贴下面的 URL 并按下 Enter。

Scraper.ipynb：

https://share.datascientistworkbench.com/#/api/v1/workbench/10.115.89.160/shares/tBMdz4H7LoyxWSj/Scraper.ipynb

Analyzer.ipynb：

https://share.datascientistworkbench.com/#/api/v1/workbench/10.115.89.160/shares/BbOY3brvUkhP9iq/Analyzer.ipynb
2) 或者，您可以下载此处的 IPython Notebooks：

并在显示 DSWB 时将每个文件拖放到侧边栏中。

该图显示了如何将一个文件上传到 Data Scientist Workbench 中。

收藏分享评分

回复引用

订阅 TOP

返回列表