美国海军研究人员希望建立一个包含3500亿条数字化数据记录的全球社交媒体档案,作为加利福尼亚州蒙特利海军研究生院的部分研究工作。该研究通过该研究生院的国防部和分析部实施。
正如其概要所述,这项军事研究项目的目的是提供“对基本社会动态更深入的理解,模拟语言社区的演变以及新兴的集体表达形式,而这些受到时间和不同国家发展的影响。”
美国海军计划浏览至少在2014年7月1日至2016年12月31期期间的社交媒体记录,这些数据将从单一社交媒体平台收集,并包含“在指定时间段内平台上传输的所有公开信息、评论或帖子。”
将涉及100多个国家的2亿名用户
至少100个国家的2亿名唯一用户的信息将被添加至美国海军的全球社交媒体档案中,源自每个国家的用户数量将不超过30%。
另外,该档案“必须包含以至少60种语言编写的信息,其中50%的信息是用英语以外的语言编写的。”
然而,正如该项目概述中提到的那样,被收集的信息“必须仅包含公开可用信息”,而不会爬取私人信息并添加至数据库中。
收集这3500亿条记录的最低要求还包括:
-
档案中的每条记录必须提供社交媒体帖子的完整文本,不对原始内容和格式进行修改,必须包含所有可用的和原始帖子相关的公开元数据包括国家、语言、话题标签、位置、昵称、时间戳和 URL。
-
所有记录必须包括信息发送的时间和日期以及和信息相关的公开的用户昵称。
-
至少20%的记录中必须包含大概的位置信息,提供自述的用户家乡信息或其它公开可见的地理位置信息。
该研究项目在概述中还表示,这些数据将用于教学目的,“为学生提供论文研究的新机会并发展他们的‘大数据’分析技能。”
军事研究团队希望“获取社交媒体数据的大规模全球历史档案,提供所有国家和社交媒体平台涵盖的语言的所有公共社交媒体帖子的全文。”
该项目的主要研究员 T. Camber Warren 告诉彭博社,“社交媒体数据第一次允许我们衡量口语和俚语是如何随着时间的推移在不同的人类社会中发展的,以便我们能够开始了解围绕某些形式的话语形成社区的方式和原因。”
https://www.bleepingcomputer.com/news/security/us-navy-creating-a-350-billion-record-social-media-archive/
声明:本文来自代码卫士,版权归作者所有。文章内容仅代表作者独立观点,不代表士冗科技立场,转载目的在于传递更多信息。如有侵权,请联系 service@expshell.com。