加载中 ...
首页 > 科技 > 智能终端 > 正文

MIT开发的新设备帮助数据科学家用“笔记本”分析大规模图形数据

2018-06-07 22:47:23 来源:腾讯企鹅号

一般来说,在处理图形数据时闪存要比 DRAM 慢得多。但现在,麻省理工学院计算机科学和人工智能实验室 (CSAIL) 的研究者们已经设计出了一种由闪存芯片阵列和计算“加速器”组成的新设备,它使用廉价的闪存(和智能手机里用的类型一样),仅需一台个人电脑就能处理大量图形。

该设备由一种新颖的算法驱动,它把图形数据的所有访问请求进行分类,从而变成便于闪存快速访问的顺序。它还能合并一些请求以减少排序的开销,比如组合的计算时间、内存、带宽和其它计算资源。

研究人员将该设备与几个传统高性能系统放在一起进行比较,来分别处理几个大型图表。其中包括巨大的 Web 数据共享超链接图(Web Data Commons Hyperlink Graph),这个图形拥有 35 亿个结点和 128 亿条连接线。为了处理这个图表,传统系统全都需要一个耗资数千美元的服务器,并且包含 128 千兆字节的 DRAM。

而通过把两个器件(总计 1 千兆字节的 DRAM 和 1 个太字节的闪存)插入台式计算机,新设备实现了同样的性能。此外,通过组合多个设备,他们可以处理大量图形,高达 40 亿个节点和 128 亿条连接线,没有其它系统能在 128 GB 的服务器上操作这么多的信息。

“最重要的是,我们可以用温度更低和能量消耗上更少的机器来保持同样的性能”,CSAIL 的研究生传相佑(Sang-Woo Jun)说。他是介绍该设备的论文的第一作者。

该设备可用于削减与图形分析相关的成本和能耗,甚至可以拓展它的适用范围。比如说,研究人员正在创造一个程序,它可以识别哪些基因会导致癌症。像谷歌这样的大科技公司,也可以通过使用比以前少得多的机器,来减少他们运行分析时所带来的能源消耗。

“图形处理是一个很普遍的概念”,论文的共同作者 Arvind 教授说,“网页排序与基因检测有哪些共同之处呢?对于我们来说,这是相同的计算问题,它们只是具有不同含义的不同图表。某人开发的应用类型,将决定它给社会带来的影响。”

“分类和减少”算法

在图形分析中,系统基于某个结点与其它结点、在其它度量中的关系来寻找和更新结点值。打个比方,在网页排序里,每个结点代表一个网页。如果结点 A 的值很高,并且与结点 B 相联系,那么结点 B 的值也会相应提高。

传统的系统把所有图形数据都储存在 DRAM 里,因此它们处理速度快,但是价格昂贵、耗能多。有一些系统将部分数据内存分流到闪存上,这种方式更便宜,但速度更慢、效率也更低,因此它们仍需要使用大量的 DRAM。

而新研究使用一种被称之为“分类-减少”(sort-reduce)的算法,它解决了把闪存作为主要存储源的一个大问题:浪费。

图形分析系统需要在巨大且松散的图形结构中,访问彼此可能相距很远的结点。系统通常要求直接访问譬如 4 到 8 字节的数据来更新结点的值。DRAM 可以提供非常快速的直接访问,而闪存只访问 4 到 8 千字节的数据块,并且只能更新其中的几个字节。在图表之内跨越时,如果每次访问请求都要重复这一过程,会造成带宽的浪费。“如果你需要访问整个 8 千字节,但是只用了 8 个字节,然后把其余部分乱扔,那么你相当于浪费了整整 1000 倍的性能。”传相佑说。

“分类-减少”算法则采用所有直接访问请求,并且按照标记符号的顺序把它们分类和排序。标记符号会显示请求的目的地,比如说,把各个结点的所有更新都分到一组。于是,闪存能同时访问数千个请求的、千字节大小的数据块,因此工作效率比以前高了许多。

为了进一步节省计算能力和带宽,这个算法同时也会尽可能把数据合并到最小的分组中。只要算法发现了相匹配的标记符,它就将这些数据放到同一个数据包里,例如 A1 和 A2 变成了 A3。它持续这样做,根据匹配的标记符创建越来越小的数据包,直到产生可能范围内最小的数据包来进行排序。这大大减少了访问重复请求的数量。

使用这个算法来处理两个大图形,研究人员把需要在闪存中更新的总数据减少了大约 90%。

计算分流

然而,由于“分类-减少”算法需要在主机上进行高强度计算,于是研究者们在设备里放入了一个定制的加速器。作为主机和闪存芯片的中间点,加速器为算法执行所有运算。于是,很大一部分能耗被分流到了加速器上,主机因而可以成为一台低功耗的个人电脑或笔记本,用于管理分类的数据和执行其它次要任务。

“本来加速器是用来帮助主机的,但我们不小心(在计算上)走得太远,以至于主机变得不重要了”Arvind 说。

图丨Arvind 教授

“麻省理工学院的这个项目展示了一种在非常大的图形上执行分析的新方法:他们利用闪存来储存图形,并且巧妙使用 FPGA 来执行有效使用闪存所需的分析和数据处理”,德克萨斯大学奥斯汀分校的计算机科学教授 Keshav Pingali 说,“长远看来,这可能促生一个能在笔记本或台式电脑上有效处理大量数据的系统,并将彻底改变我们进行大数据处理的方式。”

据传相佑介绍,由于主机耗能很少,他们的长期计划是创建一个通用平台和软件库,让消费者能开发出图形分析之外的、属于他们自己的算法。“你可以把这个平台插到笔记本里,下载软件,并编写简单的程序,从而在自己的电脑上实现服务器级别的性能”,他说。

本文来源:腾讯企鹅号责任编辑:KS002

本文仅代表作者个人观点,与本网站立场无关。云掌财经对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证,请读者仅作参考,并请自行核实相关内容。

  • 【 景气度处于高位 机械板块估值修复可期 】 近期,工程机械板块跟随市场调整,走势一般,但行业景气度仍在高位运行。有分析人士认为,随着基础设施建设不断发力,产品更新换代需求及出口持续向好等,工程机械行业持续火热,行业整体盈利水平逐步上升。基于业绩确定性,工程机械板块仍是后市关注重点。(中国证券报)

    2018-10-13
  • 【聚焦“ABC” 互联网争霸进入下半场】日前,港股上市公司腾讯控股6年来首次宣布调整内部构架,新成立云与智慧产业事业群、平台与内容事业群,并压缩原有事业群。外界解读公司此举是为了将人工智能、大数据和云计算提升到更核心的战略位置。事实上,不仅腾讯,国内百度、小米、阿里巴巴,国外谷歌、亚马逊等互联网巨头近年均调整组织架构,意在适应“ABC”变革。分析人士称,“ABC”已成互联网巨头决胜下半场的关键。

    2018-10-13
  • 【证监会:受理首发及发行存托凭证企业271家 已过会32家未过会239家】证监会披露的数据显示,截至10月11日,中国证监会受理首发及发行存托凭证企业271家,其中已过会32家,未过会239家。未过会企业中正常待审企业217家,中止审查企业22家。

    2018-10-13
  • 【 聚焦“ABC” 互联网争霸进入下半场 】 日前,港股上市公司腾讯控股6年来首次宣布调整内部构架,新成立云与智慧产业事业群、平台与内容事业群,并压缩原有事业群。外界解读公司此举是为了将人工智能(AI)、大数据(BIG DATA)和云计算(CLOUD)提升到更核心的战略位置。事实上,不仅腾讯,国内百度、小米、阿里巴巴,国外谷歌、亚马逊等互联网巨头近年均调整组织架构,意在适应“ABC”变革。分析人士称,“ABC”已成互联网巨头决胜下半场的关键。(中国证券报)

    2018-10-13
  • 【 证监会:受理首发及发行存托凭证企业271家 已过会32家未过会239家 】 证监会披露的数据显示,截至10月11日,中国证监会受理首发及发行存托凭证企业271家,其中已过会32家,未过会239家。未过会企业中正常待审企业217家,中止审查企业22家。

    2018-10-13
  • 【逢低吸筹茅台格力等 北向资金昨日净流入10.73亿元】 北向资金节后开盘以来的浓厚避险情绪,终于在本周最后一个交易日有所缓解。伴随着A股的止跌反弹,截至12日收盘,借道沪股通、深股通的境外资金合计净流入10.73亿元,一举扭转了此前连续大幅净卖出的局面。曾遭北向资金大幅抛售的活跃标的个股,也悉数恢复了净流入态势。本周前4个交易日遭净卖出9208万元的格力电器,周五获净买入1.56亿元。洋河股份、泸州老窖和大华股份周五也获得小幅净流入。

    2018-10-13
  • 【中证报:悲观预期必将修正 优质资产终会引领风潮】突如其来的海外市场动荡,打乱了A股9月下旬发动的上行攻势。在“过山车”似的走势背后,当下A股市场对利空的敏感暴露无遗,本质上这是经济悲观预期作祟。国际经济金融形势更加错综复杂,然而经过今年以来的逐步调整,A股对潜在风险的反映已经比较充分。优质资产在超跌之后,终将迎来修复契机。

    2018-10-13
  • 【财政部表态减税力度将扩大 增值税税率调整随时出台】据悉,对于增值税改革的工作,目前相关部门也已启动,包括税率合并以及下调等事宜都在进行测算。“此前税务机关曾找第三方机构测算税率下调后的影响,因此年内有可能随时出台政策。”一位税务系统人士判断。(中国经营报)

    2018-10-13
  • 【墨西哥经济部长:将寻求获得加拿大钢铝产品保护性措施的豁免】墨西哥经济部长瓜哈尔多表示,将致电加拿大方面,寻求获得加拿大钢铝产品保护性措施的豁免;预计加拿大的钢铝产品贸易保护性措施将给墨西哥钢铝出口带来2亿美元影响。

    2018-10-13
  • 【9月房企融资成本达2017年下半年以来峰值】据不完全统计,2018年1-9月典型85家房企融资总额8287亿元,同比减少11%。43%的房企融资额同比有所减少。下半年以来TOP50之后有发债的房企只有5家,中小企业融资难问题更加显著。从单月来看,2018年春节以来房企的各月平均融资成本,除6月外,基本都较上年同期有所增加。9月整体融资成本反弹至6.91%,达到去年下半年以来的最高值,房企融资成本的增加预计将进一步限制融资规模的增长。(克而瑞地产研究)

    2018-10-13