space
space
logo logo  
官网
space
space
space home space news space photo space science space forum space agencies space app space
 
space
space
space
list 您现在的位置: 首页 科学前沿 正文
line
 
美打破“太字节障碍”创数据分类速度纪录
space
space
space
作者:毛黎 日期:2010-07-29 标签:数据分类,速度  
 

   美国加州大学计算机科学家打破了“太字节(Terabyte)障碍”,创造了在60秒内对超过太字节数据进行分类的世界纪录。在被誉为“数据分类的世界杯”的“分类基准”比赛中,他们还追平了最快数据分类率的世界纪录,172分钟内数据分类量达到1万亿字节,不过使用的计算机资源只有原纪录创造者计算机资源的1/4。  

  寻求新趋势、高效率和其他竞争优势的公司致力于发展大数据量的分类途径,通常此项工作需要超强的数据中心。互联网的运行显示了数据分类的重要性,社会网络的广告、亚马逊网站的推荐以及谷歌的搜索结果均源自对多达数拍字节(petabyte)数据组的分类。1拍字节等于1000太字节。 

  研究项目负责人、加州大学圣地亚哥分校计算机科学教授阿敏·瓦达特表示,如果某家大公司需要查询所有相关的网页或产品销售,这需要对多达数拍字节的数据组进行分类,而数据组本身每天可呈千兆字节的速度增长。公司在不断地将其数据分类的数量和速度推向极限。瓦达特认为,实时的数据分析需要更好的分类技术。在数据中心,分类常常是许多更高级活动的“瓶颈”。 

  计算机科学家面对的数据分类挑战不同于其他的利用现成数据库软件参加的比赛,它们之间最大的差异是在太字节和拍字节分类中,数据远远超过了计算机做分类所具有的内存容量。为了建立自己的大数据量分类系统,瓦达特他们专门设计了高速且平衡的计算机系统。所谓平衡系统是指系统内的技术资源如内存、存储和网络宽带等被全量使用,做到尽可能没有浪费。

加入收藏】【打印此文】【关闭窗口
space
arrow 本期讲坛详细介绍
space
arrow 申请门票
space
 
notice more
space
space
arrow 杨振宁教授:回顾历史 讲述物理学的诱惑
space
arrow 卓以和谈“分子束外延技术”
space
arrow 中国气象局局长秦大河--全球气候变化的科学研究进展
space
 

探月工程首席科学家欧阳自远科学大讲坛演讲
 
space