雅虎面向研究人员发布大规模机器学习数据集

移动开发
据悉,公开的数据集包括了1100亿个事件,其在未压缩的状态下总容量达13.5TB。

据外媒报道,日前,雅虎推出了一个全新的“雅虎新闻推荐(Yahoo News Recommendation)”数据集,它被称为是有史以来对外公布***的机器学习数据集。雅虎表示,这套数据集主要针对学术研究社团推出,这样他们在研究中再也不需要为无法获得大规模数据集而发愁了。

 

[[162026]]

据悉,公开的数据集包括了1100亿个事件,其在未压缩的状态下总容量达13.5TB。

研究人员可以在数据集中找到匿名用户新闻交互数据等数据,这些数据则都是在去年早几个月从2000万名用户那里收集得到。

在Yahoo News Feed数据集中有来自用户与雅虎多个不同版块的互动数据,如雅虎电影、雅虎新闻、雅虎金融等。

另外,雅虎还在这套数据集中添加了一些人口分布数据,如性别、年龄及地理位置等。雅虎在一份声明中说道:“我们的目标是在大规模机器学习和推荐系统中促进独立研究的发展,并还要帮助在工业和学术研究之间创造一个公平竞争的环境。

 

责任编辑:李英杰 来源: cnBeta.COM
相关推荐

2011-10-27 12:14:59

2021-02-02 09:32:06

黑客攻击l安全

2017-10-09 16:51:34

机器学习No Free Lun

2021-12-13 09:14:06

清单管理数据集

2023-05-26 08:39:44

深度学习Alluxio

2015-08-10 15:33:12

2013-10-23 11:49:51

浏览器安全微软谷歌

2023-10-26 01:26:04

Vaex数据数据集

2017-03-27 16:09:58

2021-06-08 13:55:41

AI 数据人工智能

2017-11-06 10:15:36

机器学习框架Tensorflow

2014-08-25 11:06:42

2021-11-24 17:48:30

深度学习风险预测

2014-12-25 09:51:32

2012-05-04 10:16:08

2010-04-19 10:32:07

2009-11-17 09:14:12

2012-03-23 09:28:14

2010-04-21 09:15:21

2011-04-11 09:24:35

NoSQL标准化
点赞
收藏

51CTO技术栈公众号