您的位置:澳门新葡8455手机版 > 信息科学 > 网络与信息系统研究所肖臻研究员课题组发布高

网络与信息系统研究所肖臻研究员课题组发布高

发布时间:2019-11-15 09:15编辑:信息科学浏览(122)

    近日,北京大学信息科学技术学院网络与信息系统研究所肖臻研究员课题组发布并开源了一款针对于海量数据处理任务的分布式机器学习系统xLearn,仅48小时之后即在全球最大开源社区Github收获近750颗星,并在Github趋势的排名超越了谷歌开发的开源软件库TensorFlow;其主要开发者、信息学院博士研究生马超在Github排行榜上跻身前五甲,与微软、脸书、谷歌、Apache 等行业翘楚比肩。

    在机器学习领域,除了深度学习和树模型之外,如何高效处理高维稀疏数据也是非常重要的问题。人们耳熟能详的“大数据”在绝大多数情况下都是高维稀疏数据。近年来,逻辑回归模型、因子分解机及其衍生等主流算法被广泛运用于实际生产和竞赛,然而现有的开源软件都只能解决特定的机器学习算法问题,可扩展性、灵活性、易用性不够友好。与之相比,xLearn 系统的优势在于:一是具有通用性,即用统一的模块化系统架构囊括常用的大规模机器学习算法,用户不必在不同软件之间切换。二是性能好,即系统由高性能C 开发,提供缓存感知和无锁加速训练,且经手工SSE/AVX指令优化;在单机苹果笔记本电脑上测试,可比libFM快13倍,比LIBFFM和LIBLINEAR快5倍。三是易用且灵活,既为用户提供简单的Python接口,且集成了机器学习中许多有用的功能,还可使用户灵活选择随机梯度下降等优化算法。四是具有可扩展性,不仅提供基于外存计算,可在单机上处理 1 TB 数据;也提供稀疏优化的分布式训练功能,此种设计可使用户处理海量数据的门槛进一步降低。

     澳门新葡8455手机版 1

    肖臻课题组长期致力于云计算的研究,他们表示xLearn系统的目标是成为甚至超越像xgboost、MXNet、scikit-learn 等具有广泛影响力的机器学习系统。

         还记得 11 月 9 日 Google Research 推出第二代开源机器学习软件库 TensorFlow 吧!谷歌称在建立和训练神经网络方面,TensorFlow 速度要比第一代系统快 5 倍,可支持CPU、GPU、桌面机、服务器和移动计算等平台。TensorFlow 吸引了开发者广泛的眼球。

    澳门新葡8455手机版,有关该课题组的更多信息,请参考肖臻研究员的主页:

    澳门新葡8455最新网站,就在同一天,微软亚洲研究院也开源了分布式机器学习工具包 DMTK。开源版 DMTK 包含了目前世界上最大规模的主题模型和分布式词向量模型,据称比同类模型高了好几个数量级。以至于有开发者惊呼,怎么微软也能把这样的核心技术给开源了?

    那么,什么是 DMTK 分布式机器学习包?这还要从 DMTK 的开发历史说起。DMTK 的主要研发负责人、微软亚洲研究院人工智能研究组首席研究员、美国卡耐基·梅隆大学(CMU)博士生导师刘铁岩告诉记者,近年来全球机器学习领域主要有三大趋势:更大规模的机器学习、更深度的机器学习以及更强交互性的机器学习,这些都是基于大数据与云计算的兴起。

    微软亚洲研究院从两年前开始研发 DMTK 分布式机器学习系统。首先,DMTK 通过分布式计算部署的方式满足了大规模机器学习的要求。由于云计算和高性能处理器的普及,让机器学习从单机环境扩展到多机环境甚至是集群系统。分布式机器学习就是通过在更为廉价的集群系统上部署机器学习的算法,把原来单机的计算能力扩展到成千上万台服务器上。

    DMTK 开源版提供了简单高效的分布式机器学习框架,它由参数服务器和客户端软件开发包(SDK)两部分构成。开发者只需要简单几行代码,就可以非常容易地把自己开发的机器学习算法从单机环境扩展到多机或集群环境。这大幅降低了机器学习的门槛,无论是高校研究者或者是商用机器学习开发商,都能基于微软 DMTK 开源版轻松扩展机器学习算法的计算环境和计算资源,从而实现基于大数据的大规模机器学习。

    其次,DMTK 还提供了丰富的机器学习算法,以满足更为深度、更为快速的机器学习。目前开源版的 DMTK 包含了其中两款独具特色的机器学习算法:LightLDA 主题模型和分布式词向量模型。

    什么是主题模型呢?互联网和社交平台等催生了庞大的文本内容,通过机器学习对这些内容进行数据挖掘,可以得出相关的主题(Topic),这是机器学习和文本理解的基础。据刘铁岩介绍,DMTK 提供的 LightLDA 算法是当前世界上唯一一款能训练超过 100 万个主题的机器学习算法,它仅用 20 台服务器(300 余个 CPU 内核)就能训练如此庞大的主题模型,这让其它同类系统望尘莫及。

    去年,曾经获得国际数据挖掘大会(KDD)最佳论文奖的 AliasLDA 算法,要用多达 1 万个 CPU 内核才能完成 2000 个主题的训练。 LightLDA 算法之所以能够用比 AliasLDA 少很多的计算资源训练出高若干数量级的模型,是因为它具有一种独创的、让运算复杂度与主题数目无关的高效采样方法。这样一来,即使训练再多的主题数,也无需更大规模的计算资源。据了解,LightLDA 已经帮助微软的很多关键产品实现了性能的飞跃。

    另一个更为神奇的分布式词向量训练模型算法,能够更好地计算两个词之间的“距离”。简单地说,过去通过搜索引擎搜索内容,主要依靠搜索关键词的精确匹配。如果在被搜索的网页上出现了与搜索关键词相同的词汇,被搜索网页链接就会出现在搜索结果页面。但在广告展示、话题探索、垂直搜索等应用领域,更多需要的是语义级别匹配,也就是在语义方面的相关性匹配。词向量模型通过挖掘文本数据,为每一个词训练出上千个相关指标(维度),而带有上千个维度的一个词即为一个向量,通过数学方式计算两个词向量之间的距离,即可以有效地表征两个词之间的语义相关度。

    DMTK 中包含的分布式词向量模型是目前市面上唯一的一款词向量模型的多机版,它可以把单机计算资源扩展到多机或集群中,从而更快、更高效地学习词向量。分布式词向量模型把“搜索”推进到了“探索”阶段,这有望给整个搜索和相关产业带来颠覆性变化。

    据了解,DMTK 已经被应用到了微软的必应搜索引擎、广告、小冰等多款在线产品当中,实现了更强交互性的机器学习。以微软小冰为例,作为聊天机器人,人类用户与小冰的平均每次对话轮数达到了 18 轮,而此前最领先同类机器人的平均轮数仅有 1.5 至 2 轮。这就说明微软小冰在与人类对话中对相关词汇的“命中率”远高于同类技术,创造了更好的交互性机器学习体验。

    DMTK 开源版在 Github 开源社区发布一周以来始终保持在 Top 10 的位置,DMTK 官网目前的访问量已经突破百万,DMTK 可执行文件下载量达到十余万次,而 GitHub 开发人员也是在一周之内就给 DMTK 上千颗星,这是很多同类开源项目几年都无法达到的热度。

    同一天开源的 TensorFlow 和 DMTK 之间到底有什么区别呢?记者了解到,谷歌目前开源出来的 TensorFlow,作为单机深度学习工具并不支持分布式计算,而微软 DMTK 开源版则支持分布式、异构、异步计算集群环境部署。另外,谷歌的 TensorFlow 主要是系统实现,并不包含算法方面的创新;而 DMTK 则两者兼顾,因此可以用更少的资源,训练出大N个数量级的模型。

    那么,为何科技巨头们纷纷将机器学习技术开源?这一方面是为了推进整个机器学习应用的普及,通过开源高端算法和软件,为人工智能和机器人产业打开新的机遇之门。另一方面则是在更深层次拉动各自的软件与算法生态,从战略技术制高点布局下一代产业格局。

    【编辑推荐】

    本文由澳门新葡8455手机版发布于信息科学,转载请注明出处:网络与信息系统研究所肖臻研究员课题组发布高

    关键词:

上一篇:有影片,欢迎联系~~~重温经典

下一篇:没有了