有关机器学习的开源项目Apache Mahout三月份的时候推 出了它的0.3版本,这个新版本在之前的基础上添加了一些新功能,比之前的版本更为稳定,性能也有相应的提升。InfoQ采访了Apache Mahout项目的开发者Grant Ingersoll和Ted Dunning,其中Grant Ingresoll也是该项目的创始人之一。

过去十年里,从大 量原始数据中解析出相关信息的需求急剧增长,以致于聚类(clustering)、协同过滤(collaborative filtering)和分类(categorization)等机器学习技术的需 求也是呈稳定增长势态。

Grant Ingersoll这样介 绍Mahout项目:

  • 将已知方法语境中的文档聚类 (Clustering)有助于把注意力集中到某些特定的聚类和内容上,从而避免在无关的内容上浪费精力。
  • 推荐算法(协同过滤推荐算法 -Collaborative Filtering)常常用来向用户推荐书籍、音乐、电影等内容,也可以用于多用户协作的应用中精简所需关注的数 据。
  • 模式匹配(朴素贝叶斯分类器 -Naïve Bayes Classifier等分类算法)可用于归类之前没有见过的文档。归类新文档时,算法在模式中查找文档中涉及的词汇, 计算该文档属于各个模式的概率,最后文档将归于概率最大的模式,输入的结果往往都以数值来表示算法本身对这个结果的正确与否有多大的把握。
  • Mahout 项目通过Apache Hadoop的支持来获 得伸缩性。

Mahout另一个重点是,它提供一系列工 具把文本数据表示成矩阵形式。这也是采用Mahout机器学习算法来处理数据的首要任务。

Mahout项目是由Apache Lucene(开源搜索项目)社区几 个热衷于聚类、分类等机器学习算法的技术人员所发起。社区最初的开发“追随”于Ng et al.发表的论文“支持多核之上的机器学习的Map-Reduce框架(Map-Reduce for Machine Learning on Multicore)”,自项目启动以来,社区也致力于各种机器学习算法、模式的开发。

最新Apache Mahout版本的亮点有:

  • 新添功能:基于高性能的Colt library的 math、collections模块
  • 采用FP-bonsai pruning而实现更快的频 繁模式增长(Frequent Pattern Growtt)算法
  • 并行计算Dirichlet  聚 类算法(基于模型的聚类算法)
  • 并行计算基于共现算法的推荐引擎
  • 结合基于LLR的ngram生成算法并行处理文本文档 到向量的转换
  • 并行Lanczos SVD(奇异 值分解)计算
  • 提供运行算法、工具以及范例的脚本程序

在问到这个版本中最激动人心的特性 时,Ingersoll这样回答:

新添加的分布式奇异值分解(Singular Value Decomposition)计算非常令人期待,此外,还有那些方便用户把内容导入到Mahout的诸多工具。其中,最激动人心的其实并不是有形的,而是 Mahout社区的成长。社区目前已吸引到数量客观的贡献者和用户。任何开源项目的发展过程当中,最初阶段往往都很惨淡,工作常常只有一两个人去做,一旦 当中有人离开甚至只是减缓开发速度,整个项目都有可能中途夭折。但我相信Mahout已经通过了这样的考验,现在已经有非常多非常活跃的社区成员正努力把 它变成一个真正令人激动的项目。

Mahout项目的未来计划包括:

  • 今年发布1.0版本
  • 从 1.0版本开始发布稳定的API
  • 实现诸如随机梯度下降 (Stochastic Gradient Descent - SGD)算法的在线学习功能
  • 提供支持向量机 (Support Vector Machine - SVM)算法实现

SGD 和SVM的实现将适宜于文档挖掘以及其它一些与文本或重复归类数据相关的应用。尤其令人期待的是SGD系统将引入在线创建互动变量的 能力。

查看英文原文:Mahout 0.3: Open Source Machine Learning

Mahout-0.3相关推荐

  1. Apache Mahout 0.9、10.1、11. CardinalityException: Required cardinality 60 but got 29

    我们可以使用Apache Mahout来快速创建高效扩展性又好的机器学习应用.Mahout结合了诸如H2O算法.Scala.Spark和Hadoop MapReduce等模块,为开发人员提供了一个构建 ...

  2. mahout 0.9 连接mysql_部署安装 Mahout

    一.Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创 ...

  3. 转】用Maven构建Mahout项目

    原博文出自于: http://blog.fens.me/hadoop-mahout-maven-eclipse/ 感谢! 用Maven构建Mahout项目 Hadoop家族系列文章,主要介绍Hadoo ...

  4. Mahout分步式程序开发 基于物品的协同过滤ItemCF

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  5. Mahout推荐算法API详解

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  6. 用Maven构建Mahout项目

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  7. 云计算数据挖掘Mahout下的机器学习

    Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应 ...

  8. mahout贝叶斯分类器测试样例

    MAHOUT 0.9版本的贝叶斯分类器测试样例测试非常简单,执行下面这条语句,然后选择第2项就OK了. $MAHOUT_HOME/examples/bin/classify-20newsgroups. ...

  9. mahout安装测试

    Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序.Apa ...

  10. 认识Mahout下的云计算机器学习

    认识Mahout下的云计算机器学习 Apache Mahout 是 ApacheSoftware Foundation (ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在 ...

最新文章

  1. Bio-protocol与Cell Research达成合作:共同提升科研的可重复性
  2. 【c语言】蓝桥杯算法训练 整除问题
  3. 【网络安全】HTB靶机渗透系列之Sniper
  4. Express框架Restful API Ajax 跨域 开启Cookie支持
  5. plsql查看用户权限_权限功能
  6. mail函数 开启php,PHP mail函数使用详解
  7. 《Linux内核设计与实现》读书笔记(12)--- 内存管理(2)
  8. LVSHAproxyNginx区别
  9. 【统计学】10个必知必会的统计学问题 (附答案)
  10. 双系统安装:Deepin 尝鲜
  11. android获取wifi支持的信道,Android获取当前连接wifi的信道
  12. 根据输入的姓氏,随机获取对应的男生和女生姓名
  13. 自然语言处理—文本分类综述/什么是文本分类
  14. goto解密PHP源码解密程序源码下载
  15. 取消 android 内部收费,国产手机硬伤终于被揭开:若安卓系统下半年收费,该如何应对?...
  16. 海龟绘图小案例(内含源码)
  17. 期末安卓习题--第七章
  18. Python学习,用python-webdriver实现自动填表
  19. Java 基础——HashMap 遍历方式
  20. 社会保险法相关知识--调基

热门文章

  1. CO01保存报错 TD427 元素 OPR_ACT_NEW 窗口 MAIN 没被定义给格式 PSFC_STD_LAYOUT
  2. XSS常用Payload
  3. 【GitHub】Failed to connect to github.com port 443 的一种解决方案
  4. Win10蓝牙设备删除失败的问题?
  5. webug 2、布尔注入
  6. 基于支持向量机的Digits手写数字识别
  7. KubeVirt在360的探索之路
  8. 产品经理_岗位胜任模式
  9. 随机网络中通过Hebbian可塑性进行元学习(Meta-Learning through Hebbian Plasticity in Random Networks)
  10. 约束优化:低维线性时间线性规划算法(Seidel算法)、低维线性时间严格凸二次规划算法