摘要: Apache Spark RDD 的一篇论文,中文版本阅读全文
posted @ 2017-09-21 16:38 nm-xy 阅读(6) 评论(0) 编辑
摘要: 本教程提供了如何使用 Spark 的快速入门介绍。首先通过运行 Spark 交互式的 shell(在 Python 或 Scala 中)来介绍 API, 然后展示如何使用 Java , Scala 和 Python 来编写应用程序。 为了继续阅读本指南, 首先从 Spark 官网 下载 Spark 的发行包。因为我们将不使用 HDFS, 所以你可以下载一个任何 Hadoop 版本的软件包。阅读全文
posted @ 2017-09-20 14:22 nm-xy 阅读(12) 评论(0) 编辑
摘要: Apache Spark 是一个快速的, 多用途的集群计算系统。 它提供了 Java, Scala, Python 和 R 的高级 API,以及一个支持通用的执行图计算的优化过的引擎. 它还支持一组丰富的高级工具, 包括使用 SQL 处理结构化数据处理的 Spark SQL, 用于机器学习的 MLlib, 用于图形处理的 GraphX, 以及 Spark Streaming。阅读全文
posted @ 2017-09-20 14:19 nm-xy 阅读(24) 评论(0) 编辑
摘要: K-均值是发现给定数据集的k个簇的算法。阅读全文
posted @ 2017-09-12 18:07 nm-xy 阅读(243) 评论(0) 编辑
摘要: 第4章 基于概率论的分类方法:朴素贝叶斯 朴素贝叶斯 概述 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本章首先介绍贝叶斯分类算法的基础——贝叶斯定理。最后,我们通过实例来讨论贝叶斯分类的中最简单的一种: 朴素贝叶斯分类。 贝叶斯理论 & 条件概率 贝叶斯理论 阅读全文
posted @ 2017-09-03 23:05 nm-xy 阅读(274) 评论(0) 编辑
摘要: ApacheCN——专注于优秀开源项目维护的组织,不止于权威的文档视频技术支持阅读全文
posted @ 2017-09-01 12:07 nm-xy 阅读(42) 评论(0) 编辑
摘要: ApacheCN——专注于优秀开源项目维护的组织,不止于权威的文档视频技术支持阅读全文
posted @ 2017-09-01 12:04 nm-xy 阅读(44) 评论(0) 编辑
摘要: ApacheCN——专注于优秀开源项目维护的组织,不止于权威的文档视频技术支持阅读全文
posted @ 2017-09-01 12:02 nm-xy 阅读(70) 评论(0) 编辑
摘要: ApacheCN——专注于优秀开源项目维护的组织,不止于权威的文档视频技术支持阅读全文
posted @ 2017-09-01 11:59 nm-xy 阅读(453) 评论(4) 编辑
摘要: 前言 Apache Storm 是一个免费的,开源的,分布式的实时计算系统. 官方文档: 中文文档: "ApacheCN" 最近组织了翻译 "Storm 1.1.0 中文文档" 的活动,整体 "翻译进度" 为 96%. 感谢大家参与到该活动中来 感谢无私奉献的 "贡献者" ,才有了这份 "Storm阅读全文
posted @ 2017-08-28 18:17 nm-xy 阅读(22) 评论(0) 编辑