Python机器学习算法（赵志勇）

精彩书评

在人工智能时代，机器学习已经成了互联网从业人员和在校学生的一门必修课。市场上不乏机器学习相关的书籍，但大都晦涩难懂而缺乏应用场景。本书是作者在新浪微博广告业务上一手的实践经验和心得体会，具有实用性，非常适合于对机器学习感兴趣但没有经验的开发人员，和渴望了解“理论知识如何在业务中应用”的在校学生，相信你们一定可以从中找到想要的答案。——新浪微博高级技术经理姜贵彬

本书没有使用高深复杂的数学逻辑来解释机器学习，而是从直观简洁的介绍入手，通俗易懂，再辅助于代码实现帮助读者理解算法细节，是机器学习入门一本不可多得的好书，推荐。——百度资深技术专家毛钦

本书从具体的代码开始去理解抽象的算法，给读者一种脚踏实地的感觉，推荐给所有工程出身有志于算法的工程师。——阿里妈妈算法工程技术专家易慧民

本书对常用的机器学习算法进行了深入和全面的介绍，书中大量的代码清单令人印象尤为深刻，确实是一本实用易懂、快速入门的好书。——美团·大众点评资深技术专家潘文彬

内容简介

《Python机器学习算法》是一本机器学习入门读物，注重理论与实践的结合。全书主要包括6个部分，每个部分均以典型的机器学习算法为例，从算法原理出发，由浅入深，详细介绍算法的理论，并配合目前流行的Python语言，从零开始，实现每一个算法，以加强对机器学习算法理论的理解、增强实际的算法实践能力，最终达到熟练掌握每一个算法的目的。与其他机器学习类图书相比，《Python机器学习算法》同时包含算法理论的介绍和算法的实践，以理论支撑实践，同时，又将复杂、枯燥的理论用简单易懂的形式表达出来，促进对理论的理解。

写作历程

机器学习的黄金时间

近年来，人工智能AI技术的快速发展，得益于越来越多的人工智能人才的涌入和计算机硬件以及软件技术的不断发展。机器学习是人工智能AI的中一个重要的方向，在机器学习的发展过程中，越来越多的人投身于机器学习的研究中，同时，越来越多的互联网公司加入到人工智能的行列，“人工智能”一词也成为妇孺皆知的名词，这正是人工智能发展的黄金时间，同样，机器学习算法作为人工智能中的核心方法，也是发展的一个黄金时间。

机器学习中的常用算法

在机器学习的发展过程中出现了很多优秀的机器学习算法，主要可以从监督学习，无监督学习以及半监督学习的角度对其进行划分。

监督学习（Supervised Learning）是指利用训练样本，包括数据特征和数据标签，训练出一个模型，并利用训练好的模型，对未知数据进行预测。常用的监督学习问题包括分类和回归，其中，分类问题的标签是离散的值，而回归问题的标签是一系列连续的值。常见的监督学习有：Logistic Regression算法，支持向量机SVM算法，BP神经网络算法，线性回归，Lasso，GBDT，随机森林等。
无监督学习（Unsupervised Learning）是指事先没有训练样本，我们需要直接对数据进行建模。常见的无监督问题包括聚类。常见的无监督学习有：KMeans算法，Mean Shift算法，DBSCAN算法等。
在发展的过程中，人们不断提出一些新的算法和模型，深度学习（Deep Learning）的概念便是在这个过程中被提出，深度学习通过构建深层神经网络模型，学习到输入数据的更抽象的表示，以此达到特征学习的功能，更大程度上提高了模型的学习能力。深度学习的成功成为机器学习乃至人工智能发展史上光辉的一笔。常见的深度学习模型包括：自编码器Auto-encoder，深度信念网DBN，卷积神经网络CNN，递归神经网络RNN以及LSTM等。

机器学习的常用框架

现在是机器学习发展的一个黄金时间，越来越多的研究人员和越来越多的公司参与到机器学习的研究和算法的开发过程中，因此，出现了很多开源的机器学习算法实现以及机器学习的算法框架，下面我们罗列一些常见的框架以及开源实现：

TensorFlow。TensorFlow当属现在最火的深度学习框架。TensorFlow最初由Google Brain小组（该小组隶属于Google’s Machine Intelligence研究机构）的研究员和工程师开发出来的，开发目的是用于进行机器学习和深度神经网络的研究。
Scikit-Learn。Scikit-Learn是用于机器学习的Python 模块，它建立在SciPy之上。该项目由David Cournapeau 于2007年创立，当时项目名为Google Summer of Code，自此之后，众多志愿者都为此做出了贡献。
Caffe。Caffe 是由神经网络中的表达式、速度、及模块化产生的深度学习框架，是一个基于C++/CUDA架构框架，开发者能够利用它自由的组织网络，目前支持卷积神经网络和全连接神经网络（人工神经网络）。
Keras。Keras是极其精简并高度模块化的神经网络库，在TensorFlow 或 Theano 上都能够运行，是一个高度模块化的神经网络库，支持GPU和CPU运算。
ConvNetJS。ConvNetJS是利用Javascript实现的神经网络，同时还具有非常不错的基于浏览器的Demo。它最重要的用途是帮助深度学习初学者更快、更直观的理解算法。
Theano。Theano是一个Python库，它允许使用者有效地定义、优化和评估涉及多维数组的数学表达式，同时支持GPUs和高效符号分化操作。
MXNet。MXNet是一个兼具效率和灵活性的深度学习框架。它允许使用者将符号编程和命令式编程相结合，以追求效率和生产力的最大化。
Vowpal Wabbit。Vowpal Wabbit是一个机器学习系统，该系统推动了如在线、散列、Allreduce、Learning2search、等方面机器学习前沿技术的发展。
XGBoot。XGBoot是设计为高效、灵活、可移植的优化分布式梯度 Boosting库。它实现了 Gradient Boosting 框架下的机器学习算法。XGBoost通过提供并行树Boosting（也被称为GBDT、GBM），以一种快速且准确的方式解决了许多数据科学问题。
除了上述的各种框架，还有一些开源的代码，如libSVM，libFM等等。

开始写博客

互联网技术的发展为我们的学习和生活提供了很多的便利，我们可以在互联网获取到大量的学习材料，可以和技术达人，学术牛人探讨各种技术问题。

在读研究生的时候，我有幸接触机器学习。刚开始接触机器学习时，抱着对各种机器学习算法的敬畏以及对知识的渴求，我努力去学习各种算法，包括聚类算法，分类算法等。在学习的过程中，我翻阅了机器学习领域的一些书，包括《pattern recognition and machine learning》（即PRML），《Machine Learning》，《集体智慧编程》，周志华老师的《机器学习》（即俗称的西瓜书），《机器学习实战》，李航老师的《统计机器学习》以及《推荐系统实战》等等。从这些书中，我学到了很多机器学习方面的知识，通过学习，我也渐渐对机器学习领域有了较为清晰的认识。

计算机学科是一门实践性较强的学科，任何一门语言或者任何一个算法，通过对算法的实现，能够加深对算法的理解，同时，算法的设计是为了解决实际的问题，只有在实践的过程中，才能更好的解决实际的问题。

因此，在学习的过程中，一方面学习机器学习的理论知识，另一方面通过具体的数据集，实践每一个算法。俗话说：独学而无友，则孤陋而寡闻。在掌握了部分算法后，我打算把我的学习过程分享出来，比较好的方式就是组织学习的小组，但是一些现实因素的限制，我决定通过写博客的方式将我的笔记写出来，一开始写博客，我打算能够记录出学习机器学习算法的具体过程，因此，我给自己的文章建了一个响亮的标题《简单易学的机器学习算法》（写着写着，发现想要说明白也不是那么简单）。

在此过程中，微博上也出现了很多大牛在分享各种学习资料，我也不断转发这些材料，并在事后不断学习，还为此做了一个话题：

开始写《Python机器学习算法》

能够写出一本书是很多人的理想，我也不例外，在此，我得感谢博文视点的符隆美编辑，多次鼓励我写书，才有我开始动手写这本书。

正如上面所说，我积累了大量的算法，以及自己对算法的实现，期间编辑与我联系，希望我能够将自己的稿子整理出来出一本书，刚开始的时候，我是拒绝的，我总觉得自己的能力还不足以将一个算法解释清楚，更别说出一本书，同时，市场上机器学习方面的书实在是多，如：1、《机器学习实战》。这真是一本好书，让很多初学者可以入门，同时提供了很多实践的机会，真是一本实战的好书。2、李航老师的《统计机器学习》。这是一本理论上很全的书。3、周志华老师的西瓜书《机器学习》。周老师是机器学习方面的专家，这本书得到了很多人的认可，无论是知识的全面性，还是对机器学习理论的解释，都体现出了周老师学识的渊博。4、还有一些经典的专注，如《PRML》等等还有很多。以上说的这些书是大家谈论比较多的，同时，还有一些其他的课程，如斯坦福的教程等等，无一不是学习的好材料。那究竟写些什么呢，在博客中的文章还是浅显，而且过于零散。

(以上分割线表示经过了一段时间的思考)

经过半个月时间的思考，决定写一些典型的算法，因为有些算法在我实际的工作中也经常被用到。在讲解算法的基本原理的同时，配上实验的代码，从聚类算法，分类算法，回归算法，推荐算法到深度学习，希望尽可能涉及到机器学习的大部分算法，同时，介绍了在实际中使用这其中某些算法的一个例子。

最终决定写一本机器学习入门读物，注重理论与实践的结合。在最终定稿时，全书一共包括6个部分，每个部分均以典型的机器学习算法为例，从算法原理出发，由浅入深，详细介绍算法的理论，并配合目前流行的Python语言，从零开始，实现每一个算法，以加强对机器学习算法理论的理解、增强实际的算法实践能力。