工布江达信息网
热点专题
当前位置: 首页 >> 热点专题 >> 正文

《机器学习入门实战》第 01 篇 如何入门机器学习?


文章作者:www.orrapin.com 发布时间:2020-03-04 点击:1251



关于逆向学习方法的专栏内容介绍了目标群体的专栏章节“机器学习和数据挖掘”。如果你是一个想要开始学习数据科学的初学者,你首先需要面对各种相关的名词和概念。例如,什么是人工智能、机器学习、数据挖掘和统计分析?简而言之,它们之间的关系如下图所示。

Statistics是一门综合科学,它通过搜索、分类、分析和描述数据来推断被测物体的性质,甚至预测物体的未来。统计方法主要分为描述性统计和推断性统计。例如,计算大学生的平均身高、标准差以及收入与受教育程度之间是否存在统计相关性是描述性统计,而通过全国人口普查掌握全国人口基本情况是推断性统计。

机器学习是人工智能的一个分支,涉及概率论、统计学、近似理论、凸分析、算法复杂性理论和其他学科。机器学习专门研究计算机如何模拟或实现人类学习行为,以获取新知识或技能,重组现有的知识结构,并不断提高自己的表现。

数据库是根据数据结构组织、存储和管理数据的仓库;数据仓库是一个提供报告服务和决策支持的特定数据库。我们常用的数据库包括甲骨文、MySQL、SQL Server、蒙古数据库、阿帕切夫、HBase等。

数据挖掘一般指通过算法搜索隐藏在大量数据中的信息的过程。数据挖掘是一个综合了统计学、机器学习和数据库技术的多学科领域。为了便于理解,我们可以将数据挖掘的作用分为两种类型:通过统计数据分析解释过去和基于机器学习算法预测未来,如下图所示。

data minig

解释过去以便能够预测未来。通过统计和可视化的方法来探索数据,从而发现历史数据中的规律或问题;并为接下来的数据挖掘和数据建模工作做好准备。

预测未来的主要方法是建立预测算法模型。如果预测结果是一个离散的类别值,它被称为分类,如垃圾邮件检测,图像识别等。如果预测结果是一个连续的值,它被称为回归,如药物反应,股票价格预测等。聚类是将相似的观察值分配给同一个组,如用户肖像、推荐系统等。关联规则可以在观察结果中找到交易之间的关联,比如哪些产品经常一起购买。

机器学习领域提供了大量的数据挖掘算法,这也给我们的选择带来了一些困难。下面是一个通用机器学习算法的快速查找表(英文原版),需要时可以轻松查阅。

cheet sheet

了解这些概念后,让我们讨论一下初学者应该如何开始机器学习。如果你在网上搜索,你可能会得到如下建议:

学习MOOC课程

尝试Kaggle/天池竞赛。然而,这些建议大多不适合初学者学习。学习一项技术或技能可能有两种方法:理论第一或实践第一。

大多数传统学习方法采用理论优先的方法。首先,我们需要掌握以下基础知识:

数据结构和算法

导论理论和统计学

数据结构和算法

最优化理论。然后,我们可以开始实现简单的机器学习算法,参加一些相关领域的竞赛,并尝试在实际工作中使用学到的知识。

数据结构和算法

最优化理论。然后,我们可以开始实现简单的机器学习算法,参加一些相关领域的竞赛,并尝试在实际工作中使用学到的知识。

对于任何一个初学者来说,如果他必须从一开始就面对如此多的理论知识,这不仅需要时间,而且很容易影响他的学习热情。我记得在我们学习英语的时候,老师总是要求我们背诵各种单词,记住各种主谓宾、固定形式补语的语法,并且很少有一个理解语义的练习环境。结果,一些人仍然拒绝学习英语。

传统的机器学习录入方法也有同样的优点

与传统的学习方向相反,逆向学习方法采用实践优先的概念来解决数据挖掘的实际问题,并驱动学习过程。如果你想一想我们年轻时是如何学会说话的,你肯定不会先学习各种拼音、汉字和语法,但在现实生活中,你会在不断听和说之后自然地说话。当然,如果你想成为一名语言学家,你必须研究这些语言细节,你还需要付出比普通人多很多倍的努力。

当然,这并不意味着不需要基本的理论知识。理论是非常重要的,但是对于初学者来说,他们应该首先建立一个整体过程的知识。然后,从实践到理论,我们可以有针对性地学习各种知识点。这将使你更容易获得成就感,提高学习热情,帮助初学者开始学习。

因此,我们将采用以下方法来引导大家开始:

选择一个成熟、系统的行业流程;

选择适合初学者的工具平台开始使用;

专注于解决实际的数据挖掘问题;

有针对性地扩展算法的原理和知识点。

首先,我们需要建立在前人的基础上。事实上,在数据挖掘领域,一个成熟的行业过程跨行业数据挖掘标准过程已经很早就建立起来了。为了解决现实世界中的问题,我们通过采集原始数据,进行格式化、清洗、转换、特征选择、探索性数据分析等预处理,获得了适合建立模型的数据。然后比较并选择不同的算法来评估和优化它们。重复整个过程,最终获得并利用结果。

有许多常见的机器学习和数据挖掘平台,包括SPSS、SAS和Matlab等。开源Python、R语言等。大数据平台Mahout、Spark等。我们将使用一个免费的开源机器学习平台:橙色。对于初学者来说,这是一个非常合适的入门工具。它提供了一个简单易用的图形操作界面,可以完成各种机器学习和数据挖掘任务,无需任何编程和算法基础。以下是橙色分类工作流的界面。

不仅如此,Orange基于Python,并使用Python代码库进行科学计算,例如numpy、scipy和scikit-learn;高级用户可以为Python编程提供扩展功能,或者将其用作Python的编程模块。

专栏内容简介

target group

本专栏基于实战,针对零基础初学者。学习的先决条件包括:

拥有最基本的数学知识。

你不需要基本的程序,但是你可以使用电脑。

拥有最基本的数学知识。

column section

column应该包含以下内容:

如何开始机器学习?安装和使用

Orange机器学习平台;

如何在本地、网站和数据库中加载数据集;

数据的描述性统计分析和数据可视化的探索;

数据预处理:缩放、转换和缺失值处理;

第一数据分类实战:识别鸢尾的种类;

算法性能评估:交叉验证和评估指标;

常用分类算法的性能比较实验;

使用集成学习提高机器学习的效果;

用回归算法预测房价和股票趋势;

通过聚类算法实现用户肖像;

模型保存和在线部署。

欢迎关注、赞美和前进!

模型保存和在线部署。

欢迎关注、赞美和前进!

下一条: 继《庆余年》大结局后,又一部剧好评不断,网友直言熬夜也追