机器学习40讲_04_03_学什么与怎么学

你好，我是王天一。

今天我和你分享的主题是机器学习的一些基本原则，主要包括学什么？还有怎么学。

在中国人的生活当中啊，生男生女可以说是自势体达多少，幸福和烦恼都因此而起。

在这个问题上，你可能比我有更加深刻的体会。

那有没有办法提前做出准确的预测呢？当然有啊，一般来说怀孕到四个月的时候啊，胎儿的性别就可以通过b超准确的给她判断出来。

所以只要问一下医生，就可以轻松的搞定。

但是出于职业道德和职业法规的这个要求，那么医生一般是不会轻易的透露胎儿性别。

所以说想要在怀孕的早期做出判断，那终归还是要依赖祖辈所流传下来的经验。

但祖辈的经验呢他可多了去了啊，流传最广的可能就是所谓的酸儿辣女啊。

如果准妈妈突然爱喝柠檬水，那就说明怀个男孩儿啊，突然爱吃老干妈，那就怀了个女孩。

但实际上呢这个所谓的酸儿辣女啊只是一种互文的说法，它表达什么意思呢？就是说怀孕啊会对这个妈妈的口味产生影响。

如果说想要以此为根据啊来预测胎儿的性别的话，那就是纯属无稽之谈。

相比之下呢，另一条经验还更靠谱一些啊。

如果说准妈妈的肚子是尖型的话啊，那胎儿更有可能是个男孩啊，肚子是圆形的话，就可能是个女孩。

至少在我个人的生活经验当中啊，这一条规则的准确率啊能够达到百分之八十以上。

抛去所有的伦理道德外延的话啊，所谓的生男生女其实完全可以看成一个纯粹的科学问题。

虽然说胎儿的性别啊不可能以决定性的方式来影响母体的特征，但终究呢也会有一定的参考价值。

虽然说男孩肚子尖啊，女孩肚子圆这样的一个事件啊，不一定是百分之百的概率，但是百分之七十的置信度可能还是有的。

这和百分之五十的这种纯属加猜的结果相比，就是一个不小的进步。

那也就意味着这个物理特征啊包含了一定的信息。

除此之外呢，胎儿的性别啊还可真的可能对于母体的其他变化产生一些不起眼，但是确实存在的影响。

从方说民间流传的这个脚部浮肿啊，或者说肚脐突出，而这些变化呢就都可以作为预测胎儿性别的特征啊来对他加以审视。

除了肉眼可见的特征之外，那更精确的特征是医学上的定量指标。

那么相关的具体信息呢，在这儿我就不班门弄斧了。

那么胎儿的性别可能会对母体的内分泌啊产生不同的影响，从而呢在指标上体现出不同的这个变化的趋势。

而这些怀孕早期的指标变化，反过来又可以为倒推胎儿的性别提供有利的一个证据。

从而呢实现生男还是生率这样的预测？说到这儿的话，问题就来了，能不能通过机器学习来解决这个问题呢？能不能用机器学习来解决，要从以下的这几个角度来进行分析。

首先预测胎儿的性别，不是说预测婴儿的活动，没人知道一个婴儿啊，他的下一声啼哭会发生在什么时候。

即使你知道他的血压呀、肺活量啊、脉搏这些所有的生理指标还是没有办法去预测。

但是胎儿的性别不一样，它是可以体现出一些实实在在的规律的，也就是某些特征会表现出固定的这个变化趋势蕴含着明显的规律性。

这样的规律性呢，我把它叫做模式。

机器学习能够解决的问题，必然会包含着某些显示或者演示的模式。

那么反过来没有模式的问题啊，积极学习就没法解决。

这就什么意思呢？完全随机的问题是不可能被求解，也不可能被学习，就像谁都没有办法准确的预测下一期福利彩票开奖的结果一样。

提到模式的话，你可能一下子联想到另外一个专业的词汇啊，也就是模式识别、模式识别和机器学习啊，实际上他们之间有大量的共通之处，想要把这两者严格的区分开来，既没有方法也没有必要。

如果说非要找到一些不同点的话呢，那模式识别是被更加广泛的应用在计算机视觉啊这种专门领域里的专门概念啊，它的工程意味可能更浓一些。

如果说机器学习侧重于监预将设定的这一准确率啊或者其他一些指标最大化的话，那么模式识别呢它就更加注重于潜在模式的提取。

还有解释是不是说具有潜在模式的问题都能够被GG所学习呢？也不见得流体力学的研究当中啊，其实它有不少复杂困难的问题，但是机器学习也没成为这个学科的主流的方法，这意味着什么呢？机器学习它并不适用于容易进行编程的问题。

这种问题的解释。

首先啊一个具有解析解的问题呢，它是完全不需要机器学习的。

即使说一个方程组里有一万个方程，那每个方程又有一万个未知数。

但这个看似复杂的问题呢，本质上还是个矩阵求逆啊，只不过这个矩阵的规模比较大。

如果将机器学习技术运用到这种问题上的话啊，那就可以说得上是杀鸡用牛刀。

退一步讲，起始问题本身它没有解析解，但是如果能够通过数值计算的方法来解决，而不涉及明显的优化过程的话，也无需机器学习的使用。

在流体力学当中啊，仿真是最常用的研究方法，大量的参数，还有繁荣的这个边界条件，给计算带来了超高的复杂度。

但在这样的问题当中，机器学习即使被应用啊，可能也发挥不出来良好的效果。

因为这在本质上来说啊，依然是对等式方程的一个求解。

就像我们通常所说的啊，用钱能解决的问题都不是问题。

那么能用纯计算解决的问题也不是问题，至少不是需要先进方法的问题。

回到生男还是生女？这个例子啊，你可能听说过所谓的清宫图，这是什么东西呢？一个根据这个孕妇年龄啊，还有怀孕的月份来预测胎儿性别的一个表格。

可是如果生男生女真能靠这么简单的查表操作来解决的话，他怎么会直到今天还困扰着为人父母的年轻人？正是因为这个问题没有那么简单，所以机器学习才有大展拳脚的用武之地。

最后呢用机器学习解决问题还需要一个条件啊，就是大量的可用的数据，没有数据支撑的机器学习方法，那就是巧妇难为无米之炊。

一般来说呢问题当中的模式啊，它可不像说秃子脑袋上的狮子那么明显，这体现在哪儿呢？体现在输出的结果，通常会受到多个输入特征的共同的影响。

而且这不同的输入特征之间呢，也并不是说相互独立丁是丁卯是卯啊，而是存在着相互的作用。

所以说呢要精确的描绘这个输入和输入之间啊，以及输入和输出之间的这种定量关系的话，大量的数据肯定是不可或缺的。

总结起来的话啊，什么样的问题才能够通过机器学习来解决呢？第一问题不能是完全随机的啊，它需要存在一定的模式。

第二，问题本身呢不能通过纯计算的方法来解决。

第三，有大量的数据可供使用。

那么点击文稿你可以看到啊，对于满足这三个条件的问题，机器学习过程的一个示意图。

在这张图里面呢，目标函数就是问题的模式，也就是机器学习要发现的一个对象。

这里的目标函数呢并不具备说简单的解析式形式啊，没法去精确的求解。

那么只能从不同的角度去近似，近似的方式是什么呢？针对训练数据的特点，我做出各种不同的假设。

线性模型它是一种假设，那么多项式模型呢也是一种假设，其他的模型同样是不同的。

假设有了这些假设之后，我再在假设空间啊或者叫假设集合里面找到和我的数据符合度最高的假设。

这个寻找最佳假设的过程，实际上就是学习的过程。

那么机器学习的任务就是使用数据计算出来和目标函数。

最接近的假设，或者说拟合出来最精确的模型。

在不同的机器学习任务当中呢，无论是数据的类型啊，还是学习的方式啊，都会有所区别。

借此呢可以从不同的角度来对机器学习加以简单的分类。

还是以生男生女为例啊，如果说真的要依据这个医学指标来进行预测的话，那么输入的特征呢可能既包含像不同的这个激素水平，这样具有明确意义的数字指标，也可能是b超图像了。

这种需要进一步提取转化的原始资料，甚至说还可能包括这个身份证号啊、姓名啊、病历、编号这类每个人所独有的信息。

那么在机器学习当中呢，这三类特征就分别被命名为具体特征。

原始特征和抽象特征在解决实际问题的时候呢，具体特征是可以直接使用的。

那么原始特征呢通常需要给它做个转换，把它变成有意义的具体特征。

抽象特征的话，就需要根据实际的情况来加以取舍了。

那么这是我们对这个输入的特征啊做的一个分类啊，如果反过来掉头看一看输出的话啊，那么就可以得到不同的分类方式。

在第一季的人工智能基础课当中啊，我曾经提到啊根据输出结果的不同，可以将机器学习的方法分成分类算法，回归算法，还有标注算法三类啊，如果你没有印象的话，可以回头去看一看上一季的内容。

显然呢，生男生女这是一个典型的二分类问题，分类的结果只有两种啊，你要么是正类，要么是负类。

二、分类问题呢它是最基础啊，也是最核心的分类问题，可以在他的基础上来进一步解决多分类问题的球鞋。

如果说训练数据当中的每组输入都有其对应的输出结果的话啊，建立在这样的训练数据之上的学习任务，就是监督学习。

反过来，对于没有输出的数据进行学习，就是所谓的无监督学习。

监督学习呢它具有更好的预测精度。

而无监督学习呢可以发现数据当中隐含的结构特性，它起到的呢实际上也是分类的作用，只不过呢就是没有给每个类别赋予一个具体的标签而已。

监督学习呢我们见到的多一些无监督学习，见到的少一些啊，它可以用于对数据进行聚类或者密度估计，也可以完成一项异常检测。

这一类监督学习当中预处理的这个操作，用一句话来描述的话，监督学习更适用于预测类的任务。

而无监督学习呢更适用于描述类的任务。

最后不同算法的学习策略啊也有所差异。

大部分算法呢是集中处理，所有的数据，也就是一口气对整个数据集进行建模和学习，并且得到最佳的假设。

这种策略把它叫做批量学习和批量学习。

相对应的呢是在线学习。

在在线学习里面，数据是以细水长流的方式一点一点的来进行使用。

算法呢也会根据数据的不断汇入而进行动态的更新。

当你的这个存储还有计算能力不足以完成大规模的批量学习的时候，啊，在线学习不失为一种比较现实的策略。

在学校里啊，老师可以通过将学生带入到学习过程当中啊，引导学生主动的提问来加强学习效果。

这种策略呢在机器学习当中被称为主动学习。

主动学习呢它是策略导向的一种学习策略，通过有选择的询问无标签数据的标签来实现迭代式的学习。

当数据的标签获取难度较高的时候呢，这种方法尤其适用。

今天，我和你分享了机器学习所解决的问题、特点，以及学习当中使用的不同策略，包含着以下几个要点，第一，机器学习适用于解决蕴含着潜在规律的问题。

第二，纯的算术问题无需使用机器学习。

第三，机器学习需要大量的数据来发现潜在的规律。

第四，从输入空间输出、空间数据标签，还有学习策略等角度，都可以对机器学习进行分类。

最后要说明的一个问题是什么呢？就是本文当中所使用的生男生女这个例子。

它的作用呢仅限于解释机器学习这个概念可没有任何其他的寓意哦。

如果你想设计一个算法解决这个问题的话，那一切的后果可得由你自己来承担。

机器学习、模式识别、数据挖掘。

甚至于说人工智能这些概念呢经常被视为等同，不做区分的加以使用。

可是他们真的一样吗？希望你能自己研究每个概念的内涵和外延，深入理解它们的区别和联系，并将你的理解写在这里和大家分享。