左耳听风_015_14_推荐阅读机器学习101
你好,我是陈浩网名猪尔朵house.我是在二零一二年在亚马逊第一次接触机器学习的。
呃,从那以来呢,我一直在用一些零星的时间学习机器学习相关的东西。
呃,所以说实话在机器学习方面啊,我也只是一个新手,也在入门阶段。
那前面课程的评论里呢,有网友希望我写一篇有关大数据和机器学习的文章。
老实说啊,这有点为难我了。
所以呢我只能结合我自己的学习过程来写一篇入门级的文章,希望能得到高手的教教和指。
呃,首先呢我先简单介绍一下机器学习的一些原理。
那机器学习呢主要来说有两种方式,分别是监督式学习和非监督式学习。
首先呢我们来讲一下监督式学习。
所谓监督式学习呢,就是说我们需要提供一组学习样本,包括相关的特征数据和相应的标签。
那程序呢可以通过这组样本来学习相关的规律或者模式。
然后通过得到的规律或者模式来判断啊那些没有被打过标签的数据啊,都是些什么样的数据。
我举个例子啊,假如说我要识别一些手写的数字,那么我们啊就需要找到尽可能多的手写体数字的图像样本,然后呢通过人工或者是某种算法来明确的标注这些手写体的图片是什么?谁是一谁是二,谁是三等等。
那这组数据啊就叫样本数据,又叫做训练数据。
那通过机器学习的算法呢,我们可以找到每个数字在不同手写体下的特征,而进一步啊找到规律和模式。
然后通过得到的规律或者模式来识别那些没有被打过标签的手写数据。
那这样呢就完成了识别手写体数字的目标。
一种比较常见的监督式学习呢就是从历史数据中啊获得数据的走向趋势,来预测未来的走向。
比如我们可以使用历史上的股票走势数据来预测接下来的股价涨跌,或者通过历史上的一些垃圾邮件的样本来识别新的垃圾邮件。
在监督式学习中呢,程序需要有样本数据或者是历史数据来进行学习。
那这种方式啊可能会有一些问题。
比如说我一个事物,如果没有历史数据,那么就不好做了。
一种变通的解决方式呢是借用一个和它类似的事物的历史数据。
我以前做过的需求预测啊,就属于这种情况。
那一般这上的商品来说说完全没有历史数据。
比如说最新版的iphone,那么我就需要从他类似的商品啊找历史数据,比如过往版本的iphone啊或者是别的智能手机啊。
那还有一个问题呢,就是说历史数据啊可能会有有些噪音数据,我们啊需要把这些噪音数据啊给过滤掉。
那一般这样的过滤方式啊要通过人工判断和标注。
那这里啊我举两个例子,比如说某个名人啊,在他的微博或者演讲上推荐的一本书。
于是啊这本书的销量就上升了。
那这段时间的历史数据啊不是规律性的,所以啊就不能成为样本数据需要去掉啊。
但是呢如果某个名人去世了,导致和他有关的商品啊销售量很好,那么这个事件产生的数据就不属于噪音数据。
因为每年这个名人忌日的时候啊,出现销量上升的可能性非常高。
所以啊就需要标注一下,这是有规律的样本,可以放入样本进行学习。
那接下来呢我们再聊一聊非建筑式学习。
那对于非监督式学习呢,就是说数据是没有被标志过的,所以相关的机器学习算法需要找到这些数据中的共性。
因为大量的数据都是没有被标志过的,所以啊这种学习方式可以让大量被标识的数据啊能够更有价值。
而且呢非建筑式的学习啊,可以从数据里面帮我们找到人类很难发现的规律或者模型。
所以啊也有人将这种学习叫做特征点学习,它可以帮我们自动的给数据进行分类,并且啊找到分类的模型。
那一般来说呢非建筑式学习啊,会应用在一些交易型的数据中。
比如说我有一堆的用户购买数据啊,但是对于人类来说呢,我们很难找到用户属性和购买商品类型之间的关系,而非监督式学习算法呢可以帮我们找到它们之间的关系。
比如说有一个在某个年龄段区间的女生购买了某种肥皂,那就有可能说明这个女生在怀孕期呃,或者说有个人购买了儿童用品。
那就有可能说明这个人的关系链中啊有孩子等等。
于是啊这些信息啊就会被用在一些所谓的精准市场营销活动,从而可以增加商品的销量。
啊,我们这么来说吧,那监督式学习呢是先告诉你正确答案之后再学习。
而非监督式学习呢就是不告诉正确答案,直接开始学习。
所以说呢非监督式的学习啊,就是从大量的非常混乱的数据中啊寻找一些潜在的关系,这个成本呢也比较高。
这种非监督式学习呢也会经常被拿来检测一些不正常的事情发生。
比如信用卡的诈骗或者盗刷,也有的呢被用在推荐系统中。
比如买了这个商品的人,又买了别的什么东西,或者某个人喜欢某篇文章,某个音乐、某个餐馆,那么他就可能喜欢某款车、某个明星或者某个地方。
在监督式学习的算法下,我们可以用一组狗的照片来确定一张照片中的物体啊,是不是狗。
而在非监督式学习的算法下呢,我们可以通过一个照片来找到和他相似的事物的照片。
那这两种学习方式啊都有各自适用的场景。
那接下来呢我再来讲一下,机器学习啊是如何找到数据的规律和关联的那机器学习呢基本就是在已知的样本数据中啊寻找数据的规律。
在未知的数据中呢找数据的关系,所以啊这就需要有一定的数学知识了。
嗯,啊但是啊对于刚入门的人来说呢,学校高数、线性代数、概率论、数据建模等大学本科的数学知识啊应该就够用了。
那以前上大学的时候呢,总觉得这些知识啊没什么用处啊,原来只不过是自己太low,还没有从事过会用到这些知识的工作。
那总之呢,机器学习中的基本方法论啊是这样的。
首先呢我要找到数据中的规律,你需要找到数据中的特征点。
那接着呢我把这些特征点抽象成数学中的向量,也就是所谓的坐标轴。
一个复杂的学习过程呢,可能会有所谓到上百个坐标轴。
那抽象成数学向量之后呢,我们就可以通过某种数学公式来表达这类数据,这就是数据建模。
那这个数据公式呢就是我们找出来的规律。
而通过这个规律呢,我们才可能关联类似的数据。
当然啊也有更为简单粗暴的玩法。
比如可以把数据中的特征点抽象成数学中的向量,每个向量对应一个权重。
那最后呢我再来写个算法来找各个向量的权重是什么?那有人呢把这个事儿叫做数据搅拌机。
你据说呢这种简单粗暴的方式,甚至超过了那些所谓的明确的数学公式或者规则。
这种土办法呢有时候会比高大上的数学更为有效。
关于机器学习这个事儿呢,你可以读一读machine learning is fun.这篇文章和它的中文翻译版,那这两个版本在文中都有链接。
那接着呢我们再来讲一下记忆学习相关的算法。
那对于监督式学习呢,有这样几个经典的算法。
第一个呢是决策数,比如自动化的放贷学风控。
第二个呢是朴素贝叶斯分类,可以用来判断垃圾邮件,用来对新闻的类别进行分类,比如是科技新闻,还是政治新闻以及运动新闻等等。
第可以用来判断文本表达感情是积极的还是消极的,还有人脸识别等等。
第三个是最小二乘法,那这个算法呢算是一种线性回归。
第四个经典的算法呢逻逻辑归归,呃,这是一种强大的统计方等法,可用用个或者多个变量来表示一个二项式结果。
它可以用在信用评分、计算营销活动的成功率,以及预测某某产品的收入等等等。
第五个呢是是支向量量,GSVMM可以用在基于图像的性检检测以及图分类等等等。
第六经典典算法呢是集成方法,通过构建一组分类器,然后根根他们的预测结果进行加权投结,来对对新数据据进行行类类。
那原始的集成方法呢是贝叶斯平均,但是最近的算法还包括纠错输编类bggging.那那刚才所讲呢都是监督式学习的经典算法,而非监督式学习的经典算法呢有以下这么几个。
第一个呢是聚类算法,而监类式法很多,然后呢是给数据分类类。
第二个呢是主成分分析,也就是boooop CA.那PCA的一些应用呢,包括压缩数据、简化数据,便于学习和可视化等等。
第三个呢是其值分解,也就是SVD.那实际上呢PCA就是SVDD的一个简单应用。
在计算机视觉中呢,第一个人脸识别算法呢就是使用PCA和SVD来将面部表示为特征面的线组组进行降维。
然后呢通过简单的方法将面部匹配到身份。
那虽然现在的方法更加复杂杂,很多方面仍然然依赖类似似的技术。
还有一个经简算法是独立成分分析ICA.那ICA是一种统计技术,主要呢用来揭示随机变量、测量值或者信号集中的隐藏因素。
那这些相关算法呢都来自一篇博文。
文章链接,我放在文中了,你可以去看一看。
机器学习呢有这几门课啊是必须要上的。
第一个呢是吴恩达教授在考sara上的机器学习课程啊,这个课程非常棒,我强烈建议从这里入手,对于任何拥有计算机科学学位的人,或者还能记录一点点数学的人来说,都非常容易入门。
这个斯坦福大学课程后面是有作业的,请尽量要拿满分。
另外呢网易公开课上也有这个课程。
第二个呢是卡内基梅隆大学计算机科学学院汤姆米歇尔教授的机器学习课程。
那文中呢有英文圆满的视频和课件的PDF汤姆米切尔啊是全球AA界顶级大牛,在机器学习、人工智能、认知、神经科学等领域啊都有建树,撰写了机器学习方面最早的教科书之一。
那书名呢就叫机器学习这本书啊被誉为入门必读图书。
第三个呢是加利福尼亚理工学院亚瑟阿布穆斯塔法教授的learning from data系列课程。
这个课程啊涵盖机器学习的基本理论和算法,并且将理论和实践相结合,更加具有实践指导意义,适合进阶。
呃,除了上述的那些课程以外呢,还有一些资源啊也很不错。
那第一个呢是在youtube上是来自google developers machine learning recipes with george gordon.这九集视频啊每集不到十分钟。
从hello word讲到如何使用teler flow啊,非常值得一看。
第二个呢是pracgle machlelearning tutorial ppyon inintroduction.第上面啊有一系列的用python带你玩machine learning的课程。
第三个呢是media上面的machine learning. One one讲述了好多我们刚才提到过的经典算法。
第四个呢也同样在medium上叫machine learning for humans.它不仅提供了入门指导,更介绍了各种优质的学习资源。
第五个呢是杰森布朗利博士的博客,也是非常值得一读的。
其中呢好多的how拓都会让你有很多的收获。
第六个呢是IM, truask啊,也是一个很不错的博学书。
七个呢是关于deep learning中的神经网络学习推荐youtube的的介绍频neururneneorks.第八个呢是关于python做自然语言处理的natural guguproprocessing python最最后呢还有gihub上面的machine learning和deep learning相关的教程列表。
啊,此外呢还有一些值得翻阅的图书,首先让是机器学习,作者是南京大学周瑞华教授,他是一本记忆学习方面的入门级教科书,适合本科三年级以上的学生学习。
这本书呢就像一张地图一样,可以让你观其大略,了解记忆、学习的各个种类。
各个学派它的覆盖面和同类英文书籍相比啊可以说是毫不逊色,然后呢是要coused. In machine learning,作者是马里兰大学的哈尔道姆副教授。
这本书呢讲了几种经典的记忆。
学习算法包包括决测树感知器、神经元、KNN算法、k means、聚类算法、各种线性模型概率建模、神经网络非监督式学习等等的。
很多主体还讲了各种算法使用时的经验技巧,适合初学者学习。
除此之外呢,官网还提供了免费的电子版。
那接下来一本书呢叫做deep learning,作者是来自麻省理工学院的伊恩古德,费洛有华本吉奥和亚伦考维尔。
这本书呢是深度学习方题的经典图书。
它从历史的角度,把读者带进深度学习的世界。
深度学习使用多层的神经元网络,通过梯度下降算法来实现机翼学习。
那对于尖度式和非验度式学习啊都有很多的应用。
那如果读者对这个领域有兴趣呢,可以深入阅读这本书。
这本书的官网提供免费的电子版,但是不提供下载。
如果是实体书的话,不论是英文原版还是中文翻译版啊,都可以在网上买到。
我推荐的另一本书呢叫做reinforcement learning,作者是安德鲁巴托和理查德萨顿。
这本书啊是强化学习方面的入门书,它覆盖了马尔可夫决策过程、q learning、萨萨、TD、 lambda等方面。
那这本书的作者呢是强化学习方面的创始人之一。
强化学习啊,在围棋程序、阿尔法go和自动驾驶方面啊都有着十分重要的应用。
最后一本书呢是pattern recognition and machine learning作者是微软剑桥研究院,克里斯托夫比肖普。
而这本书啊主要讲了模式识别的应术,包括继极学习在模式识别中的应用。
那模式识别啊在图像识别、自然语言处理、控制论等等多个领域都有应用。
那在日常生活中呢,扫描仪的OCR、平板或者手机的手写输入啊等等应用啊,都属于这个领域中的研究。
那以上我所推荐的课程资源和图书呢,在文中都有对应的链接,有兴趣啊,你可以课后点进去看一看。
好了,我今天推荐的内容啊就是这些。
那目前啊也在学习中,希望能够跟你一起交流探讨,也希望能得到你的指教和帮助。