
10 个必知的机器学习关键术语解析
作者 | Ideogram 提供图片
引言
人工智能(AI)是一个涵盖性的计算机科学学科,专注于构建能够模仿人类或动物智能能力来解决任务的软件系统。如今,大多数 AI 系统都基于构建能够从数据中自主学习的模型,以解决诸如进行预测、分类图像或生成文本等问题。这些从数据中学习的模型是我们所称的机器学习的一部分。
从根据房屋大小和位置预测房价的简单模型,到识别视频中的物体或生成对用户的人类语言响应的高级解决方案,机器学习模型在我们日常生活中无处不在。因此,理解围绕它的各种关键术语——其中一些不仅在技术讨论中,而且在整个行业和商业谈话中都很常见——对于理解并保持在这个庞大 AI 子领域的前沿至关重要。
本文探讨了 10 个必备的机器学习术语和概念,无论您是工程师、用户还是机器学习系统的消费者,理解它们都至关重要。
1. 有监督学习
定义:许多机器学习模型通过暴露于带标签的示例来学习做出预测,即具有关联输出值或标签的观察结果。这称为监督学习,它包括回归、分类和时间序列预测等任务。监督学习的一个关键要求是高质量带标签数据的可用性。
为何关键:要让模型学会对动物、人物等的图像进行分类,或者准确地将金融交易分类为合法或欺诈,就需要从足够数量的代表性带标签的历史数据样本中学习,并包含“已知预测”。通过向监督学习模型提供一组具有不同特征的房屋及其关联价格,模型可以学会房屋属性与其价格之间的(有时复杂的)关系,从而能够准确估算未来房屋数据的未知价格。
2. 无监督学习
定义:并非总是可以获得带标签的数据(即具有已知输出的数据示例)。尽管如此,仍有一类机器学习模型适用于从这些无标签数据中学习模式和底层结构。无监督学习包括用于发现隐藏关系和相似数据组的技术,例如聚类、异常检测、降维等等。
为何关键:由于现实世界的数据通常缺乏标签,无监督学习有时与监督学习同等重要,甚至更重要。聚类和异常检测等技术可以揭示数据结构、识别异常值并生成关于客户群等数据的信息,从而将无标签数据转化为有用的带标签信息。
3. 强化学习
定义:您还记得上次看到一个小孩通过试错来学习玩玩具吗?这种“试错”原则,或从经验中学习,是强化学习的精髓:这是机器学习的一个子领域,专注于训练智能体在追求目标的过程中通过与环境的互动来最大化(累积)奖励,从而做出序贯性决策。
为何关键:监督学习和无监督学习在某些特定应用领域存在局限性,而强化学习可以在这些领域大放异彩——例如,在机器人技术、游戏、推荐系统和自动驾驶汽车等领域,这些领域必须根据反馈随着时间的推移做出序贯性决策。
4. 过拟合与欠拟合
定义:在训练机器学习模型时——尤其是像分类器和回归器这样的监督学习模型——常常会遇到两个问题:它们无法进行准确预测或泛化到新的、未见过的数据。欠拟合发生在模型过于简单,无法捕捉数据的底层结构。而在另一极端,过拟合是训练好的机器学习模型中一个非常普遍的问题,这些模型“记忆”(或过度学习)了训练数据,但无法泛化到新的输入。
为何关键:理解过拟合和欠拟合对于检测和处理机器学习系统中的这些常见问题至关重要。熟悉诸如正则化、交叉验证(见下文)和降低模型复杂性等策略是解决这些问题并构建在现实场景中表现良好的系统的第一步。
5. 偏差-方差权衡
定义:偏差-方差权衡是构建机器学习模型时需要考虑的一个重要设计决策。高偏差发生在模型过于简单,未能捕捉数据的真实模式时,而高方差则发生在模型对训练数据过于敏感,并将噪声(对预测或推理不重要的信息)视为重要信息时。当一个增加时,另一个往往会减少;因此,在偏差和方差之间找到正确的平衡对于实现最佳模型性能至关重要。
为何关键:拥有高偏差或高方差的机器学习模型在实践中可能产生负面影响。例如,一个过于有偏见的电子邮件分类器可能会错过许多垃圾邮件,而一个高方差的分类器可能会因为过拟合训练数据而错误地将相关邮件标记为垃圾邮件。
6. 损失函数
定义:在(通常是带标签的)数据上训练机器学习模型的过程涉及应用一个优化算法——见下面的概念 7——该算法通过迭代地从模型最初的较大预测误差中学习,逐渐调整模型,使其预测误差越来越小。损失函数是数学上建模训练期间这些误差的方式,它由模型预测输出与已知输出的数据示例中的实际目标值之间的差异给出。
为何关键:损失函数是指导优化过程的指南针,它提供了模型表现如何的反馈。因此,通过最小化损失函数来实现向准确模型的收敛。
7. 梯度下降
定义:如果损失函数是指导机器学习模型走向高质量版本的指南针,那么梯度下降算法就像是帮助模型(就像徒步者一样)在可能解决方案(模型版本)的空间中导航,走向最小化损失函数的那个版本的登山靴。其原理类似于一个在山坡上的徒步者,一次一步地寻找最低海拔点:简单来说,它归结为沿着最陡峭的下降方向行进,即沿着梯度下降。
为何关键:梯度下降算法及其改进的变体是减少模型损失函数、从而使模型有效地从数据中学习的关键要素。即使是今天最复杂、最先进的机器学习解决方案,也依赖于这一系列算法来优化模型性能。
8. 交叉验证
定义:交叉验证是一种成熟的方法,不仅可以在模型训练期间衡量和验证机器学习模型的性能,还可以估计模型在部署后对未来数据的泛化能力。它将训练集划分为多个子集或折,以轮换和迭代的方式使用其中一些进行训练,另一些进行验证。该过程重复多次,并对结果进行平均以获得对模型性能的稳健估计。
为何关键:与使用独立的验证集相比,交叉验证是一种更可靠的方法,因为它降低了评估结果出现偏差的风险,并有助于防止模型过拟合到单个验证子集。
9. 特征工程
定义:高质量的机器学习模型需要高质量的数据才能得到妥善训练。准备和预处理数据是每个机器学习项目中的关键步骤,而特征工程(将原始数据转换为有意义的输入特征)变得至关重要。机器学习建模的特征工程过程的例子包括将分类变量编码为数值,对可能取不同范围的数值进行缩放,基于现有属性之间的交互创建新属性,以及提取日期或文本特征。
为何关键:特征工程有时有助于发现有用的特征,这些特征可以通过提高模型准确性、缩短训练时间以及促进可解释性来对机器学习模型的性能产生积极影响。
10. 模型评估指标
定义:无论您是为分类、回归、聚类还是自然语言处理任务构建机器学习模型,您可能都希望评估您的机器学习模型在解决这些任务时的表现如何,尤其是在处理一组新的或多样化的数据示例时。因此,准确率、精确率、召回率、F1 分数或均方误差等模型评估指标对于量化和比较模型性能至关重要。
为何关键:没有明确的模型评估指标,就很难评估模型是否真正有效,更不用说比较不同的模型或模型版本,或就部署一个看似有前景的模型到实际应用中做出明智的决定。
总结
本文描述并强调了当今最大、最广泛使用的 AI 子领域——机器学习周围十个关键概念的重要性。熟悉这些概念将为您提供扎实的准备,以便更好地理解经典的和最新的机器学习技术、模型和趋势。
感谢您对这些必备机器学习术语的清晰简洁的 breakdown!作为一名在 Vadodara 提供机器学习课程的教育者,我发现像这样的资源对于需要快速而全面的定义的新手和专业人士都非常有价值。
我一定会将这篇文章推荐给我的学生,作为我们基础课程的参考。期待更多这样的内容!
感谢您的积极反馈,Minal!