真实标签数据经过与现实结果的验证,通常通过人工标注或测量获得,用于训练、验证和测试模型。顾名思义,真实标签数据已经被确认是真实的,它反映了现实世界的数值和结果。真实标签数据反映了任何给定输入数据的理想输出。
监督学习依赖真实标签数据来教模型理解输入与输出之间的关系。监督学习中使用的已标记数据集即为真实标签数据。已训练的模型会运用对这些数据的理解,对新的、未见过的数据进行预测。
监督学习技术使用标记的训练数据集来理解输入和输出数据之间的关系。数据科学家手动创建包含输入数据及相应标签的真实标签数据训练数据集。监督学习训练模型,使其在现实场景中能够对未见过的数据应用正确的输出。
在训练期间,模型的算法会处理大型数据集以探究输入和输出之间的潜在相关性。然后,使用测试数据评估模型性能,以确定训练是否成功。交叉验证是使用数据集的不同部分测试模型的过程。
梯度下降系列算法,包括随机梯度下降 (SGD),是训练神经网络和其他机器学习模型时最常用的优化算法或学习算法。该模型的优化算法通过损失函数来评估准确性:损失函数是一个衡量模型预测值与实际值之间差异的方程。
损失函数用于衡量预测值与实际值的偏差程度。其梯度指示了应调整模型参数以减少误差的方向。在整个训练过程中,优化算法会更新模型的参数(其运算规则或“设置”)以优化模型。
由于大型数据集通常包含很多特征,因此数据科学家可以通过降维来简化这种复杂性。这种数据科学技术将特征数量减少到仅保留对预测数据标签最关键的特征,从而在提高效率的同时保持准确性。
作为监督学习的一个例子,考虑一个为识别车辆图像并确定它们是哪种类型车辆而创建的图像分类模型。这样的模型可以为许多网站用来检测垃圾邮件机器人的 CAPTCHA 测试提供支持。
为了训练该模型,数据科学家准备了一个标记的培训数据集,其中包含大量车辆示例以及相应的车辆类型:汽车、摩托车、卡车、自行车等。该模型的算法试图识别训练数据中的模式,使输入(车辆图像)获得指定的输出(车辆类型)。
根据测试集中的实际数据值对模型的猜测进行衡量,以确定它是否做出了准确的预测。如果没有,训练周期会继续,直到模型的性能达到令人满意的准确水平。泛化原理指的是已训练模型在来自与训练数据相同分布的新数据上做出适当预测的能力。
监督学习任务大致可以分为分类问题和回归问题:
梯度下降等优化算法可训练在监督学习任务中表现出色的各种机器学习算法。
朴素贝叶斯:朴素贝叶斯是一种分类算法,它采用了贝叶斯定理的类条件独立性原则。这意味着在某结果的概率中,一个特征的存在不会影响另一个特征的存在,并且每个预测变量对该结果具有相同的影响。
朴素贝叶斯分类器包括多项式、伯努利和高斯朴素贝叶斯。这种技术常用于文本分类、垃圾邮件识别和推荐系统。
线性回归:线性回归用于识别连续因变量与一个或多个自变量之间的关系。它通常用于对未来结果进行预测。
线性回归将变量之间的关系表示为直线。当只有一个自变量和一个因变量时,称为简单线性回归。但若自变量的数量增加,则为多元线性回归。
非线性回归:有时,输出无法从线性输入重现。在这些情况下,必须使用非线性函数对输出进行建模。非线性回归通过非线性或曲线来表达变量之间的关系。非线性模型可以处理包含许多参数的复杂关系。
逻辑回归:逻辑回归处理分类因变量 - 当它们具有二元输出时,例如真或假或正或负。虽然线性回归和逻辑回归模型都试图理解数据输入之间的关系,但逻辑回归主要解决二元分类问题,例如垃圾邮件识别。
多项式回归:与其他回归模型类似,多项式回归模拟图表上变量之间的关系。多项式回归中使用的函数通过指数级表达这种关系。多项式回归是一种特殊的回归形式,其中输入特征被提升到幂次,使线性模型能够拟合非线性模式。
支持向量机 (SVM):支持向量机用于数据分类和回归。也就是说,它通常处理分类问题。在这里,SVM 使用决策边界或超平面将数据点的类别分开。SVM 算法的目标是绘制使数据点组之间的距离最大化的超平面。
K 最近邻:K 最近邻 (KNN) 是一种非参数算法,它根据数据点与其他可用数据的接近度和关联度对数据点进行分类。此算法假定在以数学方式绘制时,可以在彼此附近找到相似的数据点。
它的易用性和较短的计算时间使其在用于推荐引擎和图像识别时非常高效。但随着测试数据集的增长,处理时间也会延长,使得它对于分类任务的吸引力降低。
监督学习与无监督学习的区别在于,无监督机器学习使用未标记的数据,且不依赖任何客观真实标签。该模型可以自行发现数据中的模式和关系。许多生成式 AI 模型最初使用无监督学习进行训练,后来使用监督学习进行训练,以增加领域专业知识。
无监督学习可以帮助解决数据集内的共同属性不确定的聚类或关联问题。常见的聚类算法有层次、K 均值和高斯混合模型。
探索性分析:当“不知道要寻找什么”时,无监督学习非常有用。它能够发现数据中人类可能未预料到的隐藏结构或异常情况。
无需数据标记:大多数现实世界的数据是未标记的,而对数据进行标记需要耗费大量时间和精力。
灵活性:无监督学习模型能够自主处理数据,因此能快速适应新数据。
可扩展性:由于不需要真实标签,无监督学习技术可以轻松扩展到大规模数据集。
结果不够精确:在没有真实标记数据作为基础的情况下,无法立即判断无监督学习模型是否被正确训练。
敏感性:嘈杂的数据集会对训练结果产生不利影响。特征工程可以帮助规范化数据集,从而使无监督学习更加顺畅。
对优质数据的依赖:所有训练都需要优质数据。但如果没有客观的真实标签数据,数据中的偏差或其他错误可能导致模型强化这些误解。
半监督学习指在使用少量标记输入数据的同时,利用大量未标记数据来训练模型。由于依靠领域专业知识为监督学习适当标记数据可能既耗时又昂贵,因此半监督学习可能是一种很有吸引力的替代方案。
对标记的依赖更低:与监督学习相比,半监督学习对标记的需求较少,从而降低了模型训练的门槛。
隐藏模式发现:与无监督学习类似,半监督学习利用未标记的数据可以发现原本可能被忽略的模式、关系和异常情况。
更灵活:半监督学习通过真实标签数据创建基础,然后利用未标记数据进行增强,使模型具有更好的泛化能力。
自监督学习 (SSL) 通常被描述为连接监督学习与无监督学习的桥梁。SSL 任务不是使用监督学习数据集中的手动创建的标签,而是通过配置任务让模型生成自己的监督信号(隐式标签或伪标签),并从非结构化数据中识别真实标签数据。然后,模型的损失函数使用这些标签代替实际标签来评估模型性能。
SSL 通常与迁移学习结合使用,在这一过程中,预训练模型被应用于下游任务。自监督学习在计算机视觉和自然语言处理 (NLP) 任务中得到广泛应用;这些任务需要大型数据集,而标记这些数据集的成本极其高昂且耗时。
效率:SSL 不是让数据科学家标记数据点,而是通过将任务转移给模型来自动执行标记过程。
可扩展性:SSL 对手动数据标记的依赖性较低,因此能够很好地扩展到更大的未标记数据池。
对标记的低依赖性:在标记的真实标签数据稀缺的情况下,SSL 通过模型生成的理解来弥补不足。
多功能性:自监督模型能够学习丰富且可迁移的特征,这些特征可针对多种特定领域任务和多模态任务进行微调。
计算密集型:处理未标记的数据集和生成标签需要大量的计算能力。
复杂:为监督学习创建预设任务的过程,即初始学习阶段,需要较高的专业技能。
可能不可靠:像任何去除人工监督的学习技术一样,其结果依赖于数据不含过多噪声、隐性偏差以及其他可能对模型理解产生负面影响的因素。
强化学习训练自主智能体,例如机器人和自动驾驶汽车,通过环境互动做出决策。强化学习不使用标记数据,也不同于无监督学习,它通过试错和奖励进行教学,而不是通过识别数据集中的潜在模式。
解决复杂任务:试错训练过程可以让模型逐步掌握应对复杂战略挑战的方法。
不依赖标记:模型通过经验学习,而不是仅通过将输入与输出匹配进行理论学习。
自我纠正:模型在训练过程中犯错时,会不断调整和优化自身的行为。
适应性强:模型可以适应新信息和不断变化的环境,即使结果尚未预定义。
容易出现不一致的结果:试错学习在刚开始训练时可能显得随意且不可预测。
环境数据需求:强化学习要求模型从其行为的后果中学习,这反过来又需要大量的环境数据。不过,智能体也可以在模拟环境中学习。
奖励劫持:模型可能利用奖励算法中的漏洞来获取奖励,而并未充分完成其任务。
特定任务:强化学习在训练用于特定功能的模型方面表现出色。这些模型在将所学知识迁移到新任务中时可能会遇到困难。
监督学习模型可以构建和推进业务应用,包括:
图像和物体识别:监督学习算法可用于定位、隔离和分类视频或图像中的对象,使其可用于计算机视觉和图像分析任务。
预测分析:监督学习模型创建预测性分析系统来提供洞察分析。这使企业能够根据输出变量预测结果并做出数据驱动的决策,进而帮助企业领导者证明其选择的合理性或为组织的利益而进行调整。
回归还允许医疗保健提供方根据患者标准和历史数据预测结果。预测模型可根据患者的生理和生活方式数据,评估其罹患特定疾病或病症的风险。
客户情绪分析:组织可以从大量数据(包括背景、情感和意图)中提取和分类重要信息,并将人为干预降至最低。情感分析可以更好地了解客户互动,并可用于改善品牌参与度。
客户细分:回归模型可以根据各种特征和历史趋势预测客户行为。企业可以使用预测模型来细分客户群并创建买家角色,以改善营销工作和产品开发。
垃圾邮件检测:垃圾邮件检测是监督学习模型的另一个例子。使用监督分类算法,组织可以训练数据库识别新数据中的模式或异常,以有效地组织垃圾邮件和非垃圾邮件相关的通信。
预测:回归模型擅长根据历史趋势进行预测,适合在金融行业使用。企业还可以使用回归来预测库存需求、估算员工工资并避免潜在的供应链问题。
推荐引擎:借助监督式学习模型,内容提供商和在线市场可以分析客户的选择、偏好和购买情况,并构建推荐引擎,提供更有可能转化为销售额的定制推荐。
尽管监督学习能为企业带来深入的数据洞察分析和更好的自动化等优势,但它可能并不是所有情况下的最佳选择。
人员限制:监督学习模型可能需要一定程度的专业知识才能准确构建。
人员参与:监督学习模型无法自我学习。数据科学家必须验证模型的性能输出。
时间要求:训练数据集很大,必须手动标记,这使得监督学习过程变得非常耗时。
缺乏灵活性:监督学习模型难以标记其训练数据集范围之外的数据。无监督学习模型可能更有能力处理新数据。
偏差:数据集更有可能出现人为错误和偏差,导致算法学习错误。偏差可能源于训练数据集不平衡、标注不当,或数据中反映出的历史不公平性。
过拟合:监督学习有时会导致过拟合,即模型与其训练数据集过于贴近。训练中的高准确度可能表明过拟合,而不是可泛用的优秀性能。避免过拟合需要使用与训练数据不同的数据来测试模型。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。