• 1.25 MB
  • 2022-04-29 14:26:41 发布

最新模式识别-第9章 核方法概要课件PPT.ppt

  • 60页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'模式识别-第9章核方法概要 9模式识别中的核方法9.1核方法概述9.2核方法基础9.3凸优化与SVM 9.1核方法概述模式识别的核方法:首先把数据嵌入到合适的特征空间然后采用基于线性代数、几何、统计学算法,发现嵌入数据的模式 9.1核方法概述——岭回归如果不可逆:数据不够,或存在噪声——没有足够信息,精确指明解法(不适定ill-posed)添加某种条件(或偏置),限制函数的选择(正则化)选择范数较小的w范数与损失之间的相对权衡In是一个n阶单位阵,时总可逆 9.1核方法概述——对偶岭回归训练点的线性组合称为Gram矩阵:对偶变量G:训练点对间的内积k:训练点和测试点之间的内积 直接法:N很大时,解N×N的方程组代价过大9.1核方法概述——核函数考虑一个嵌入映射将上的非线性关系转化为高维空间上的线性关系对偶法:需要的所有信息为特征空间F中的内积跳过显式计算直接计算——核函数:核(kernel)是一个函数,对于所有满足:其中是从X到(内积)特征空间F的一个映射:指数维,甚至无限维特征空间。 那么,F中的线性函数为:9.1核方法概述——核函数举例考虑一个二维输入空间同时考虑特征映射:将特征空间中的线性关系与输入空间中的二次关系相对应:直接计算特征空间中的内积不用显式计算特征空间中的坐标也可计算如下映射空间的内积特征空间并不由核函数唯一确定 9.1核方法概述——核函数举例考虑一个n维输入空间,那么函数是一个核函数,对应的特征映射为:因为: 9模式识别中的核方法9.1核方法概述9.2核方法基础9.3凸优化与SVM 核矩阵考虑l个训练样本在N维特征空间中映射,记为l×N矩阵称与之相关的L×LGram矩阵为核矩阵,其元素为核矩阵可写作: 基本运算如果是核,B是一个半正定矩阵,p(x)是一个正系数多项式,那么下面都是核:高斯核 均值和距离特征向量的范数:特征向量的规范化: 均值和距离特征向量线性组合的范数: 均值和距离特征向量之间的距离: 均值和距离质心的范数质心的范数的平方=核矩阵元素的平均值 均值和距离点到质心的距离 均值和距离方差核矩阵对角线元素平均值-全体元素平均值 中心化数据把原点移到质心——平均特征值最小化移动后,新的核函数为 可以证明对于有:中心化的稳定性从训练样本估计质心的可靠性:样本中心多大程度上接近真实期望? 在概率下:新颖检测举例对于一个新的随机点满足概率的界:模式函数的期望在概率下的界为:把满足的项视为新颖项,把正常项误判为正常项的概率最大为 二分类举例将训练集S划分为两个正例、负例子集:S_,S+利用新颖检测,计算测试点x到两子集质心的距离:分类规则为:b+b- 数据分散度——标准化数据两均值为0的随机变量x,y的协方差:两变量乘积的期望不同原始特征,难以直接比较,需要在比较前进行标准化:两变量的相关性:以下三条件等价:比较两变量的标准化结果,可衡量两变量的线性相关性用于检测是否存在模式: 数据分散度——协方差矩阵考虑l个训练样本在N维特征空间中映射,记为l×N矩阵N×N协方差矩阵C元素为: 数据分散度——投影的方差设v为特征空间的单位向量,在v方向上投影的范数为投影范数的中心为:投影范数的方差为:如何用内积计算?将v表示成训练点的线性组合 数据分散度——投影的方差投影范数的方差为:将v表示成训练点的线性组合 9模式识别中的核方法9.1核方法概述9.2核方法基础9.3凸优化与SVM 凸优化与SVM超球体在嵌入空间中,寻找包含训练数据集的最小超球体。并构建检测新颖(反常)数据的算法。最大间隔超平面在嵌入空间中,寻找能将两类样本分开的最大间隔超平面,构建分类算法凸二次规划问题 训练集嵌入到特征空间F中包含点集合的最小超球体寻找一个包含所有特征点的最小超球体中心是点的线性组合,且点数据点的跨度之内——对偶 包含点集合的最小超球体对偶lagrange函数 最大化:约束:凸二次规划:KT条件:=0包含点集合的最小超球体 基于最小超球体的新颖检测仅对支持向量有仅需要计算#SV个内积 新颖检测稳定性那么至少在的概率下,在大小为的样本上有:令:=0,对于训练样本在的概率下,来自训练分布D的点落在以c为中心,为半径的球的外部的概率小于。 不一味追求包含所有点——避免个别噪声影响。包含大部分点的软超球体遗漏点的损失半径过大的损失VS松弛变量:两种损失的权衡 包含大部分点的软超球体 包含大部分点的软超球体最大化:约束:凸二次规划: 包含大部分点的软超球体选取某i,使则KT条件:=0此时根据KT条件: 基于软超球体的新颖检测在的概率下,来自训练分布D的点被判为新颖点的概率最大为: v-软最小超球体软最小超球体v-软最小超球体超球体外的点有最多有个点在球外超球体内的有至少有个点不在球内 v-软最小超球体在的概率下,来自训练分布D的点被判为新颖点的概率最大为:测试超球体半径平方为:v-软最小超球体的优化目标为即取时,测试超球体体积最小希望p为定值,将概率的界固定 超球体的讨论“硬”最小包含球。扩大半径,保证更大的概率下包含正常点对于个别点敏感,不健壮软最小包含球不要求包含所有点,考虑半径大小与遗漏点的折中有可能将任意点排斥在外。v-软最小包含球给出包含于球内的点的界。V与误差率的联系。 3对L求导,代回Lagrange函数,转化为基于和核的对偶,凸优化——二次规划求解基于核的凸优化方法1在高维特征空间中,在样本集上构造优化问题最小化目标约束条件2构造Lagrange函数4根据K_T条件,得到基于核的模式函数 最优分类界面样本集与分类界面之间的间隔定义为样本与分类界面之间几何间隔的最小值。最优分类界面:给定线性可分样本集,能够将样本分开的最大间隔超平面。 最大间隔分类器线性函数:训练样本: 最大间隔分类器 最大间隔分类器最大化:约束:凸二次规划:选择由KT条件: 最大间隔分类器模式函数:在的概率下泛化误差的界:硬间隔:必须用在可分离情况,对噪声敏感——不健壮软间隔:容忍部分分错,对噪声不敏感——健壮 软间隔分类器 软间隔分类器 软间隔分类器与最大间隔的结果相同,仅约束条件不同: 软间隔分类器最大化:约束:凸二次规划: 软间隔分类器选择使在的概率下泛化误差的界: 米粉生产设备系列湖南米粉,就是这样味!陈辉球米粉设备 陈辉球米粉设备湖南米粉,指的是湖南省的特色米粉。它易储存、味道鲜美,煮食方便,是湖南人最喜欢的早餐之一。湖南米粉是湖南地区四大米粉主流之一。机械结合了传统的工艺细节,生产出来的米粉与传统的口感不相上下,家的味道!。而且,产能大,满足市场的需求;自动化运行,节能高效,大大地降低成本的投入! 陈辉球米粉设备型号:CHQ800型名称:全自动米粉生产线产能:800kg/h用人:3人用电:155kw出粉率:~93%用地尺寸:实地勘察生产线基本参数 陈辉球米粉设备1、自动化程度:全程自动运行,采用的是先进的技术设计,新型设备(微电脑)控制。实现了生产自动化、规范化..........2、产能:产能达到800kg/h原料,与传统的设备相比,是它的4倍!3、材质:采用食品级不锈钢制造,清洁方便、保养简单。符合食品安全标准!生产线特点分析 陈辉球米粉设备4、生产的米粉口感:口感爽滑,富有弹性,水煮不糊汤,久煮不断条。5、老化如何——精准控制、老化时间控制精准,确保米线的质感,缩短老化时间、提高效率。 陈辉球米粉设备THANK!10年专业做自动化米粉设备'