• 850.50 KB
  • 2022-04-29 14:22:51 发布

最新半监督学习概论课件PPT.ppt

  • 40页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'半监督学习概论 主要内容:传统学习面临的问题;半监督学习的提出;两个基本假设;半监督学习的常用算法;研究现状及发展 引言传统机器学习分两类:监督学习、无监督学习监督学习仅仅利用已标签样本进行学习,因此对标记样本的数量要求较多;无监督学习仅仅是对未标记样本学习,不能保证精度。只使用少量有标记样本,训练出来的学习系统往往难具有很好的强泛化能力;另外,仅使用少量“昂贵的”标记样本而不利用“廉价的”未标记样本对数据资源是一种浪费。因此如何有效的同时利用两种样本进行学习被研究者关注。 两个基本假设半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习,从概率学习角度可理解为研究如何利用训练样本的输入边缘概率P(x)和条件输出概率P(y|x)的联系设计具有良好性能的分类器。这种联系的存在是建立在某些假设的基础上的,即聚类假设(clusterassumption)和流形假设(manifordassumption)。 聚类假设:是指处在相同聚类中的样本示例有较大的可能拥有相同的标记。根据该假设,决策边界就应该尽量通过数据较为稀疏的地方,从而避免把稠密的聚类中的数据点分到决策边界两侧。在这一假设下,大量未标记样本的作用就是帮助探明样本空间中数据分布的稠密和稀疏区域,从而指导学习算法对利用有标记样本学习到的决策边界进行调整,使其尽量通过数据分布的稀疏区域。流形假设:是指处于一个很小的局部区域内的示例具有相似的性质,因此,其标记也应该相似。这一假设反映了决策函数的局部平滑性。和聚类假设着眼整体特性不同,流形假设主要考虑模型的局部特性。在该假设下,大量未标记示例的作用就是让数据空间变得更加稠密,从而有助于更加准确地刻画局部区域的特性,使得决策函数能够更好地进行数据拟合。 半监督学习的常用算法半监督学习算法按照不同的模型假设,可以大致将现有的半监督学习算法分为五类:自学习(Self-training)基于生成模型的方法(EMwithgenerativemixturemodels)协同训练(Co-training)直推式支持向量机(TransductiveSupportVectorMachines)基于图的方法(Graph-basedmethods) 自学习自学习要表达的核心思想是在分类器递归拟合的时候,每次递归仅将满足设定的置信度阈值的即置信度高的样本纳入到已标记样本集中,参与递归拟合。算法流程:Step1:用已标记的样本来训练得到一个初始分类器;Step2:用初始分类器对未标记样本进行分类,将标记置信度高的未标记样本进行标记;Step3:对所有样本进行重新训练,直到将所有未标记样本都标记为止。缺点:自训练算法是一个包装算法,没有实用性,一般来说很难分析。 协同训练算法此类算法隐含地利用了聚类假设或流形假设,它们使用两个或多个学习器,在学习过程中,这些学习器挑选若干个置信度高的未标记示例进行相互标记,从而使得模型得以更新。最早提出Co-training的是A.Blum和T.Mitchell。之后分别经过两次改进,南大周志华贡献很大。该算法的一个显著特点是使用了三个分类器,不仅可以简便地处理标记置信度估计问题以及对未见示例的预测问题,还可以利用集成学习(ensemblelearning)[Dietterich00]来提高泛化能力。 算法流程:步骤一:对标记样本进行可重复取样以获得三个有标记样本集,从每个样本集训练出一个分类器。步骤二:在协同训练过程中,各分类器所获得的新标记示例都由其余两个分类器协作提供,具体来说,如果两个分类器对同一个未标记示例的预测相同,则该示例就被认为具有较高的标记置信度,并在标记后被加入第三个分类器的有标记训练集。以便对方利用这些新标记的示例进行更新。 基于图的方法此类算法直接或间接地利用了流形假设,在基于图的方法中,首先是构造一个图,图由顶点和边组成,其中顶点代表样本,边是有权值的,其大小代表样本间的相似性程度。基于图的半监督分类算法是通过构造一个满足下面两个条件的函数F:首先,对于样本标签数据,F必须可以对其进行正确分类;其次,对于未标签数据,F也应该能够让类别标签在整个图上具有平滑性。 生成式模型算法以生成式模型为分类器,将未标记示例属于每个类别的概率视为一组缺失参数,然后采用EM算法来进行标记估计和模型参数估计。EM算法的贪心本质使其容易陷入局部极值,因此算法对初始值的选择具有很强的依赖性.常用的解决方法是采用多组初值进行重复运算,并从中选择最好的一组解,或者通过复杂的优化算法(如分裂合并EM算法)获取参数的优化解.这些做法尽管降低了对初始值选择的敏感性,但却引入了过多的运算负担。对分类器进行拟合本质上是确定每一个类别的生成函数,或者说找出生成函数的参数,对于自然分布来说,即要求出各类别生成函数的均值和协方差矩阵。这里的参数一般都由最大似然估计法求出。 直推式支持向量机定义:直推式支持向量机(TSVM)是标准型支持向量算法在未标记样本上的一种推广。对于二分类问题而言,标准SVM是利用已标记的数据在样本空间中寻找一个最优超平面,使两类样本间的分类间隔最大;TSVM则同时利用标记和未标记的样本来寻找最优分类边界,来得到原始数据中两类样本的最大分类间隔。直推式方法是一种非参数的方法,不同于基于生成模型的参数方法,其对初始分类器的优化过程只与上一次拟合时已标记样本在特征空间中的位置有关。 TSVM和SVM算法最优分类界面对比 训练算法步骤:步骤一:指定参数C和C*,对有标识样本进行一次初始学习,得到初始分类器,按照某个规则指定一个未标识样本中的正标签样本数N;步骤二:用初始分类器对未标识样本进行分类,根据对每一个未标识样本的判别函数输出,对输出值最大的N个未标识样本暂时赋正标识值,其余的赋负标识值.并指定一个临时影响因子步骤三:对所有样本重新训练,对新得到的分类器,按一定的规则交换一对标签值不同的测试样本的标签符号,使得优化问题中的目标函数值获得最大下降,这一步骤反复执行,直到找不出符合交换条件的样本对为止;步骤四:均匀地增加临时影像因子的值并返回到步骤三,当时,算法结束,并输出结果。 当前半监督学习面临的问题第一,半监督学习分类算法的现实价值半监督学习从诞生以来,主要用于处理人工合成数据、只在实验室试用,还没办法在某个现实领域得到应用,也就是说,其现实意义没体现出来;因此,半监督学习的实际应用价值问题值得更多的研究。第二,新假设的提出文中前面叙述到的各种半监督分类算法的假设,提出新的模型假设可能会改进半监督分类算法。所以对半监督学习分类算法的模型假设的研究将是十分有价值的。第三,半监督学习的抗干扰性比较弱无噪声干扰的样本数据是当前大部分半监督学习方法使用的数据,而在实际生活中用到的数据却大部分不是无干扰的,通常都比较难以得到纯样本数据。上面谈论的三个基本假设显然是有效的,不过过于简约,这些假设没能把噪声干扰下未标记样本数据分布的不确定性以及它的复杂性充分的考虑全。 谢谢! 第六章CD分子和粘附分子clusterofdifferentiationmolecules andadhesionmolecules21 免疫细胞的膜表面分子:免疫细胞表面存在着大量不同种类的蛋白质分子,如受体、配体、酶、信号传导分子等。CD分子和粘附分子均为免疫细胞的膜表面分子。22 一、CD分子:(clusterofdifferentiation,CD)1.CD20世纪80年代,WHO、IUIS倡议:将识别各种细胞表面分化抗原的单克隆抗体统一命名为CDnCD分子:分化群分子,也称白细胞分化抗原。即血细胞在发育、分化不同阶段或活化过程中表达的膜表面分子。2001年公布的CD分子已达247种,CD1~CD247。(附录)23 CD分子的作用:用于细胞的鉴定:如T细胞标志:CD3+;B细胞标志:CD19+;K细胞标志:CD3-CD56+;。参与细胞间粘附和跨膜信号传递,如CD3、CD4、CD28等。24 常用的CD分子:T细胞表面的CD分子1.CD3只分布于成熟的T细胞表面。由5种肽链组成几对异二聚体(如γε和δε)。主要功能:传递抗原信息稳定TCR结构25 TCR分子复合体组成:2)CD3分子:由γε和δε组成的两对分子。3)ζ分子:由ζζ或ζη组成。CD3和ζ分子作用:负责传导抗原刺激活化信号。ITAMTCRCD3CD3ζ分子1)TCR分子;负责结合APC递呈的抗原肽。ITAM:免疫受体酪氨酸活化基序26 2.CD4和CD8人CD4分子为细胞膜表面单链糖蛋白结构,除分布于部分T细胞外,也分布于胸腺细胞、某些B细胞、EBV转化的B细胞、单核吞噬细胞和脑细胞的表面。CD8分子是由α、β两条多肽链组成的穿膜糖蛋白。除分布于部分T细胞外,还分布于胸腺细胞和NK细胞。功能:作为T细胞识别抗原的辅助受体。27 3.CD2和CD58CD2又称淋巴细胞功能相关抗原-2、绵羊红细胞受体。是单链糖蛋白,表达于成熟T细胞、大部分胸腺细胞及部分NK细胞表面。CD58是CD2的天然配体。功能:促进T细胞对抗原的识别,作为T细胞的标志。28 4.CD28和CTLA-4CD28是由两条肽链组成的跨膜糖蛋白。表达于大部分T细胞及部分活化B细胞的表面。CD28的配体是B7家族,包括B7-1(CD80)和B7-2(CD86),主要为T细胞提供活化的第二信号。CTLA-4与CD28具有高度同源性。CTLA-4主要表达于活化T细胞。也能与B7-1和B7-2结合。发挥的作用不同于CD28。29 1.CD79a/CD79b是B细胞的特异性标志,功能与CD3相似。2.CD21和CD19CD21表达于成熟B细胞、滤泡树突状细胞(FDC)、部分T细胞和鼻咽部上皮细胞等。是补体裂解片段C3d等的受体和EB病毒的受体。CD19分布于B细胞表面,常与CD21结合后以复合体的形式存在。B细胞表面的CD分子30 BCR复合体示意图IgaIgbIgaIgbSmIgM/SmIgDITAMITAM:免疫受体酪氨酸活化基序作用:传导活化信号。31 3.CD40为跨膜蛋白,属于肿瘤坏死因子家族。主要表达于成熟和不成熟B细胞、B细胞原型淋巴瘤和白血病细胞。CD40的配体(CD40L)也属跨膜蛋白,主要表达于活化的CD4+T细胞,也表达CD8+T细胞。32 其他CD分子:CD95又称Fas或Apo-1。与程序性细胞死亡(programmedcelldeath,PCD)密切相关。Fas广泛表达于体内许多类型细胞表面。Fas主要以膜受体形式存在,通过转录水平的不同拼接也可形成可溶性Fas分子。33 2.CD178即Fas配体(Fasligand,FasL)主要分布于活化的T细胞表面。细胞表面Fas通过与Fas抗体交联或与其天然配体(FasL)结合导致细胞内半胱天冬氨酸蛋白酶caspase8活化,启动细胞凋亡通路,是免疫杀伤细胞的效应机理之一,与多种免疫现象有关。34 3.CD16和CD56分子在NK细胞表面,除有T、B细胞表面某些CD分子外,还有CD16和CD56分子。CD16是IgGFc段的低亲和力受体,主要结合IgG1、IgG3。CD56是NK的特异性标志。35 二、细胞粘附分子(celladhesionmolecule,CAM)------介导细胞与细胞或细胞与细胞外基质间相互结合的蛋白质。据结构划分为四类1、免疫球蛋白超家族:(immunoglobulinsuperfamily,IgSF)------含有一个或多个与Ig样结构域的膜表面分子。如:CD3,CD4,CD836 2、整合素家族:(integrin)---介导细胞与细胞外基质结合的一组由α、β链组成的异二聚体分子。如:LFA-1(CD11a/CD18)、CR3等。3、选择素家族(selectin)---是一类以细胞外多糖为配体的膜表面单肽分子,介导白细胞与内皮细胞或血小板的粘附。如:L-选择素(白细胞选择素),E-选择素(内皮细胞选择素),P-选择素(血小板选择素)。37 4、钙粘素家族:(cadherin)一组需要钙离子参与的主要介导同型细胞间相互粘附的分子,如:E-钙粘素(内皮钙粘素);N-钙粘素(神经钙粘素);P-钙粘素(胎盘钙粘素)。38 粘附分子的生物学功能参与免疫细胞的分化和发育参与免疫应答参与炎症反应参与淋巴细胞的归巢和再循环39 本章的要点问题:1、CD分子与粘附分子的概念2、CD分子的作用3、粘附分子的分类4、粘附分子的作用40'