讨论班 | ESL讨论班、学术交流研讨班(2021/3/15-2021/3/21)
编辑: 温夏玲 吴王威
责任审核人:谭键滨 蒋宇康
发布日期:2021-03-18
1、讨论班简介
ESL讨论班
针对新同学开展统计学习精要的学习,主讲机器学习知识。课程内容以《The Elements of Statistical Learning》为主,部分延伸内容需要参考辅助书目;
学术交流研讨班
针对博士生开展,主要形式为学术论文讨论交流。
2、时间及地点
3、本期内容概述
ESL讨论班
在机器学习领域中,泛化效果的评估在实际中特别重要,它指导着如何选择学习方法或模型,并且给了我们对最终选择的模型质量的一个度量。
本次讨论班将从偏差、方差以及模型复杂度的关系出发,描述相关概念并举例说明评估泛化效果的重要方法。其中主要分为两类:第一类通过大样本性质估计预测误差,如AIC,BIC,SRM等,第二类则是通过有效的样本重抽样,即交叉验证、自助法等。除了展示这些方法是如何选择模型之外,我们还将讲述每个方法对最终选择模型的测试误差的估计的可靠性程度,为日后面临实际模型选择打下理论基础。
学术交流研讨班
本次讨论班将介绍一种在Banach空间中两个概率测度差异的度量:球散度。它具有良好的性质:两个随机对象的球散度是非负的,并且该球散度为零当且仅当两个随机对象的Borel测度(分布函数)相同,该检验的统计量形式简洁,可以表示为距离秩的函数,具有良好的可解释性。此外,多维两样本检验统计量是球散度的相合估计,在原假设下它是收敛于混合卡方分布,在备择假设下它收敛于正态分布。一致性理论并不取决于两个不平衡样本大小的比例,确保了球散度可以适用于不平衡数据。
