讨论班 | ESL讨论班、学术交流研讨班(2021/4/5-2021/4/11)

编辑: 温夏玲 吴王威 责任审核人:谭键滨 蒋宇康

1、讨论班简介

ESL讨论班

针对新同学开展统计学习精要的学习,主讲机器学习知识。课程内容以《The Elements of Statistical Learning》为主,部分延伸内容需要参考辅助书目;

 

学术交流研讨班

针对博士生开展,主要形式为学术论文讨论交流。

 

2、时间及地点

 

image 10

 

 

3、本期内容概述

ESL讨论班

Boosting 是近 20 年提出的一种高效且实用的机器学习方法,其最初是为了分类问题而设计,后续也扩展到了回归问题上。Boosting 方法是一种可加模型,比较常用的一种框架是 Gradient Boosting ,其根据不同的损失函数可以得到不同的具体算法,例如 AdaBoost 优化的是指数损失函数。我们将讨论不同的损失函数及相应的鲁棒性。在众多子学习器中,决策树被认为是 Boosting 在数据挖掘应用中理想的子学习器,对此有Boosting tree的相关方法,如GBDT,XGBoost,lightGBM等,我们将对相关的模型与对应的优化方法进行详细的介绍。

 

学术交流研讨班

现代技术的飞速发展带来了具有内在非线性结构的复杂数据集,然而大多数统计假设检验更多是针对欧氏空间或希尔伯特空间中的数据。为了分析这一类结构复杂的数据,在本次报告中,我们介绍球技术及其R软件包Ball。球技术可用于度量空间中的多个分布的差异比较以及多个随机变量的相互独立性检测。我们设计了几种算法以加快基于球技术的统计检验的运算速度。数值研究表明,Ball包可以检测复杂数据集中的分布差异和复杂依赖性,例如方向数据和对称正定矩阵数据。