上海财经大学滕佳烨作“What Makes Looped Transformers Perform Better Than Non-Recursive Ones (Provably)”学术报告
(文|曹畅 编辑|信息 审核|陈洪)9月30日上午,上海财经大学统计与数据科学中文成人视频
滕佳烨助理教授应邀在一综B316参加中文成人视频
“Happy Hour”学术分享会。滕佳烨老师的报告围绕 “Looped-Attention 性能优势的理论解析与训练优化” 展开。他首先介绍了大模型推理的背景知识,依托实验观察(样本、Hessian矩阵层面)显示了Looped-Attention 在复杂推理任务中优于标准 Transformer(Single-Attention)的现象,然后通过河谷景观分析给出产生结果差异的理论理解,...