永利yl23411(中国)no1公司-Made in China

（通讯员：史晓龙谢东霖）5月30日上午，应永利yl23411no1邀请，香港中文大学的武执政教授为大家做了主题为“语音生成大模型与开源系统Amphion”的学术报告，本次报告由永利yl23411no1肖林副院长主持，科研办组织召开，2022级和2023级研究生及相关老师参加。

首先，武教授向我们介绍了生成式人工智能（AIGC）作为人工智能技术发展的新趋势。现今，诸如ChatGPT、Stable Diffusion等代表着文字和图像应用的技术成为了技术界甚至大众讨论的焦点。比如ChatGPT作为一个基于生成式人工智能的对话模型，展现了强大的语言理解和生成能力，使得与机器进行自然对话成为现实；而Stable Diffusion则是一种基于生成模型的图像编辑技术，通过学习训练数据中的图像分布，实现了图像的多样化生成、插值和编辑。接着，武教授深入探讨了主流语音与音频生成任务的研究趋势，并介绍了最近发布的重要开源框架——Amphion。Amphion的目标是建立一个全面的音频生成平台，旨在协助初学者和工程师们进行音频、音乐以及语音生成等方面的持续研究与开发。武教授指出，Amphion的推出将进一步推动音频技术领域的发展，为从事相关领域研究的人员提供强大的工具和资源支持。同时，Amphion的开源特性也将促进更广泛的合作与创新，为音频生成技术的不断进步做出重要贡献。

报告结束后，武教授和同学们围绕着Amphion框架展开了激烈而富有成果的讨论。大家不仅探讨了框架的可扩展性和适用性的问题，还讨论了Amphion框架在音频生成领域的潜在应用，包括语音合成、音乐生成、环境声效模拟等方面。最后，武教授鼓励大家继续深入研究和探索，将Amphion框架应用到更多领域，并希望通过共同努力，推动音频生成技术的进步，为人类社会带来更多创新和发展。

主讲人简介：

武执政，现任香港中文大学（深圳）副教授。入选国家级青年人才，连续多次入选斯坦福大学“全球前2%顶尖科学家”、爱思唯尔“中国高被引学者”榜单。他于2015年获得南洋理工大学博士学位，并在Meta（原Facebook）、京东、苹果、爱丁堡大学、微软亚洲研究院等机构从事学术研究和技术领导工作。武博士带领开发了语音合成开源系统Merlin，发起并组织了第一届声纹识别欺骗检测国际评测、第一届语音转换国际评测，组织了2019年语音合成国际评测（Blizzard Challeng2019）。曾获得INTERSPEECH 2016最佳学生论文奖、2012年亚太信号与信息处理协会年度峰会最佳论文奖。武博士现为IEEE语音与语言处理技术委员会委员，语音领域权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing的Associate Editor, IEEE Signal Processing Letters的Associate Editor, lEEE Spoken Language Technology Workshop 2024的大会主席。他曾受邀在ICASSP、IJCAI 2023 DADA Workshop等权威学术会议做特邀报告。

编辑：史晓龙谢东霖

一审：崔玉茹

二审：肖林

三审：周劲松

信息学院举办主题为“语音生成大模型与开源系统Amphion”的学术讲座