联系信息

电话: 0755-2603 6870

邮箱:

地址: 深圳市南山区西丽大学城清华校区信息大楼

办公时间:

  • 个人简历
  • 教学
  • 研究领域
  • 研究成果
  • 奖励荣誉
  • 概况

    主要从事智能语音交互、情感计算等研究


    教育经历

    1995年7月-1999年7月,清华大学计算机科学与技术系,获学士学位

    1999年7月-2005年6月,清华大学计算机科学与技术专业,获工学博士学位



    工作经历

    2005年8月-2007年8月,香港中文大学博士后研究员

    20078-200812月,清华大学深圳研究生院讲师

    200812-20193月,清华大学深圳研究生院副研究员

    20193-202412月,清华大学深圳国际研究生院副研究员

    20085月至今,香港中文大学荣誉副研究员

    202412月至今,清华大学深圳国际研究生院教授


    学术兼职

    2024-

    中国计算机学会(CCF)语音对话与听觉专业组

    副秘书长/常委

    2018-2024

    中国计算机学会(CCF)语音对话与听觉专业组

    执委/秘书组成员

    2011-

    中国计算机学会(CCF)

    会员

    2006-

    国际语音通讯协会(ISCA)

    会员

    2005-

    国际电子电气工程师学会(IEEE)

    会员

    2007-

    IEEE计算智能协会智能系统应用委员会(CIS ISATC)

    委员

    2005-

    国际互联网联盟(W3C)语音合成标记语言(SSML)工作组

    成员

    2009-

    中国声学学会:语言、音乐和听觉声学分会

    委员

    2009-

    全国人机语音通讯学术会议(NCMMSC)常设机构

    委员

    2005-

    IEEE/ACM Trans. Audio, Speech and Language Processing

    期刊审稿人

    2011-

    ACM Trans. Asian Language Processing

    期刊审稿人

    2013-

    Speech Communication

    期刊审稿人

    2013-

    Multimedia Tools and Applications

    期刊审稿人

    2006-

    INTERSPEECH; ICASSP; ISCSLP; NCMMSC; ACL; IJCNLP; NeurIPS; AAAI; IJCAI

    会议审稿人

    2012

    ISCSLP 2012

    程序委员会出版主席

    2015

    8届京港国际博士生论坛

    指导委员会主席

    2015

    NCMMSC 2015

    Special Session主席

    2016

    ISCSLP 2016

    Session主席

    2018

    11届国际博士生论坛

    指导委员会主席

    2020

    INTERSPEECH 2020

    Special Session主委会主席

    2021

    SLT 2020

    本地主席

    2022

    ICASSP 2022

    深圳分会场本地主席

    2023

    NCMMSC 2023

    组织委员会主席

    2024

    NCMMSC 2024

    组织委员会主席

    2024

    ISCSLP 2024

    出版主席

    2024

    SLT 2024

    特邀讲者主席





    社会兼职

  • 教学课程

    《语音信号数字处理》

    《大数据分析(B)》


    研究生指导

  • 研究领域

    主要从事智能语音交互技术研究,包括:通用音频大模型(语音、歌曲、音效)、表现力语音生成(说话风格、情感、韵律、个性化)、数字人生成(口型、表情、共语手势、舞蹈)、自然语言处理(理解与生成)、情感计算、机器学习等。

    IEEE/ACM TASLPSpeech Communications, MTAPAAAIIJCAIACM MultimediaEMNLPICASSPICMEINTERSPEECH等领域顶级学术期刊和会议上发表论文200余篇。参与撰写翻译著作4部。负责承担国家自然科学基金青年基金项目、面上项目、香港特区政府研究资助局联合项目,粤港科技合作计划项目,深港创新圈项目等。参与国家自然科学基金重点项目、国家社会科学基金重大项目、国家高技术研究发展计划863重大项目。获20092016年度教育部科学技术进步奖、2021年度北京市科学技术进步奖、2023年度深圳市科学技术进步奖。指导的学生多人次获得优秀学位论文、国家奖学金、优秀毕业生,斩获2017全球极客大赛AI仿声验声攻防赛ICASSP 2023语音信号质量增强挑战赛、AAAI 2024数字人生成挑战赛桂冠,获得ICASSP 2023 Top 3%论文、2023中国多媒体大会最佳论文、INTERSPEECH 2023最佳学生论文、GENEA 2023最佳可复现奖、CVPR 2023亮点论文。获得20202023年度清华大学年度教学优秀奖,当选2022年度清华大学第十八届“良师益友”。


    主要项目

    1.国家自然科学基金-面上项目:“面向智能语音交互的语音副语言信息解耦表征学习与可控语音生成研究”

    2.国家自然科学基金-香港政府研究资助局(NSFC-RGC)合作项目:“面向互联网口语对话的交互属性挖掘与特色语音生成的研究”

    3.国家自然科学基金-重点项目:“互联网话语理解的心理机制与计算建模”

    4.国家社会科学基金-重大项目:“社会情感的语音生成与认知的跨语言跨文化研究”

    5.国家863重点专题项目子课题:“多方言的高表现力情感语音交互系统”

    6.国家自然科学基金-面上项目:“面向自然口语对话的深层次信息感知与表达方法研究”

    7.广东省科技计划-粤港关键领域重点突破项目:“基于云计算可管理的实时视听平台研究和产业化”

    8.国家自然科学基金-青年科学基金项目:“音视融合的韵律模式的个性化研究”

    9.教育部博士点新教师基金:“语音生成中表达要素的层级建模”

    10.国家自然科学基金-海外及港澳学者合作研究基金:“具有多模态发音模型及矫正性认知反馈的交互式在线语言学习平台”

    11.国家863重点专题项目子课题:“便捷交互界面管理技术普适计算基础软硬件关键技术及系统

    12.香港政府创新及科技支持计划之粤港科技合作计划项目:“面向固定及移动设备应用的汉语双语(普通话和广东话)可视语音合成系统”

    13.香港政府研究资助局基金项目:“面向语音合成的音视频时序相关性建模”


  • 代表性论文

    1. Shun Lei*, Yixuan Zhou*, Boshi Tang*, Max W. Y. Lam, Feng Liu, Hangyu Liu, Jingcheng Wu, Shiyin Kang, Zhiyong Wu#, Helen Meng, SongCreator: Lyrics-based Universal Song Generation, [in] Proc. Annual Conference on Neural Information Processing Systems (NeurIPS), pp. 1-34. Vancouver, Canada. December 10-15, 2024.

    2. Yixuan Zhou*, Xiaoyu Qin, Zeyu Jin, Shuoyi Zhou*, Shun Lei*, Songtao Zhou, Zhiyong Wu#, Jia Jia#, VoxInstruct: Expressive Human Instruction-to-Speech Generation with Unified Multilingual Codec Language Modelling, [in] Proc. ACM International Conference on Multimedia (ACM MM), pp. 554-563. Melbourne, Australia, October 28-November 1, 2024.

    3. Zeyu Jin, Jia Jia, Qixin Wang, Kehan Li*, Shuoyi Zhou*, Songtao Zhou, Xiaoyu Qin#, Zhiyong Wu#, SpeechCraft: A Fine-Grained Expressive Speech Dataset with Natural Language Description, [in] Proc. ACM International Conference on Multimedia (ACM MM), pp. 1255-1264. Melbourne, Australia, October 28-November 1, 2024.

    4. Xu He*, Qiaochu Huang*, Zhensong Zhang, Zhiwei Lin*, Zhiyong Wu#, Sicheng Yang*, Minglei Li, Zhiyi Chen, Songcen Xu, Xiaofei Wu, Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model, [in] Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition Conference (CVPR), pp. 2263-2273. Seattle, USA, June 16-22, 2024.

    5. Yaoxun Xu*, Hangting Chen, Jianwei Yu#, Qiaochu Huang*, Zhiyong Wu#, Shixiong Zhang, Guangzhi Li, Yi Luo, Rongzhi Gu, SECap: Speech Emotion Captioning with Large Language Model, [in] Proc. AAAI Conference on Artificial Intelligence (AAAI), pp. 19323-19331. Vancouver, Canada, February 20-27, 2024.

    6. Zilin Wang*, Haolin Zhuang*, Lu Li, Yinmin Zhang, Junjie Zhong, Jun Chen*, Yu Yang, Boshi Tang*, Zhiyong Wu#, Explore 3D Dance Generation via Reward Model from Automatically-Ranked Demonstrations, [in] Proc. AAAI Conference on Artificial Intelligence (AAAI), pp. 301-309. Vancouver, Canada, February 20-27, 2024.

    7. Boshi Tang*, Zhiyong Wu, Xixin Wu#, Qiaochu Huang*, Jun Chen*, Shun Lei*, Helen Meng, SimCalib: Graph Neural Network Calibration Based on Similarity between Nodes, [in] Proc. AAAI Conference on Artificial Intelligence (AAAI), pp. 15267-15275. Vancouver, Canada, February 20-27, 2024.

    8. Jingbei Li*, Sipan Li*, Ping Chen*, Luwen Zhang*, Yi Meng*, Zhiyong Wu#, Helen Meng, Qiao Tian, Yuping Wang, Yuxuan Wang, Joint Multiscale Cross-Lingual Speaking Style Transfer with Bidirectional Attention Mechanism for Automatic Dubbing, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 32, pp. 517-528. IEEE, November 10, 2023.

    9. Xixin Wu, Hui Lu, Kun Li*, Zhiyong Wu#, Xunying Liu, Helen Meng, Hiformer: Sequence Modeling Networks with Hierarchical Attention Mechanisms, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 31, pp. 3993-4003. IEEE, September 8, 2023.

    10. Shun Lei*, Yixuan Zhou*, Liyang Chen*, Zhiyong Wu#, Xixin Wu, Shiyin Kang, Helen Meng, MSStyleTTS: Multi-scale Style Modeling with Hierarchical Context Information for Expressive Speech Synthesis, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 31, pp. 3290-3303. IEEE, August 2, 2023.

    11. Hui Lu*, Xixin Wu#, Zhiyong Wu, Helen Meng, SpeechTripleNet: End-to-End Disentangled Speech Representation Learning for Content, Timbre and Prosody, [in] Proc. ACM International Conference on Multimedia (ACM MM), pp. 2829-2837. Ottawa, Canada, October 29 - November 3, 2023.

    12. Sicheng Yang*, Zilin Wang*, Zhiyong Wu#, Minglei Li#, Zhensong Zhang, Qiaochu Huang*, Lei Hao, Songcen Xu, Xiaofei Wu, Changpeng Yang, Zonghong Dai, UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons, [in] Proc. ACM International Conference on Multimedia (ACM MM), pp. 1033-1044. Ottawa, Canada, October 29 - November 3, 2023.

    13. Sicheng Yang*, Zhiyong Wu#, Minglei Li, Zhensong Zhang, Lei Hao, Weihong Bao*, Ming Cheng*, Long Xiao*, DiffuseStyleGesture: Stylized Audio-Driven Co-Speech Gesture Generation with Diffusion Models, [in] Proc. International Joint Conference on Artificial Intelligence (IJCAI), pp. 5860-5868. Macao, China, August 19-25, 2023.

    14. Sicheng Yang*, Zhiyong Wu#, Minglei Li, Zhensong Zhang, Lei Hao, Weihong Bao*, Haolin Zhuang*, QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation, [in] Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition Conference (CVPR), pp. 2321-2330. Vancouver, Canada, June 18-22, 2023.

    15. Zhihan Yang*, Zhiyong Wu#, Ying Shan, Jia Jia#, What Does Your Face Sound Like? 3D Face Shape Towards Voice, [in] Proc. AAAI Conference on Artificial Intelligence (AAAI), pp. 13905-13913. Washington DC, USA, February 7-14, 2023.

    16. Haibin Wu, Xu Li, Andy T Liu, Zhiyong Wu, Helen Meng, Hung-Yi Lee#, Improving the Adversarial Robustness for Speaker Verification by Self-supervised Learning, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 30, pp. 202-217. IEEE, January 8, 2022.

    17. Jingbei Li*, Yi Meng*, Xixin Wu#, Zhiyong Wu#, Jia Jia, Helen Meng, Qiao Tian, Yuping Wang, Yuxuan Wang, Inferring Speaking Styles from Multi-modal Conversational Context by Multi-scale Relational Graph Convolutional Networks, [in] Proc. ACM International Conference on Multimedia (ACM MM), pp. 5811-5820. Lisboa, Portugal, October 10-14, 2022.

    18. Xixin Wu, Yuewen Cao, Hui Lu*, Songxiang Liu, Disong Wang, Zhiyong Wu#, Xunying Liu, Helen Meng, Speech Emotion Recognition Using Sequential Capsule Networks, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 29, pp. 3280-3291. IEEE, October 15, 2021.

    19. Xixin Wu, Yuewen Cao, Hui Lu*, Songxiang Liu, Shiyin Kang, Zhiyong Wu#, Xunying Liu, Helen Meng, Exemplar-Based Emotive Speech Synthesis, IEEE/ACM Transactions on Audio, Speech, and Language Processing (TASLP), vol. 29, pp. 874-886. IEEE, January 18, 2021.

    20. Suping Zhou, Jia Jia#, Zhiyong Wu, Zhihan Yang*, Yanfeng Wang, Wei Chen, Fanbo Meng, Shuo Huang, Jialie Shen, Xiaochuan Wang, Inferring Emotion from Large-Scale Internet Voice Data: A Semi-supervised Curriculum Augmentation based Deep Learning Approach, [in] Proc. the 35th AAAI Conference on Artificial Intelligence (AAAI), pp. 6039-6047. Virtual, Online, February 2-9, 2021.

    21. Yingmei Guo*, Linjun Shou, Jian Pei, Ming Gong, Mingxing Xu, Zhiyong Wu, Daxin Jiang#, Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding, [in] Proc. 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 3226-3237. Punta Cana, Dominican Republic, November 7-11, 2021.

    22. Yaohua Bu, Tianyi Ma, Weijun Li, Hang Zhou, Jia Jia#, Shengqi Chen, Kaiyuan Xu, Dachuan Shi, Haozhe Wu, Zhihan Yang, Kun Li, Zhiyong Wu, Yuanchun Shi, Xiaobo Lu, Ziwei Liu, PTeacher: A Computer-Aided Personalized Pronunciation Training System with Exaggerated Audio-Visual Corrective Feedback, [in] Proc. 2021 CHI Conference on Human Factors in Computing Systems (CHI), pp. 1-14. Yokohama, Japan, May 8-13, 2021.


    代表性著作

    主要专利成果

    1.   吴志勇, 刘良琪. 一种基于多模态特征的重音检测方法及系统, 2019-10-18, 中国, ZL201910995480.2

    2.   吴志勇, 张坤. 一种语音关键词检测方法及系统, 2019-10-17, 中国, ZL201910990230.X

    3.   吴志勇, 代东洋. 一种基于对抗学习的端到端的跨语言语音情感识别方法, 2019-08-08, 中国, ZL201910731716.1

    4.   吴志勇, 杜耀, 康世胤, 苏丹, 俞栋. 一种韵律层级标注的方法、模型训练的方法及装置, 2019-01-22, 中国, ZL201910751371.6

    5.   吴志勇, 代东洋, 康世胤, 苏丹, 俞栋. 确定多音字发音的方法及装置, 2019-06-25,中国, ZL201910555855.3

    6.   金欣, 姜奕祺, 张磊, 张新, 吴志勇. 一种视频镜头分割边界检测的方法及装置, 2015-12-29, 中国, ZL201511020545.X

    7.    金欣, 姜奕祺, 张磊, 吴志勇. 一种视频中的污染区域的内容补绘方法, 2015.11.10, 中国, ZL201510760914.2


    其他成果

  • 荣誉奖项

    1. 深圳市第五届教育教学成果奖高等教育类一等奖(2024),获奖项目“IMDT交叉创新打造‘新工科’数智人才培养新模式”(4/10

    2. 深圳市科技进步二等奖(2023),获奖项目“智能语音感知与交互关键技术研发及产业化应用”(1/8

    3. 北京市科技进步二等奖(2021),获奖项目“个性化情感化人机语音交互关键技术及产业化”(2/10

    4. 教育部科技进步二等奖(2016),获奖项目“汉语言语感知与交互的建模及其应用”(4/19

    5. 教育部科技进步二等奖(2009),获奖项目“多模态的多语种语音、语言交互的研究与应用”(3/21

    6. 深圳市科技创新奖(2007),获奖项目“P2P架构的流媒体数字版权保护平台”(8/9

    7. 腾讯AI Lab犀牛鸟专项研究及访问学者计划卓越奖(20182019)、优秀奖(2020)、技术创新奖(2021)、学术创新奖(2022)、优秀项目奖(20202023)、卓越项目奖(2024

    8. 清华大学年度教学优秀奖(2020,2023

    9. 清华大学第十八届“良师益友”(2022