Shiyu Huang 黄世宇

Researcher, Zhipu AI

No.1 Zhongguancun East Road, Haidian District
Beijing, China, 100084.
Email: [email protected]

[OpenRL] [知乎] [Google Scholar] [TARTRL] [GitHub] [Linkedin] [CV]

Visitors: 4956

Biography

I am a researcher in Zhipu AI. Before that, I was a research scientist in 4Paradigm Inc. and the leader of OpenRL Lab. I received my B.E. and Ph. D. degrees (co-advised by Prof. Jun Zhu and Prof. Ting Chen) from the Department of Computer Science and Technology, Tsinghua University in July, 2017 and June, 2022. My researches focus on deep reinforcement learning, multi-agent reinforcement learning, distributed reinforcement learning, RL for robotics, LLM as agent, artificial general intelligence (AGI) and generative artificial intelligence (GAI). I have also spent time working at RealAI Inc. , Huawei Noah's Ark Lab, Tencent AI Lab, Carnegie Mellon University and Sensetime Inc. . And I am also the founder of the OpenRL Lab() and TARTRL group.

We are looking for self-motivated interns and full-timers who have a strong background in mathematics/computer science and are eager to get involved in cutting-edge, fundamental AI research. Please feel free to drop me an email if you are interested in collaborating with me.

Publications && Preprints

(* equal contribution)

CogVLM2: Visual Language Models for Image and Video Understanding
Wenyi Hong, Weihan Wang, Ming Ding, Wenmeng Yu, Qingsong Lv, Yan Wang, Yean Cheng, Shiyu Huang, Junhui Ji, Zhao Xue, Lei Zhao, Zhuoyi Yang, Xiaotao Gu, Xiaohan Zhang, Guanyu Feng, Da Yin, Zihan Wang, Ji Qi, Xixuan Song, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Yuxiao Dong, Jie Tang
arXiv:2408.16500, 2024

[PDF] [Code] [Huggingface] [BibTeX]

@article{hong2024cogvlm2,
  title={CogVLM2: Visual Language Models for Image and Video Understanding},
  author={Hong, Wenyi and Wang, Weihan and Ding, Ming and Yu, Wenmeng and Lv, Qingsong and Wang, Yan and Cheng, Yean and Huang, Shiyu and Ji, Junhui and Xue, Zhao and others},
  journal={arXiv preprint arXiv:2408.16500},
  year={2024}
}

CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
Zhuoyi Yang*, Jiayan Teng*, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Xiaohan Zhang, Xiaotao Gu, Guanyu Feng, Da Yin, Wenyi Hong, Weihan Wang, Yean Cheng, Yuxuan Zhang, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang
arXiv:2408.06072, 2024

[PDF] [Code] [Huggingface] [BibTeX]

@article{yang2024cogvideox,
  title={CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer},
  author={Yang, Zhuoyi and Teng, Jiayan and Zheng, Wendi and Ding, Ming and Huang, Shiyu and Xu, Jiazheng and Yang, Yuanming and Hong, Wenyi and Zhang, Xiaohan and Feng, Guanyu and others},
  journal={arXiv preprint arXiv:2408.06072},
  year={2024}
}

A Survey on Self-play Methods in Reinforcement Learning
Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang
arXiv:2408.01072, 2024
[PDF] [BibTeX]

@misc{zhang2024surveyselfplaymethodsreinforcement,
          title={A Survey on Self-play Methods in Reinforcement Learning},
          author={Ruize Zhang and Zelai Xu and Chengdong Ma and Chao Yu and Wei-Wei Tu and Shiyu Huang and Deheng Ye and Wenbo Ding and Yaodong Yang and Yu Wang},
          year={2024},
          eprint={2408.01072},
          archivePrefix={arXiv},
          primaryClass={cs.AI},
          url={https://arxiv.org/abs/2408.01072},
    }

Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization
Wentse Chen, Shiyu Huang, Jeff Schneider
arXiv:2406.13930, 2024
[PDF] [Code] [BibTeX]

@misc{chen2024softqmixintegratingmaximumentropy,
      title={Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization},
      author={Wentse Chen and Shiyu Huang and Jeff Schneider},
      year={2024},
      eprint={2406.13930},
      archivePrefix={arXiv},
      primaryClass={cs.LG}
      url={https://arxiv.org/abs/2406.13930},
}

LVBench: An Extreme Long Video Understanding Benchmark
Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang
arXiv: 2406.08035, 2024

[PDF] [Project] [Code] [Huggingface] [BibTeX]

@misc{wang2024lvbench,
      title={LVBench: An Extreme Long Video Understanding Benchmark},
      author={Weihan Wang and Zehai He and Wenyi Hong and Yean Cheng and Xiaohan Zhang and Ji Qi and Shiyu Huang and Bin Xu and Yuxiao Dong and Ming Ding and Jie Tang},
      year={2024},
      eprint={2406.08035},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

MQE: Unleashing the Power of Interaction with Multi-agent Quadruped Environment
Ziyan Xiong, Bo Chen, Shiyu Huang, Wei-Wei Tu, Zhaofeng He, Yang Gao
The 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2024

[PDF] [Code] [BibTeX]

@misc{xiong2024mqeunleashingpowerinteraction,
      title={MQE: Unleashing the Power of Interaction with Multi-agent Quadruped Environment},
      author={Ziyan Xiong and Bo Chen and Shiyu Huang and Wei-Wei Tu and Zhaofeng He and Yang Gao},
      year={2024},
      eprint={2403.16015},
      archivePrefix={arXiv},
      primaryClass={cs.RO},
      url={https://arxiv.org/abs/2403.16015},
}

LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments
Junzhe Chen, Xuming Hu, Shuodi Liu, Shiyu Huang, Wei-Wei Tu, Zhaofeng He, Lijie Wen
The 62nd Annual Meeting of the Association for Computational Linguistics(ACL), 2024
AutoSAT: Automatically Optimize SAT Solvers via Large Language Models
Yiwen Sun, Xianyin Zhang, Shiyu Huang, Shaowei Cai, Bing-Zhen Zhang, Ke Wei
arXiv:2402.10705, 2024

OpenRL: A Unified Reinforcement Learning Framework
Shiyu Huang, Wentse Chen, Yiwen Sun, Fuqing Bie, Wei-Wei Tu
arXiv:2312.16189, 2023

[PDF] [Code] [BibTeX]

@article{huang2023openrl,
  title={OpenRL: A Unified Reinforcement Learning Framework},
  author={Huang, Shiyu and Chen, Wentse and Sun, Yiwen and Bie, Fuqing and Tu, Wei-Wei},
  journal={arXiv preprint arXiv:2312.16189},
  year={2023}
}

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization
Wenze Chen, Shiyu Huang, Yuan Chiang, Tim Pearce, Wei-Wei Tu, Ting Chen, Jun Zhu
Thirty-Eighth AAAI Conference on Artificial Intelligence(AAAI), Vancouver, Canada, 2024
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks
Bill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren
Thirty-seventh Conference on Neural Information Processing Systems(NeurIPS)(Spotlight), 2023
Robustness and Generalizability of Deepfake Detection: A Study with Diffusion Models
Haixu Song, Shiyu Huang, Yinpeng Dong, Wei-Wei Tu
arXiv:2309.02218, 2023
Diverse Policies Converge in Reward-free Markov Decision Processes
Fanqi Lin, Shiyu Huang, Wei-Wei Tu
The 20th Pacific Rim International Conference on Artificial Intelligence(PRICAI), Jakarta, Indonesia, 2023
Uncertainty quantification via a memristor Bayesian deep neural network for risk-sensitive reinforcement learning
Yudeng Lin, Qingtian Zhang, Bin Gao, Jianshi Tang, Peng Yao, Chongxuan Li, Shiyu Huang, Zhengwu Liu, Ying Zhou, Yuyi Liu, Wenqiang Zhang, Jun Zhu and He Qian
Nature Machine Intelligence, 2023
TiZero: Mastering Multi-Agent Football with Curriculum Learning and Self-Play
Fanqi Lin*, Shiyu Huang*, Tim Pearce, Wenze Chen and Wei-Wei Tu
The 22nd International Conference on Autonomous Agents and Multiagent Systems(AAMAS), London, UK, 2023
Learning Graph-Enhanced Commander-Executor for Multi-Agent Navigation
Xinyi Yang, Shiyu Huang, Yiwen Sun, Yuxiang Yang, Chao Yu, Wei-Wei Tu, Huazhong Yang and Yu Wang
The 22nd International Conference on Autonomous Agents and Multiagent Systems(AAMAS), London, UK, 2023
DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization
Wenze Chen, Shiyu Huang, Yuan Chiang, Ting Chen, Jun Zhu
The 22nd International Conference on Autonomous Agents and Multiagent Systems(AAMAS) Extended Abstract, London, UK, 2023
VMAPD: Generate Diverse Solutions for Multi-Agent Games with Recurrent Trajectory Discriminators
Shiyu Huang*, Chao Yu*, Bin Wang, Dong Li, Yu Wang, Ting Chen and Jun Zhu
IEEE Conference on Games(COG)(Best Paper Nomination), Beijing, China, 2022
Ranking Cost: Building An Efficient and Scalable Circuit Routing Planner with Evolution-Based Optimization
Shiyu Huang, Bin Wang, Dong Li, Jianye Hao, Ting Chen and Jun Zhu
IJCAI-ECAI 2022 Workshop: The 2nd International Workshop on Heuristic Search in Industry, Vienna, Austria, 2022
TiKick: Towards Playing Multi-agent Football Full Games from Single-agent Demonstrations
Shiyu Huang*, Wenze Chen*, Longfei Zhang, Shizhen Xu, Ziyang Li, Fengming Zhu, Deheng Ye, Ting Chen and Jun Zhu
NeurIPS-21 Workshop: 2nd Offline Reinforcement Learning Workshop
Deep Reinforcement Learning with Credit Assignment for Combinatorial Optimization
Dong Yan, Jiayi Weng, Shiyu Huang, Chongxuan Li, Yichi Zhou, Hang Su, Jun Zhu
Pattern Recognition, 2021
Off-Policy Training for Truncated TD(λ) Boosted Soft Actor-Critic
Shiyu Huang, Bin Wang, Hang Su, Dong Li, Jianye Hao, Jun Zhu, Ting Chen
The 18th Pacific Rim International Conference on Artificial Intelligence(PRICAI), Hanoi, Vietnam, 2021
SVQN: Sequential Variational Soft Q-Learning Networks
Shiyu Huang, Hang Su, Jun Zhu, and Ting Chen
Eighth International Conference on Learning Representations (ICLR), Millennium Hall, Addis Ababa ETHIOPIA, 2020
Combo-Action: Training Agent For FPS Game with Auxiliary Tasks (Spotlight)
Shiyu Huang, Hang Su, Jun Zhu, and Ting Chen
The Thirty-Third AAAI Conference on Artificial Intelligence (AAAI), Honolulu, Hawaii, USA, 2019
Expecting the Unexpected: Training Detectors for Unusual Pedestrians with Adversarial Imposters
Shiyu Huang, and Deva Ramanan
IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, Hawaii, USA, 2017
Learning to Assign Credit in Reinforcement Learning by Incorporating Abstract Relations
Dong Yan, Shiyu Huang, Hang Su, and Jun Zhu
AAAI-19 Workshop on Reinforcement Learning in Games
Model-based Credit Assignment for Model-free Deep Reinforcement Learning
Dong Yan, Jiayi Weng, Shiyu Huang, Chongxuan Li, Yichi Zhou, Hang Su, Jun Zhu

Talks

RLHF @ Zhiyuan Community, 2023.8 [slide]
OpenRL @ 5th BAAI Conference, 2023.6 [video]

Projects

Patents

Generation method, device, medium and computing device of diversity strategy. Shiyu Huang, Tian Tian. 2021116684627
Method or equipment for controlling agent. Jun Zhu, Shiyu Huang, Hang Su. ZL201910078546.1

Honors & Awards

Tung OOCL Scholarship, Tsinghua University, 2019
Tsinghua Excellent Graduates, Tsinghua University, 2017
Academic Excellence Award, Tsinghua University, 2014-2016

Competitions

2022.8
IEEE CoG 2022 Football AI Competition:
Track2, 3rd place
2018.8
ViZDoom 2018 AI Competition:
Track1, 1st place
Track2, 2nd place
2017
ViZDoom 2017 AI Competition:
Track2, 2nd place

Services

Organizer for:
NeurIPS 2023 Workshop on New in ML

Reviewer for:
AAAI 2025, NeurIPS 2024, ICML 2024, ICLR 2024, AAAI 2024, NeurIPS 2023, AISTATS 2023, AAAI 2023, ICLR 2023, NeurIPS 2022, ICML 2022, AISTATS 2022, AAAI 2022, ICLR 2022, NeurIPS 2021, ICML 2021, AAAI 2021, NeurIPS 2020

Teaching

2020 Spring, TA in Big Data and Machine Intelligence, instructed by Zhen Chen
2019 Fall, TA in Big Data and Machine Intelligence, instructed by Zhen Chen
2019 Spring, TA in Machine Learning, instructed by Prof. Jun Zhu