Hi, I am a Ph.D. student at Sato Lab, the University of Tokyo, supervised by Prof. Yoichi Sato. I received my M.E. degree from the School of Artificial Intelligence, Beihang University in 2025, under the guidance of Prof. Xingxing Wei (ROSE Vision Lab), and was a visiting student at Tsinghua University (TSAIL), advised by Prof. Hang Su and A/Prof. Yinpeng Dong. Previously, I received my B.E. degree from the School of Computer Science at Sichuan University in 2022.

Currently, my research centers on vision-language models for human activity understanding and embodied AI. I have also worked on topics such as autonomous driving, trustworthy AI, and generative models.

🔥 News

[August, 2025]: 🎉 One paper has been accepted by TPAMI.
[June, 2025]: 🎉 Two papers have been accepted by ICCV 2025.
[March, 2025]: 🎉 Luckily selected for the Advanced AI Talent Development to Lead the Next-Generation Intelligent Society (BOOST NAIS) Program by Japan Science and Technology Agency (JST).
[July, 2024]: 🎉 One paper have been accepted by ECCV 2024.
[May, 2024]: 🎉 Our team won the second place 🥈 in The Robodrive Challenge, Track 1: Robust BEV Detection, in ICRA 2024.
[May, 2024]: 🎉 Our team won the second place 🥈 in The Robodrive Challenge, Track 5: Robust Multi-Modal BEV Detection, in ICRA 2024.
[February, 2023]: 🎉 One paper has been accepted by CVPR 2023.
[September, 2022]: 🎉 One paper has been accepted by NeurIPS 2022.

📝 Publications

Under Review

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

Shouwei Ruan, Liyuan Wang, Caixin Kang, Qihui Zhu, Songming Liu, Xingxing Wei, Hang Su
Under Review, 2025
Paper | Code (Coming Soon)

TPAMI

Real-world Adversarial Defense against Patch Attacks based on Diffusion Model

Xingxing Wei(advisor), Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Yubo Chen, Hang Su
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025
Paper | Code

Under Review

Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization

Shouwei Ruan, Zhenyu Wu, Yao Huang, Ruochen Zhang, Yitong Sun, Caixin Kang, Xingxing Wei
Under Review, 2025
Paper | Code (Coming Soon)

ICCV 2025

AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?

Shouwei Ruan, Hanqin Liu, Yao Huang, Xiaoqi Wang, Caixin Kang, Hang Su, Yinpeng Dong, Xingxing Wei
Internationl Conference of Computer Vision IEEE/CVF International Conference on Computer Vision (ICCV), 2025
Paper | Code (Coming Soon)

ICCV 2025

Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

Shiji Zhao, Ranjie Duan, Fengxiang Wang, Chi Chen, Caixin Kang, Shouwei Ruan, Jialing Tao, YueFeng Chen, Hui Xue, Xingxing Wei
Internationl Conference of Computer Vision IEEE/CVF International Conference on Computer Vision (ICCV), 2025
Paper | Code (Coming Soon)

Under Review

OODFace: Benchmarking Robustness of Face Recognition under Common Corruptions and Appearance Variations

Caixin Kang, Yubo Chen, Shouwei Ruan, Shiji Zhao, Ruochen Zhang, Jiayi Wang, Shan Fu, Xingxing Wei
Under Review, 2025
Paper | Code (Coming Soon)

ECCV 2024

DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks

Caixin Kang, Yinpeng Dong, Zhengyi Wang, Shouwei Ruan, Hang Su, Xingxing Wei
Internationl Conference of Computer Vision European Conference on Computer Vision (ECCV), 2024
Paper | Code

CVPR 2023

Benchmarking robustness of 3d object detection to common corruptions in autonomous driving

Yinpeng Dong, Caixin Kang, Jinlai Zhang, Zijian Zhu, Yikai Wang, Xiao Yang, Hang Su, Xingxing Wei, Jun Zhu
Internationl Conference of Computer Vision IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023
Paper | Code

NeurIPS 2022

Viewfool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints

Yinpeng Dong, Shouwei Ruan, Hang Su, Caixin Kang, Xingxing Wei, Jun Zhu
Internationl Conference of Computer Vision IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023
Paper | Code

Competitions:

ICRA 2024

The Robodrive Challenge, Track 1: Robust BEV Detection

Our team (Caixin Kang, Xinning Zhou, Chengyang Ying, Wentao Shang, Xingxing Wei, Yinpeng Dong) won the second place 🥈
IEEE International Conference on Robotics and Automation (ICRA), 2024
The Robodrive Challenge

ICRA 2024

💻 Experiences

Visiting Scholar - TSAIL@THU

Tsinghua University
September 2022 - March 2025

Research Intern - RealAI

RealAI
February 2022 - August 2022

Services:

Reviewer: CVPR, ECCV, ICCV, ICLR, AAAI, ACMMM

🏆 Awards

Advanced AI Talent Development to Lead the Next-Generation Intelligent Society (BOOST NAIS), Japan Science and Technology Agency (JST), 2025
Outstanding Graduate of Beihang University, 2025.
National Scholarship, the Ministry of Education of China, 2024.
Hisense Scholarship Recipient, Hisense Group Co., Ltd., 2023.
Outstanding Graduate of Sichuan Province, Provincial Department of Education, 2022.
Zili Zhidong Scholarship, Sichuan University, 2021.

📖 Educations

2025.04 - Present, Ph.D. in Information Science, the University of Tokyo.
2022.09 - 2025.01, M.E. in Artificial Intelligence, Beihang University.
2018.09 - 2022.06, B.E. in Computer Science and Technology, Sichuan University.

Caixin Kang

🔥 News

📝 Publications

From reactive to cognitive: brain-inspired spatial intelligence for embodied agents

Real-world Adversarial Defense against Patch Attacks based on Diffusion Model

Towards NSFW-Free Text-to-Image Generation via Safety-Constraint Direct Preference Optimization

AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?

Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

OODFace: Benchmarking Robustness of Face Recognition under Common Corruptions and Appearance Variations

DIFFender: Diffusion-Based Adversarial Defense against Patch Attacks

Benchmarking robustness of 3d object detection to common corruptions in autonomous driving

Viewfool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints

Competitions:

The Robodrive Challenge, Track 1: Robust BEV Detection

The Robodrive Challenge, Track 5: Robust Multi-Modal BEV Detection

💻 Experiences

Visiting Scholar - TSAIL@THU

Research Intern - RealAI

Services:

🏆 Awards

📖 Educations

🌍 Visiting Map