MAGUS

2026

	Learning Frequency and Memory-aware Prompts for Multi-modal Object Tracking Boyue Xu, Ruichao Hou, Tongwei Ren, Dongming Zhou, Gangshan Wu, and Jinde Cao. Pattern Recognition (PR), 2026. [paper]
	STIFormer: RGB-T Tracking via Spatial-Temporal Interaction Transformer Boyue Xu, Yaqun Fang, Ruichao Hou, and Tongwei Ren. Image and Vision Computing (IVC), 2026. [paper]
	Cross-View and Cross-Modal Contrastive Learning for Radar Object DetectionQiaolong Qian, Yi Shi, Ruichao Hou, Haoyu Qin, and Gangshan Wu. IEEE Signal Processing Letters (SPL), 2026, 33:594 - 598. [paper]
	Relationship Representation Diversity Enhancement for Scene Graph Generation Yunqing He, Ruichao Hou, Jia Bei, and Tongwei Ren. Computational Visual Media Journal (CVMJ), 2026. [paper]

2025

Ruichao Hou, Xingyuan Li, Tongwei Ren, Dongming Zhou, Gangshan Wu and Jinde Cao. HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection. IEEE Transactions on Circuits and Systems for Video Technology (TCSVT), 2025. [paper]
Beibei Zhang, Yanan Lu, Ruobing Xie, Zongyi Li, Siyuan Xing, Tongwei Ren, and Fen Lin. Harnessing Multimodal Large Language Models for Personalized Product Search with Query-aware Refinement. Proceedings of ACM International Conference on Multimedia (MM'25), Dublin, Ireland, 2025. [paper]
Yi Xu, Ruichao Hou, Ziheng Qi, and Tongwei Ren. Mamba4SOD: RGB‐T Salient Object Detection UsingMamba‐Based Fusion Module. IET Computer Vision (IETCV), 2025, 19 (1), e70033. [paper]
Xingyuan Li, Ruichao Hou, Tongwei Ren, and Gangshan Wu. KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'25), Nantes, France, 2025. [paper]
Fan Yu, Beibei Zhang, Tongwei Ren, Jiale Liu, Gangshan Wu, and Jinhui Tang. Group Visual Relation Detection. IEEE Transactions on Image Processing (TIP), 2025, 34:1645-1659. [paper]
Beibei Zhang, Tongwei Ren, and Gangshan Wu. Text-Guided Nonverbal Enhancement based on Modality-Invariant and -Specific Representations for Video Speaking Style Recognition. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI'25), Philadelphia, USA, 2025. [paper] [poster]

2024

Yaqun Fang, Yi Shi, Jia Bei and Tongwei Ren. Semantic-guided RGB-thermal crowd counting with segment anything model. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'24), Phuket, Thailand, 2024. [paper] [slide]
Boyue Xu, Ruichao Hou, Tongwei Ren and Gangshan Wu. RGB-D video object segmentation via enhanced multi-store feature memory. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'24), Phuket, Thailand, 2024. [paper] [poster]
Fan Yu, Beibei Zhang, Yaqun Fang, Jia Bei, Tongwei Ren, Jiyi Li and Luca Rossetto. Reproducibility companion paper of “MMSF: a multimodal sentiment-fused method to recognize video speaking style”. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'24-Repro), Phuket, Thailand, 2024. [paper] [code]
Boyue Xu, Ruichao Hou, Jia Bei, Tongwei Ren, and Gangshan Wu. Jointly modeling association and motion cues for robust infrared UAV tracking. The Visual Computer, 2024. (extended from ChinaMM 2023 paper) [paper] [poster]
Fan Yu, Yaqun Fang, Zhixiang Zhao, Jia Bei, Tongwei Ren, and Gangshan Wu. CAGNet: a context-aware graph neural network for detecting social relationship in videos. Visual Intelligence, 2024, 2(22). (extended from ChinaMM 2023 paper) [paper] [poster]
Zongxing Ji, Jia Bei, Renze Liu, and Tongwei Ren. Dual-channel vision transformer based image style transfer. Journal of Beijing University of Aeronautics and Astronautics, 2024. (in Chinese) [paper] [poster]

2023

Boyue Xu, Yi Xu, Ruichao Hou, Jia Bei, Tongwei Ren, and Gangshan Wu. RGB-D tracking via hierarchical modality aggregation and distribution network. Proceedings of ACM International Conference on Multimedia in Asia (MMAsia'23), Tainan, China, 2023. [paper] [poster]
Yaqun Fang, Ruichao Hou, Jia Bei, Tongwei Ren, and Gangshan Wu. ADNet: an asymmetric dual-stream network for RGB-T salient object detection. Proceedings of ACM International Conference on Multimedia in Asia (MMAsia'23), Tainan, China, 2023. [paper] [slide]
Fan Yu, Huanyu Xing, Jia Bei, and Tongwei Ren. Easy Travelogue: a travelogue editor with automatic image recommendation and insertion. Proceedings of ACM International Conference on Multimedia in Asia Demo (MMAsia'23-D), Tainan, China, 2023. [paper] [demo]
Runze Liu, Yaqun Fang, Fan Yu, Ruiqi Tian, Tongwei Ren, and Gangshan Wu. Deep video understanding with video-language model. Proceedings of ACM International Conference on Multimedia Grand Challenge (MM'23-GC), Ottawa, Canada, 2023.(MM 2023 DVU Challenge Track Champion/Runner-Up) [paper] [slide]
Beibei Zhang, Yaqun Fang, Fan Yu, Jia Bei, and Tongwei Ren. MMSF: a multimodal sentiment-fused method to recognize video speaking style. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'23), Thessaloniki, Greece, 2023. [paper] [poster] [slide] [code]
Ruichao Hou, Boyue Xu, Tongwei Ren, and Gangshan Wu. MTNet: learning modality-aware representation with transformer for RGBT tracking. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'23), Brisbane, Australia, 2023. [paper] [slide]

2022

Yunqing He, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Heterogeneous learning for scene graph generation. Proceedings of ACM International Conference on Multimedia (MM'22), Lisbon, Portugal, 2022. [paper] [poster] [slide]
Fan Yu, Zhixiang Zhao, Yuchen Wang, Yi Xu, Tongwei Ren, and Gangshan Wu. Human-centric spatio-temporal video grounding via the combination of mutual matching network and TubeDETR. Proceedings of ACM International Conference on Multimedia Workshop (MM'22-W), Lisbon, Portugal, 2022.(MM 2022 PIC Challenge Track 3rd Place) [paper] [slide]

Beibei Zhang, Yaqun Fang, Tongwei Ren, and Gangshan Wu. Multimodal analysis for deep video understanding with video language transformer. Proceedings of ACM International Conference on Multimedia Grand Challenge (MM'22-GC), Lisbon, Portugal, 2022.(MM 2022 DVU Challenge Track Champion/Third Runner-up) [paper] [slide]

Yunqing He, Xu Sun, Hui Jiang, Tongwei Ren, and Gangshan Wu, Maria Sinziiana Astefanoaei, and Andreas Leibetseder. Reproducibility companion paper: human object interaction detection via multi-level conditioned network. Proceedings of ACM International Conference on Multimedia Retrieval Reproducibility Companion Papers (ICMR'22-Repro), Newark, USA, 2022. [paper] [code]

Ruichao Hou, Tongwei Ren, and Gangshan Wu. MIRNet: a robust RGBT tracking jointly with multi-modal interaction and refinement. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'22), Taipei, China, 2022. [paper] [slide]

2021

Beibei Zhang, Fan Yu, Yaqun Fang, Tongwei Ren, and Gangshan Wu. Hybrid improvements in multimodal analysis for deep video understanding. Proceedings of ACM International Conference on Multimedia in Asia Grand Challenge (MMAsia'21-GC), Gold Coast, Australia, 2021. [paper] [poster] [slide]

Beibei Zhang, Fan Yu, Yanxin Gao, Tongwei Ren, and Gangshan Wu. Joint learning for relationship and interaction analysis in video with multimodal feature fusion. Proceedings of ACM International Conference on Multimedia Grand Challenge (MM'21-GC), Chengdu, China, 2021. [paper] [slide]

Fan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu, Jingjing Chen, and Zhenzhong Kuang. Reproducibility companion paper: visual relation of interest detection. Proceedings of ACM International Conference on Multimedia Reproducibility Companion Papers (MM'21-Repro), Chengdu, China, 2021. [paper] [poster] [code] [dataset]

Xu Sun, Yunqing He, Tongwei Ren, and Gangshan Wu. Spatial-temporal human-object interaction detection. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'21), Virtual, 2021. [paper]

Xingyu Liu, Zongxing Ji, Piao Huang, and Tongwei Ren. Real-time arbitrary video style transfer. Proceedings of ACM International Conference on Multimedia Asia (MMAsia'20), Singapore, 2021.(Best Paper Candidate) [paper]

Yuqi Gao, Jitao Sang, Chengpeng Fu, Zhengjia Wang, Tongwei Ren, and Changsheng Xu. Metadata connector: exploiting hashtag and tag for cross-OSN event search. IEEE Transactions on Multimedia (TMM), 2021, 23: 510-523. [paper]

Before 2021

Fan Yu, Dandan Wang, Beibei Zhang, and Tongwei Ren. Deep relationship analysis in video with multimodal feature fusion. Proceedings of ACM International Conference on Multimedia Grand Challenge (MM'20-GC), Seattle, USA, 2020.(Champion of MM 2020 DVU Challenge) [paper] [poster] [slide]

Fan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Visual relation of interest detection. Proceedings of ACM International Conference on Multimedia (MM'20), Seattle, USA, 2020. [paper] [poster] [code] [dataset]

Fan Yu, Dandan Wang, Haonan Wang, Tongwei Ren, Jinhui Tang, Gangshan Wu, Jingjing Chen, and Michael Riegler. Reproducibility companion paper: instance of interest detection. Proceedings of ACM International Conference on Multimedia Reproducibility Companion Papers (MM'20-Repro), Seattle, USA, 2020. [paper] [slide] [code] [dataset]

Xu Sun, Xinwen Hu, Tongwei Ren, and Gangshan Wu. Human object interaction detection via multi-level conditioned network. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'20), Dublin, Ireland, 2020.(Best Paper Candidate) [paper] [code]

Sheng-hua Zhong, Yuantian Wang, Tongwei Ren, Mingjie Zheng, Yan Liu, and Gangshan Wu. Steganographer detection via multi-scale embedding probability estimation. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2019, 15(4): 1-23. [paper]

Xu Sun, Yuan Zi, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Hierarchical visual relationship detection. Proceedings of ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper] [poster] [slide]

Fan Yu, Haonan Wang, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Instance of interest detection. Proceedings of ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper] [poster] [slide] [code] [dataset]

Xin Tan, Chun Tao, Tongwei Ren, Jinhui Tang, and Gangshan Wu. Crowd counting via multi-layer regression. Proceedings of ACM International Conference on Multimedia (MM'19), Nice, France, 2019. [paper] [poster] [slide]

Tongwei Ren, and Ao Zhang. RGB-D salient object detection: a review. Chapter of book "RGB-D image analysis and processing", edited by Paul Rosin, Yu-Kun Lai, Ling Shao, and Yonghuai Liu, 2019. [paper]

Xu Sun, Tongwei Ren, Yuan Zi, and Gangshan Wu. Video visual relation detection via multi-modal feature fusion. Proceedings of ACM International Conference on Multimedia Grand Challenge (MM'19-GC), Nice, France, 2019.(Champion of MM 2019 VRU Challenge) [paper] [poster]

Wenhui Li, Anan Liu, Weizhi Nie, Dan Song, Yuqian Li, Weijie Wang, Shu Xiang, Heyu Zhou, Ngoc-Minh Bui, Yunchi Cen, Zenian Chen, Huy-Hoang Chung-Nguyen, Gia-Han Diep, Trong-Le Do, Eugeni L. Doubrovski, Anh-Duc Duong, Jo M. P. Geraedts, Haobin Guo, Trung-Hieu Hoang, Yichen Li, Xing Liu, Zishun Liu, Duc-Tuan Luu, Yunsheng Ma, Vinh-Tiep Nguyen, Jie Nie, Tongwei Ren, Mai-Khiem Tran, Son-Thanh Tran-Nguyen, Minh-Triet Tran, The-Anh Vu-Le, Charlie C. L. Wang, Shijie Wang, Gangshan Wu, Caifei Yang, Meng Yuan, Hao Zhai, Ao Zhang, Fan Zhang, and Sicheng Zhao. Monocular image based 3D model retrieval. Eurographics Workshop on 3D Object Retrieval (EGW'19-3DOR), Genoa, Italy, 2019. (Tied for Second Place in EG 2019 MI3DOR Challenge) [paper]

Yuantian Wang, Lei Huang, Tongwei Ren, Sheng-Hua Zhong, Han Gu, and Yan Liu. Insights of object proposal evaluation. Multimedia Tools and Applications (MTAP), 2019, 78(10):13111-13130.(extended from ChinaMM 2017 paper) [paper] [poster]

Jingfan Guo, Tongwei Ren, Lei Huang, and Jia Bei. Saliency detection on sampled images for tag ranking. Multimedia Systems (MMSJ), 2019, 25(1):35-47. [paper]

Fan Yu, Xin Tan, Tongwei Ren, and Gangshan Wu. Human-centric visual relation segmentation using Mask R-CNN and VTransE. Proceedings of European Conference on Computer Vision Workshops (ECCV'18-W), Munich, Germany, 2018.(Champion of ECCV 2018 PIC Challenge) [paper] [slide]

Xu Sun, Yuantian Wang, Tongwei Ren, Zhi Liu, Zheng-Jun Zha, and Gangshan Wu. Object trajectory proposal via hierarchical volume grouping. Proceedings of ACM International Conference on Multimedia Retrieval (ICMR'18), Yokohama, Japan, 2018. [paper]

Xingyu Liu, Jingfan Guo, Tongwei Ren, Yahong Han, Lei Huang, and Gangshan Wu. HeterStyle: a heterogeneous video style transfer application. ACM International Conference on Multimedia Demo (MM'18-D), Seoul, Korea, 2018. [paper]

Yuantian Wang, Tongwei Ren, Sheng-Hua Zhong, Yan Liu, and Gangshan Wu. Adaptive saliency cuts. Multimedia Tools and Applications (MTAP), 77(17), 22213-22230, 2018. [paper]

Yuqi Gao, Jitao Sang, Tongwei Ren, and Changsheng Xu. Hashtag-centric immersive search on social media. Proceedings of ACM International Conference on Multimedia (MM'17), Mountain View, USA, 2017. [paper] [slide]

Xindi Shang, Tongwei Ren, Jingfan Guo, Hanwang Zhang, and Tat-Seng Chua. Video visual relation detection. Proceedings of ACM International Conference on Multimedia (MM'17), Mountain View, USA, 2017. [paper] [poster] [homepage]

Jingfan Guo, Tongwei Ren, Lei Huang, Xingyu Liu, Ming-Ming Cheng, and Gangshan Wu. Video salient object detection via cross-frame cellular automata. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'17), Hong Kong, China, 2017. [paper] [poster]

Jing Liu, Tongwei Ren, Yuantian Wang, Sheng-Hua Zhong, Jia Bei, and Shengchao Chen. Object proposal on RGB-D images via elastic edge boxes. Neurocomputing (NEUCOM), 2017, 236:134-146. [paper]

Yuantian Wang, Lei Huang, Tongwei Ren, Sheng-Hua Zhong, Yan Liu, and Gangshan Wu. Object proposal via depth connectivity constrained grouping. Proceedings of Pacific Rim Conference on Multimedia (PCM'17), Harbin, China, 2017. [paper]

Yuantian Wang, Lei Huang, Tongwei Ren, and Yunfei Zhang. Saliency cuts on RGB-D images. Proceedings of International Conference on Internet Multimedia Computing and Service (ICIMCS'17), Tsingtao, China, 2017. [paper]

Jingfan Guo, Tongwei Ren, and Jia Bei. Salient object detection for RGB-D image via saliency evolution. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'16), Seattle, USA, 2016. [paper] [poster] [slide]

Jing Liu, Tongwei Ren, Bing-Kun Bao, and Jia Bei. Depth-aware layered edge for object proposal. Proceedings of IEEE International Conference on Multimedia and Expo (ICME'16), Seattle, USA, 2016. [paper] [poster]

Jing Liu, Tongwei Ren, and Jia Bei. Elastic edge boxes for object proposal on RGB-D images. Proceedings of International Conference on Multimedia Modeling (MMM'16), Miami, USA, 2016, 199-211. [paper] [slide]

Yuqi Gao, Jingfan Guo, Tongwei Ren, and Jia Bei. Personal photo enhancement via saliency driven color transfer. Proceedings of International Conference on Internet Multimedia Computing and Service (ICIMCS'16), Xi'an, China, 2016. [paper]

Tongwei Ren, Zhongyan Qiu, Yan Liu, Tong Yu, and Jia Bei. Soft-assigned bag of features for object tracking. Multimedia Systems (MMSJ), 2015, 21(2):189-205. [paper]

Jingfan Guo, Tongwei Ren, Jia Bei, and Yujin Zhu. Salient object detection in RGB-D image based on saliency fusion and propagation. Proceedings of International Conference on Internet Multimedia Computing and Service (ICIMCS'15), Zhangjiajie, China, 2015. [paper]