Relation-Aware Distribution Representation Network for Person Clustering with Multiple Modalities

Liu, Kaijian; Tang, Shixiang; Li, Ziyue; Li, Zhishuai; Bai, Lei; Zhu, Feng; Zhao, Rui

Computer Science > Computer Vision and Pattern Recognition

arXiv:2308.00588 (cs)

[Submitted on 1 Aug 2023]

Title:Relation-Aware Distribution Representation Network for Person Clustering with Multiple Modalities

Authors:Kaijian Liu, Shixiang Tang, Ziyue Li, Zhishuai Li, Lei Bai, Feng Zhu, Rui Zhao

View PDF

Abstract:Person clustering with multi-modal clues, including faces, bodies, and voices, is critical for various tasks, such as movie parsing and identity-based movie editing. Related methods such as multi-view clustering mainly project multi-modal features into a joint feature space. However, multi-modal clue features are usually rather weakly correlated due to the semantic gap from the modality-specific uniqueness. As a result, these methods are not suitable for person clustering. In this paper, we propose a Relation-Aware Distribution representation Network (RAD-Net) to generate a distribution representation for multi-modal clues. The distribution representation of a clue is a vector consisting of the relation between this clue and all other clues from all modalities, thus being modality agnostic and good for person clustering. Accordingly, we introduce a graph-based method to construct distribution representation and employ a cyclic update policy to refine distribution representation progressively. Our method achieves substantial improvements of +6% and +8.2% in F-score on the Video Person-Clustering Dataset (VPCD) and VoxCeleb2 multi-view clustering dataset, respectively. Codes will be released publicly upon acceptance.

Comments:	Accepted in IEEE Transactions on Multimedia
Subjects:	Computer Vision and Pattern Recognition (cs.CV); Multimedia (cs.MM)
Cite as:	arXiv:2308.00588 [cs.CV]
	(or arXiv:2308.00588v1 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2308.00588

Submission history

From: Ziyue Li Dr [view email]
[v1] Tue, 1 Aug 2023 15:04:56 UTC (1,147 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:Relation-Aware Distribution Representation Network for Person Clustering with Multiple Modalities

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:Relation-Aware Distribution Representation Network for Person Clustering with Multiple Modalities

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators