Visuo-Tactile Zero-Shot Object Recognition with Vision-Language Model

Ueda, Shiori; Hashimoto, Atsushi; Hamaya, Masashi; Tanaka, Kazutoshi; Saito, Hideo

Computer Science > Robotics

arXiv:2409.09276 (cs)

[Submitted on 14 Sep 2024]

Title:Visuo-Tactile Zero-Shot Object Recognition with Vision-Language Model

Authors:Shiori Ueda, Atsushi Hashimoto, Masashi Hamaya, Kazutoshi Tanaka, Hideo Saito

View PDF HTML (experimental)

Abstract:Tactile perception is vital, especially when distinguishing visually similar objects. We propose an approach to incorporate tactile data into a Vision-Language Model (VLM) for visuo-tactile zero-shot object recognition. Our approach leverages the zero-shot capability of VLMs to infer tactile properties from the names of tactilely similar objects. The proposed method translates tactile data into a textual description solely by annotating object names for each tactile sequence during training, making it adaptable to various contexts with low training costs. The proposed method was evaluated on the FoodReplica and Cube datasets, demonstrating its effectiveness in recognizing objects that are difficult to distinguish by vision alone.

Comments:	9 pages, 9 figures, accepted to IROS2024, project page: this https URL
Subjects:	Robotics (cs.RO)
Cite as:	arXiv:2409.09276 [cs.RO]
	(or arXiv:2409.09276v1 [cs.RO] for this version)
	https://doi.org/10.48550/arXiv.2409.09276

Submission history

From: Shiori Ueda [view email]
[v1] Sat, 14 Sep 2024 03:00:51 UTC (3,785 KB)

Full-text links:

Access Paper:

view license

Current browse context:

cs.RO

< prev | next >

new | recent | 2024-09

Change to browse by:

References & Citations

export BibTeX citation

Computer Science > Robotics

Title:Visuo-Tactile Zero-Shot Object Recognition with Vision-Language Model

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Robotics

Title:Visuo-Tactile Zero-Shot Object Recognition with Vision-Language Model

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators