TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models

Margeloiu, Andrei; Jiang, Xiangjian; Simidjievski, Nikola; Jamnik, Mateja

Computer Science > Machine Learning

arXiv:2409.16118 (cs)

[Submitted on 24 Sep 2024 (v1), last revised 6 Nov 2024 (this version, v3)]

Title:TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models

Authors:Andrei Margeloiu, Xiangjian Jiang, Nikola Simidjievski, Mateja Jamnik

View PDF HTML (experimental)

Abstract:Data collection is often difficult in critical fields such as medicine, physics, and chemistry. As a result, classification methods usually perform poorly with these small datasets, leading to weak predictive performance. Increasing the training set with additional synthetic data, similar to data augmentation in images, is commonly believed to improve downstream classification performance. However, current tabular generative methods that learn either the joint distribution $ p(\mathbf{x}, y) $ or the class-conditional distribution $ p(\mathbf{x} \mid y) $ often overfit on small datasets, resulting in poor-quality synthetic data, usually worsening classification performance compared to using real data alone. To solve these challenges, we introduce TabEBM, a novel class-conditional generative method using Energy-Based Models (EBMs). Unlike existing methods that use a shared model to approximate all class-conditional densities, our key innovation is to create distinct EBM generative models for each class, each modelling its class-specific data distribution individually. This approach creates robust energy landscapes, even in ambiguous class distributions. Our experiments show that TabEBM generates synthetic data with higher quality and better statistical fidelity than existing methods. When used for data augmentation, our synthetic data consistently improves the classification performance across diverse datasets of various sizes, especially small ones. Code is available at this https URL.

Comments:	Accepted by the Thirty-Eighth Annual Conference on Neural Information Processing Systems (NeurIPS 2024)
Subjects:	Machine Learning (cs.LG)
Cite as:	arXiv:2409.16118 [cs.LG]
	(or arXiv:2409.16118v3 [cs.LG] for this version)
	https://doi.org/10.48550/arXiv.2409.16118

Submission history

From: Xiangjian Jiang [view email]
[v1] Tue, 24 Sep 2024 14:25:59 UTC (5,428 KB)
[v2] Mon, 28 Oct 2024 10:12:11 UTC (6,415 KB)
[v3] Wed, 6 Nov 2024 14:34:16 UTC (6,415 KB)

Computer Science > Machine Learning

Title:TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Machine Learning

Title:TabEBM: A Tabular Data Augmentation Method with Distinct Class-Specific Energy-Based Models

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators