English Contrastive Learning Can Learn Universal Cross-lingual Sentence Embeddings

November 11, 2022 · Entered Twilight · 🏛 Conference on Empirical Methods in Natural Language Processing

Repo contents: LICENSE, README.md, SentEval, data, eval.sh, eval, merge_multi_lingual.py, requirements.txt, results, simcse, train.py, train_cross.sh, train_english.sh

Authors Yau-Shian Wang, Ashley Wu, Graham Neubig arXiv ID 2211.06127 Category cs.CL: Computation & Language Cross-listed cs.AI Citations 43 Venue Conference on Empirical Methods in Natural Language Processing Repository https://github.com/yaushian/mSimCSE ⭐ 33 Last Checked 2 months ago

Abstract

Universal cross-lingual sentence embeddings map semantically similar cross-lingual sentences into a shared embedding space. Aligning cross-lingual sentence embeddings usually requires supervised cross-lingual parallel sentences. In this work, we propose mSimCSE, which extends SimCSE to multilingual settings and reveal that contrastive learning on English data can surprisingly learn high-quality universal cross-lingual sentence embeddings without any parallel data. In unsupervised and weakly supervised settings, mSimCSE significantly improves previous sentence embedding methods on cross-lingual retrieval and multilingual STS tasks. The performance of unsupervised mSimCSE is comparable to fully supervised methods in retrieving low-resource languages and multilingual STS. The performance can be further enhanced when cross-lingual NLI data is available. Our code is publicly available at https://github.com/yaushian/mSimCSE.