Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models

Please cite with the following BibTeX:

@article{caffagni2025seeing, title={{Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models}}, author={Caffagni, Davide and Sarto, Sara and Cornia, Marcella and Baraldi, Lorenzo and Dovesi, Pier Luigi and Roohi, Shaghayegh and Granroth-Wilding, Mark and Cucchiara, Rita}, journal={arXiv preprint arXiv:2512.15885}, year={2025} }

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
assets		assets
cambrian		cambrian
deepspeed		deepspeed
scripts		scripts
src		src
.gitignore		.gitignore
README.md		README.md
requirements_amd.txt		requirements_amd.txt
requirements_nvidia.txt		requirements_nvidia.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages