ONE-PEACE Multimodal Retrieval

ONE-PEACE is a general representation model across vision, audio, and language modalities. In this demo, you can combine multiple modalities to retrieve related images, such as audio-to-image, audio+text-to-image, audio+image-to-image, and even audio+image+text-to-image

Click HERE for the interactive demo! Have fun!