Multimodal Media

Cross-modal image, text, audio, video, and 3D tasks where input and output span multiple media types.

14 tasks5 datasets

Explore All Results

Tasks in Multimodal Media

Visual Question Answering

Answering questions about images.

3 datasets

View →

Image Captioning

Generating textual descriptions of images.

2 datasets

View →

Image-Text Retrieval

Retrieving matching images or text across modalities.

0 datasets

View →

Video Question Answering

Answering questions about video content.

0 datasets

View →

Video Captioning

Generating textual descriptions of videos.

0 datasets

View →

Audio + Text to Text

Using audio and text prompts to produce text responses.

0 datasets

View →

Document VQA

Answering questions over document images.

0 datasets

View →

Text-to-Image

Generating images from text prompts.

0 datasets

View →

Image Editing

Editing images from text or visual instructions.

0 datasets

View →

Text-to-Video

Generating video from text prompts.

0 datasets

View →

Image-to-Video

Animating still images into video.

0 datasets

View →

Text-to-3D

Generating 3D assets from text.

0 datasets

View →

Image-to-3D

Generating 3D assets from images.

0 datasets

View →

Any-to-Any Omni Models

Models that accept and generate multiple modalities.

0 datasets

View →

Explore Other Areas

Language & Knowledge

Language understanding, retrieval, QA, RAG, factuality, information extraction, multilingual evaluation, and knowledge-heavy reasoning.

Vision & Documents

Images, video frames, OCR, layout, tables, document parsing, detection, segmentation, and visual anomaly detection.

Audio & Speech

ASR, TTS, speaker intelligence, music, sound events, audio-language understanding, and audio safety.

Code & Software Engineering

Code generation, completion, repair, repository understanding, tests, vulnerability work, UI code, and mobile app code generation.