MediumCapability

ChatGPT gains multimodal input/output: vision, audio, and speech

AI Impact Summary

ChatGPT now supports visual input, audio input, and speech output, enabling end-to-end multimodal conversations. This enables new use cases for customer support, accessibility tools, and interactive workflows but introduces media data handling, moderation, and privacy considerations. Operators should anticipate additional UI changes, media ingestion pipelines, and potential increases in latency and compute costs when enabling multimodal interactions.

Affected Systems

ChatGPTOpenAI API

Date: Date not specified
Change type: capability
Severity: medium

ChatGPT gains multimodal input/output: vision, audio, and speech

More from OpenAI

Get alerts for OpenAI