CoDi是一種可組合擴(kuò)散式人工智能模型,可以與多模態(tài)信息交互并生成多模態(tài)內(nèi)容。這種可組合擴(kuò)散模型能夠同時(shí)處理和生成多模態(tài)內(nèi)容,包括文本、圖像、視頻和音頻。此外,它與傳統(tǒng)的生成式人工智能系統(tǒng)不同,傳統(tǒng)的生成式人工智能系統(tǒng)通常僅限于特定的輸入模式。微軟公司還發(fā)布了新的“世界-2”模型,將多模態(tài)大語言模型提升到了前所未有的高度。“世界-2”大模型功能強(qiáng)大,超越了傳統(tǒng)的文本式交互,擴(kuò)展到了圖像層分析和語義級(jí)解析領(lǐng)域,進(jìn)一步推進(jìn)了當(dāng)前技術(shù)發(fā)展。