首頁 > 女生小說 > 股市閒談 > 第24章多模態預訓練大模型成為人工智慧基礎設施。

第24章多模態預訓練大模型成為人工智慧基礎設施。(第1/2 頁)

最新女生小說小說：種藥小仙的現代擺爛日常、反派畫風突變後，男主人設也歪了、殭屍：開局神格面具、鹹魚吃瓜被讀心，全宗門都殺瘋了、星穹鐵道：我生命星神，調教眾生、重回議親前，扶草包夫婿直上青雲、婚姻陰謀、火影：宇智波家的六眼、穿成炮灰後每天都在苟活、絕色毒妃：廢材紈絝九小姐、我不是信徒、開局無限餘額：神秘千金她美又颯、無厘頭社恐的每一天、天命雙生之神妃傳、綜影視：攻略之旅、赫敏和她的傲羅教授、穿成土匪？那就造反當皇帝！、食在大宋：我的系統通山海、山河獻、穿成惡毒郡主，她虐渣打臉還很萌、

多模態預訓練大模型成為人工智慧基礎設施。

人工智慧正在從文字、語音、視覺等單模態智慧，向著多種模態融合的通用人工智慧方向發展。多模態統一建模，目的是增強模型的跨模態語義對齊能力，打通各個模態之間的關係，使得模型逐步標準化。目前，技術上的突出進展來自於 cLIp （匹配影象和文字）和 bEit-3

（通用多模態基礎模型）。基於多領域知識，構建統一的、跨場景、多工的多模態基礎模型已成為人工智慧的重點發展方向。未來大模型作為基礎設施，將實現影象、文字、音訊統一知識表示，並朝著能推理、能回答問題、能總結、做創作的認知智慧方向演進。

基於深度學習的多模態預訓練是認知智慧快速發展的重要推動力。構建多場景、多工的預訓練大模型將加速模型標準化程序，為人工智慧模型成為基礎設施創造條件。深度學習模型

的不斷完善、網際網路海量真實資料的積累和生成式預訓練的廣泛應用，使得人工智慧模型在自然語言理解、語音處理、計算機視覺等領域地交叉應用取得顯著進展。

2022 年，技術上的突出進展來自於 bEit-3 多模態基礎模型，該模型在視覺 - 語言任務處理上具備出色表現，包括視覺問答、圖片描述生成和跨模態檢索等。 bEit-3 透過統一的模型框架和骨幹網路（ backbone ）建模，能夠更加輕鬆地完成多模態編碼和處理不同的下

有任務。另一方面， cLIp （ contrastiveLanguage-Image pre-training ）的廣泛應用也促進了多模態模型的技術發展。cLIp 作為基於對比學習的預訓練模型，負責從文字特徵對映到影象特徵，能夠指導 GAN 或擴散模型（ diffusionmodel ）生成圖像。在文生圖領域，Stable diffusion 也使用了 cLIp ，它能夠透過文字提示調整模型，並藉助擴散模型改善影象質量。與此同時，開源極大的促進了多模態的融合和預訓練模型的發展。透過開源來降低模型使用門檻，將大模型從一種新興的 AI 技術轉變為穩健的基礎設施，已成為許多大模型開發者的共識。

多模態預訓練模型的發展將重塑人工智慧商業模式，併為人們的生產生活方式帶來積極影響。對個人而言，類似cLIp 的多模態模型，將使更多非技術出身的人能夠表達自己的創造力，無需再借助工具和程式設計專業能力。對企業來說，多模態預訓練模型將成為企業生產效率提升的關鍵。商業模式上，具備大資料、算力資源和模型開發能力的科技企業，將會成為模型服務的提供方，幫助企業將基礎模型的能力與生產流程融合起來，實現效率和成本最優。認知智慧的發展，不會侷限在文字或影象等單一的模態上。未來，如何針對不同模態建立更高效的模型架構和統一的骨幹網路，使得大模型能夠廣泛地支援各種下游任務將成為主要挑戰。在此基礎上，更多的挑戰來自於挖掘不同模態（如影象 - 文字，文字 - 自然語言，影片 - 文字）資料間的相關資訊，並巧妙的設計預訓練任務，讓模型更好的捕捉不同模態資訊之間的關聯。

語音、視覺和多模態預訓練模型將加速人工智慧向通用基礎模型方向演進。在這個演進過程中，深度學習與強化學習相互促進發展，融合大量行業知識，模型將具備在不斷變化的環境中快速適應的靈活性。建立統一的、跨場景、多工的多模態基礎模型會成為人工智慧發展的主流趨勢之一。隨著技術的不斷成熟，大模型在開發成本、易用性、開發週期、效能上會更具優勢，給產品化和商業化帶來更多可能性。

注:（免責申明）本文僅為

章節報錯(免登入)

不會撒嬌的狗狗沒人養、佈局/毒汁、惜夢緣斷舍離、平安科舉種田記、和離後，戰王哭唧唧求我復婚、婚約、

第24章 多模態預訓練大模型成為人工智慧基礎設施。(第1/2 頁)

第24章多模態預訓練大模型成為人工智慧基礎設施。(第1/2 頁)