第514章 用steamdeck安裝AI大模型的體驗,gpt4all(第1/2 頁)
看到這個標題,你可能會覺得是噱頭。誰不知道 chatGpt 模型有 1750 億以上的引數,別說是在膝上型電腦上跑,就是使用高效能 GpU 的桌上型電腦,也無法帶得動啊。老老實實呼叫 ApI 不好嗎?其實,LLm(大語言模型)有非常寬泛的引數量範圍。咱們今天介紹的這個模型 Gpt4All 只有 70 億引數,在 LLm 裡面現在算是妥妥的小巧玲瓏。不過看這個名字你也能發現,它確實是野心勃勃,照著 chatGpt 的效能去對標的。Gpt4All 基於 meta 的 LLama 模型訓練。你可能立即覺得不對,你這跟 Gpt 有啥關係?為什麼要無端蹭熱度?且慢,Gpt4All 確實和 chatGpt 有關 —— 它用來微調的訓練資料,正是呼叫 chatGpt 產生的大量問答內容。我怕你對技術細節不感興趣,因此只用下面這張圖來說明 Gpt4All 的訓練過程。??Gpt4All 其實就是非常典型的蒸餾(distill)模型 —— 想要模型儘量靠近大模型的效能,又要引數足夠少。聽起來很貪心,是吧?據開發者自己說,Gpt4All 雖小,卻在某些任務型別上可以和 chatGpt 相媲美。但是,咱們不能只聽開發者的一面之辭。還是試試看比較好,你說是吧?深度神經網路由多個層組成。每一層包含處理輸入資料並透過非線性啟用函式(Sigmoid 或 ReLU)傳遞給其他層的神經元。每一層的輸出會傳遞給另一層,在傳遞給下一層進行進一步處理之前,這一層會對這個中間表示進行某種操作。 這個架構可以分為兩個主要部分:輸入層和輸出層。 輸入層 - 這表示一組輸入,這些輸入被送入人工神經網路(ANN)作為訓練資料或測試資料,然後由深度學習演算法使用,以根據歷史資訊(例如過去的交易等)預測未來事件 \/ 結果,這一過程使用輸入層及其相關權重。 輸出層 - 這表示一組輸出,這些輸出在經過人工神經網路內部的各個層(例如卷積神經網路、迴圈神經網路或長短時記憶網路)處理後被送回到 ANN 中,然後由深度學習演算法使用,以根據歷史資訊(例如過去的交易等)預測未來事件 \/ 結果,這一過程使用輸出層及其相關權重。 深度學習模型的架構可能會因各種因素而有所不同,例如資料型別、特徵數量、目標變數或正在解決的分類問題。transformer 是一類深度學習架構,在自然語言處理(NLp)和其他領域中已變得非常流行,這歸功於它們強大的效能和可擴充套件性。transformer 首次在 Vaswani 等人於 2017 年發表的論文 \"Attention is All You Need\" 中被介紹。transformer 基於自注意力機制,這使它們能夠捕獲長距離依賴關係並在序列中建模複雜的模式。自注意力機制:transformer 的核心是自注意力機制,它允許模型衡量每個輸入標記與序列中每個其他標記的關係的重要性。這是透過使用三個可學習的向量實現的,分別稱為查詢向量(q)、鍵向量(K)和值向量(V)。自注意力機制計算每對標記之間的注意力分數,然後用於生成值向量的加權和。多頭注意力:transformer 使用多頭注意力來捕捉輸入序列的不同方面。多頭注意力層中的每個 \"頭\" 都獨立執行自注意力,並生成自己的輸出。這些輸出然後被連線併線性轉換以建立多頭注意力層的最終輸出。看到這裡,你可能已經怒了 —— 有這麼比的嗎?!你拿一個如此精緻的小模型 Gpt4All(70b)跟 Gpt-4 這樣的大怪物去比。Gpt-4 勝之不武,我為 Gpt4All 鳴不平!且慢惱怒,我想表達的意思是這樣的:如果一個模型真的能達到蒸