<rp id="kkh4u"></rp>
  • <dd id="kkh4u"></dd>

    <rp id="kkh4u"></rp>
  • <strong id="kkh4u"><sub id="kkh4u"></sub></strong>
    <dd id="kkh4u"><center id="kkh4u"></center></dd>
  • <rp id="kkh4u"></rp>
  • <dd id="kkh4u"><center id="kkh4u"></center></dd>

    您好,歡迎進入美譽度品牌管理官網!

    美譽度國際品牌管理

    一站式提供商

    提供設計,生產,安裝,售后服務一條龍服務

    400-021-0821
    公司資訊
    您的位置: 主頁 > 新聞中心 > 公司資訊
    手機能跑!微軟小模型擊敗Llama 2,96塊A100 GPU訓練14天,參數規模僅27億
    發布時間:2024-01-02 11:22瀏覽次數:

    美譽度12月13日報道,昨日晚間,微軟又亮出了小模型大招!

    微軟發布了27億參數規模的小語言模型Phi-2,經研究人員測試,Phi-2在參數規模小于130億的模型中展示了最先進性能。

    從性能表現看,Phi-2在Big Bench Hard(BBH)、常識推理、語言理解、數學和編碼基準測試中,其平均性能得分已經超過70億、130億參數規模的Mistral和Llama 2,在部分基準測試中超過谷歌的Gemini Nano 2。

    Phi-2還有一大優勢是,因為參數規模足夠小,其可以在筆記本電腦、手機等移動設備上運行。

    過去幾個月間,微軟研究院的機器學習基礎團隊陸續發布了小型語言模型(SLM)Phi系列。

    其中,第一個模型為13億參數規模的Phi-1,官方博客稱,Phi-1在SLM中的Python編碼方面表現最好,在HumanEval和MBPP基準測試上尤甚。第二個模型為13億參數規模的Phi-1.5,這個模型的重點為常識推理和語言理解能力。

    現在微軟發布的Phi-2能為研究人員探索機器可解釋性、安全性改進或對各種任務的微調實驗上提供幫助,目前,Phi-2已經從Azure AI Studio模型目錄中開放給研究人員。

    一、96塊A100 GPU訓練14天,參數規模僅27億

    一些大模型的參數規模達到數千億的量級,使得其涌現出眾多新興能力,那么,是否可以通過改變訓練策略等方式讓更小的參數實現這些能力?微軟的小型語言模型(SLM)系列或許是這一問題的答案。

    Phi-2是一個基于Transformer架構的模型,具有下一個單詞預測目標,在用于NLP和編碼的合成數據集和Web數據集的混合上多次傳遞的1.4T tokens上進行訓練。

    Phi-2在96個A100 GPU上訓練了14天,作為一個基礎模型,其沒有通過人類反饋強化學習(RLHF)進行對齊,也沒有進行指令微調。

    盡管如此,與經過調整的現有開源模型Llama 2-7B相比,研究人員觀察到在避免生成有攻擊性、有害和內容有偏差方面Phi-2的表現也不差。

    研究人員根據ToxiGen的13個人口統計數據計算的安全評分,他們選擇6541個句子的子集,并根據困惑度和句子“毒性”進行0到1之間的評分。分數高就說明,模型產生有攻擊性、有害句子的可能性較小。

    ▲Llama 2與Phi-2在生成有攻擊性、有害和內容有偏差方面性能比較(圖源:微軟官方博客)

    微軟使用Phi-2打破了傳統語言模型縮放定律,其中有兩個關鍵環節:

    第一是訓練數據的質量對模型的性能至關重要。微軟的模型訓練數據包含專門創建的合成數據集,用于教授模型常識推理,還包括科學、心理等領域的常識。

    研究人員還挑選了一些網絡數據進一步擴充訓練語料庫,并基于內容的價值和質量進行了數據過濾。

    此外,從13億參數規模的Phi-1.5開始,微軟的研究人員實現了規?;闹R轉移,將Phi-1.5的知識嵌入到27億參數的Phi-2中。這種方法不僅加速了訓練收斂,而且提高了Phi-2的基準分數。

    ▲Phi-2和Phi-1.5比較(圖源:微軟官方博客)

    二、基準測試擊敗Llama 2、Mistral、Gemini Nano 2

    微軟總結了Phi-2在學術基準上與主流語言模型的性能表現對比。

    其基準測試涵蓋Big Bench Hard(BBH數據集)以及PIQA、WinoGrande、ARC easy、Challenge、SIQA的常識推理、HellaSwag、OpenBookQA、MMLU、SQuADv2的語言理解數據集,GSM8k數學數據集和HumanEval、MBPP的編碼數據集等。

    27億參數規模的Phi-2,在BBH、常識推理、語言理解、數學、編碼各項基準測評上都超過了70億、130億參數規模的Mistral和Llama 2。

    相比于參數規模差距在25倍的700億參數Llama 2,Phi-2在編碼、數學等多步推理任務上表現更好。

    ▲Llama 2、Mistral、Phi-2性能比較(圖源:微軟官方博客)

    此外,微軟還比較了Phi-2與谷歌最近發布的Gemini Nano 2,谷歌發布的模型參數規模為32.5億,Phi-2的性能表現部分優于Gemini Nano 2。

    ▲Phi-2、Gemini Nano 2性能比較(圖源:微軟官方博客)

    考慮到一些公共基準測試的數據可能會泄漏到訓練數據中,微軟對第一個模型Phi-1進行了廣泛的凈化研究以排除這種可能性。

    基于判斷語言模型的最佳方法是在具體用例上對其進行測試的考量,研究人員使用了多個微軟內部專有數據集和任務評估了Phi-2,并再次將其與Mistral和Llama 2進行比較,其結果為,平均而言Phi 2優于Mistral-7B,后者優于70億、130億、730億參數規模的Llama-2模型。

    除了基準測試外,研究人員還測試了社區內的一些常用提示,他們觀察到的表現也與基準測試的結果預期一致。

    其中,研究人員測試了用于評估谷歌Gemini Ultra模型在解決物理問題方面能力的問題。

    與Gemini的測試類似,研究人員進一步向Phi-2詢問學生的錯誤答案,來確認它是否能識別出錯誤所在。

    不過,從輸出結果來看,這并不完全是與Gemini報告中描述的Gemini Ultra輸出的同類比較,Gemini測評中學生的答案上傳了手寫文本的圖像,Phi-2的測試采用的是原始文本。

    結語:大模型時代,小模型仍在崛起

    Phi-2的參數規模僅有27億,但相比于參數規模更大的70億、130億模型,其性能表現仍不遜色。微軟專注于小模型市場的布局,也印證了大模型時代小模型的價值。

    微軟與OpenAI的緊密合作,使得GPT模型的表現在大模型市場一騎絕塵,再加上微軟參數規模更小的Phi系列,能進一步搶占開源模型長尾市場。不過從目前來看,Phi系列僅被允許用于研究目的。

    從市場來看,越來越多的玩家開始探索在手機等移動設備上部署大模型,微軟此舉或許也會加速模型能力在端側的應用。

    400-021-0821
    www欧美A片com|免费A级毛片高清在钱|黄色网站之在线观看|亚洲视频精品在线