微軟釋出Phi-3.5系列模型:以小博大,再創AI新高峰

【報導】
微軟本周透過Hugging Face平台正式推出了三款全新的Phi-3.5模型,分別是Phi-3.5-mini、Phi-3.5-MoE,以及Phi-3.5-vision。這些模型的推出,標誌著微軟在小型語言模型(SLM)領域的又一次重大進展,特別是Phi-3.5-MoE的推論能力,已經超越了多款參數規模更大的模型,甚至逼近GPT-4o-mini的水準。

Phi系列的發展:從Phi-1到Phi-3.5的演變
Phi系列模型是微軟開發的小型語言模型,旨在最大化AI能力的同時降低資源使用,實現生成式AI的成本效益化部署。最早的Phi-1專注於撰寫Python程式碼,而後續版本則逐步擴展至推論、語言理解等多項任務。Phi-3系列不僅在語言理解和推論上有出色表現,還在程式碼撰寫的基準測試中表現優異。

Phi-3.5-mini:精簡高效的AI模型
Phi-3.5-mini擁有38億個參數,經過3.4兆個Token的訓練,在10天內完成。它支援12.8萬個Token的脈絡長度,在性能上展現了令人驚豔的表現,足以應對多語言處理需求。

Phi-3.5-MoE:推論能力超越規模的混合專家模型
Phi-3.5-MoE是基於混合專家(MoE)架構的模型,內含16個專家,每個專家擁有38億個參數。MoE架構的特點是並非每次都會啟用所有專家,而Phi-3.5-MoE僅啟用兩個專家進行推論。這款模型支援12.8萬個Token的脈絡長度,以4.9兆個Token進行23天的訓練。該模型在多項基準測試中,擊敗了Llama 3.1 8B和Gemini 1.5 Flash,成為此次發佈中的最大亮點。

Phi-3.5-vision:支援多模態輸入的視覺模型
Phi-3.5-vision是此次系列中唯一的多模態模型,擁有42億個參數,內建圖像編碼器、連接器、投影機及Phi-3 mini語言模型。該模型支援12.8萬個Token的脈絡長度,並能同時處理文字與圖像輸入。經過5,000億個Token的訓練,它在短短6天內便完成訓練,顯示出強大的數據處理能力。不過,值得注意的是,目前Phi-3.5-vision僅支援英文。

總結:Phi-3.5-MoE成為焦點
在微軟此次釋出的Phi-3.5模型中,Phi-3.5-MoE無疑是最受關注的。它不僅在推論能力上擊敗了多款同類型大模型,更展現出小型語言模型的巨大潛力,為生成式AI的應用開啟了新的可能性。這些進展表明,微軟在AI技術創新上的不懈努力正在逐步改變行業格局。

Share:

More Posts