快速跳轉目錄
Hugging Face 介紹|Hugging Face 創業歷史與理念
(一)Hugging Face 是什麼?「AI 界的 GitHub」起源介紹!
Hugging Face 是一個擁有豐富模型與資料庫的 AI 開源社群平台,已成為全球 AI 人工智慧領域的重要資源。
成立於 2016 年的 Hugging Face 是近年來在人工智慧(AI)領域崛起的一個開源社群平台,其創立之初只是作為一款青少年社交聊天機器人應用而存在。
隨著平台的發展,Hugging Face AI 漸漸轉型成為一個專門提供自然語言處理(NLP)工具和資源的社群平台,被譽為「AI 界的 GitHub」。
創辦人 Clément Delangue、 Julien Chaumond 及 Thomas Wolf 期望讓 AI 以更親民、更人性化的方式出現在人們的生活中,就如同 Hugging Face 中文翻譯「擁抱臉」就彷彿象徵著機器與人之間更無距離的溝通。
Hugging Face 的創新之處在於,它不僅提供開源的 AI 模型和工具,還建構了一個全球化的社群,讓開發者能夠共享知識、交流經驗,推動 AI 技術的普及和進步。
如今,Hugging Face 已經成為全球 NLP(Natural Language Processing,自然語言處理) 領域的重要資源,許多研究人員和開發者都依賴其豐富的模型和數據集資源來進行各種 AI 研究和應用。
(二)Hugging Face 特色與經營理念
Hugging Face 特色除了其共享的開源模型和豐富的資源之外,還創建了 Hugging Face Hub,彙集了來自世界各地開發者所創建的各種 AI 模型、數據集和工具,讓使用者能夠方便的下載、測試和部署這些資源。
Hugging Face 的經營理念主要是推動「AI 民主化」,讓更多人能夠輕鬆接觸和使用先進的 AI 技術。無論是初學者還是資深 AI 研究者,都能在 Hugging Face 找到適合自己的資源和工具。
透過這樣的共享模式,Hugging Face 打破了科技的壟斷,真正實現了知識的普及。
Hugging Face 功能|探索 Hugging Face 模型與工具
Hugging Face 提供了多樣化的模組和工具,支援開發者在 AI 領域進行各種創新。
以下將介紹 Hugging Face 的幾個主要組件與頁面,包括 Hugging Face Hub、Transformers、Tokenizers、Datasets 等,讓各位更進一步認識 Hugging Face。
(一)Hugging Face Hub:Hugging Face 資源中心
Hugging Face Hub 是 Hugging Face 平台上的核心資源中心,匯集包含 Hugging Face Library、Datasets、Space、Models 等豐富的 AI 資源。
Hugging Face Hub 擁有超過 90 萬個模型、20 萬個資料集,提供開發者在一個平台上搜尋、測試並比較各種 AI 模型和資料集,滿足不同應用場景的需求。
Hugging Face Hub 不僅提供免費的開源模型下載,同時允許開發者將自己的模型上傳到平台,與全球使用者分享並交流,進一步促進 AI 技術的發展與普及。
Hugging Face Hub:https://huggingface.co/docs/hub/index
(二)Hugging Face Transformers:解決各種 NLP 任務
Hugging Face Transformers 是 Hugging Face 最受歡迎的開源庫之一,專為處理 NLP(Natural Language Processing,自然語言處理)任務而設計。
NLP 是讓機器能夠理解和生成人類語言的技術,應用範圍涵蓋語言生成、情感分析、機器翻譯、語音識別等多種領域,使機器能與人類語言互動更加自然。
為了簡化 NLP 任務的執行,Hugging Face Transformers 提供了許多強大的 Pre-training 模型,例如 BERT、RoBERTa 和 GPT,讓開發者能夠輕鬆應用於各種 NLP 任務,無需從零開始訓練模型,大幅節省開發時間。
Hugging Face Transformers:https://huggingface.co/docs/transformers/index
(三)Hugging Face Tokenizers:將文本轉換成數據的重要工具
在 NLP 中,Tokenizers(分詞器)是至關重要的組件之一。
由於模型只能處理數字,而標記器的主要目的是將文本分解成模型可以理解的數據格式。因此,Tokenizers 的工作便是將自然語言的文本轉換為數字數據,以便模型進行分析。
Hugging Face Tokenizers 提供了高效的分詞功能,能夠迅速處理大規模的文本資料,使 AI 模型可以更準確的理解語義,進而提升模型預測的準確性。
Hugging Face Tokenizers:https://huggingface.co/docs/tokenizers/index
(四)Hugging Face Datasets:豐富的資料集庫
Hugging Face Datasets 是 Hugging Face 提供的另一個重要資源,包含豐富的資料集,適合訓練模型。
這些資料集涵蓋了各種不同的應用領域,如音訊、文字、表格、圖像等,並且已經過標準化處理,讓使用者可以輕鬆應用在自己的專案中。
此外,Hugging Face Datasets 提供即時下載和使用,且支援上傳自訂的資料集。無論是 AI 研究還是商業應用,幾乎都可以在 Hugging Face Datasets 中找到合適的數據來源,大幅縮短資料準備的時間。
Hugging Face Datasets:https://huggingface.co/docs/datasets/index
(五)Hugging Face Diffusers:生成影像的專業工具
Hugging Face Diffusers 是 Hugging Face 專門為影像生成和處理所開發的工具。
與 DALL-E 2 相似,透過此工具,開發者可以輕鬆生成各種風格的圖像,並且支援影像編輯、圖像風格轉換等多種功能。使用者只需輸入簡單的描述文字,即可創造出個性化的圖像,讓影像創作變得更加輕鬆。
Hugging Face Diffusers:https://huggingface.co/docs/diffusers/index
(六)HuggingGPT:Hugging Face X ChatGPT
HuggingGPT 是浙江大學與 Microsoft 微軟公司協力開發的一款生成式 AI 對話工具,結合 Hugging Face 上的各種 AI 模型,提供了人性化的對話體驗,以及解決較複雜的 AI 問題。
HuggingGPT 的應用強調了 4 大階段:
第 1 階段 - 任務規劃
利用 ChatGPT 分析用戶的需求,深入了解其意圖,並將需求拆解為可執行的具體任務提示。
第 2 階段 - 模型選擇
為了解決這些任務,ChatGPT 會根據每個模型的描述,從 Hugging Face 平台上的專家模型中挑選出合適的模型。
第 3 階段 - 任務執行
啟用並執行所選模型,將模型的結果整理後返回給 ChatGPT。
第 4 階段 - 響應生成
最後,ChatGPT 綜合所有模型的預測結果,生成對應的答案並提供給用戶。
HuggingGPT 的研究成果,讓 AI 的使用更加簡單及方便!
HuggingGPT:https://huggingface.co/spaces/microsoft/HuggingGPT
而大家在 Hugging Face 網站上看到的 HuggingChat 則是由 Hugging Face 所創建而成,其使用方法類似 ChatGPT,但大家還是要注意 OpenAI 模型仍可能提供不正確的回答,建議還是要加以驗證喔!
有興趣的朋友可以到這裡試試看:https://huggingface.co/chat/
此外,HuggingChat 還推出了專為 macOS 使用者打造的原生聊天應用程式,提供流暢且直觀的使用體驗。透過這款桌面版工具,可以直接與 AI 模型進行對話, 同時訪問 Hugging Face 平台上的多種模型,包括自然語言處理、翻譯、問答和文字生成等模型。
HuggingChat macOS:https://github.com/huggingface/chat-macOS/
Hugging Face 教學|模型下載方法與使用範例分享
上一段了解了 Hugging Face 模型與功能後,你可能會想:「那要如何使用 Hugging Face 上的模型呢?」
本段落將分享 Hugging Face 下載教學,帶著大家一起學會如何從 Hugging Face 下載模型!
(一)如何從 HuggingFace 下載模型?
STEP 1-搜尋模型
🔺 首頁搜尋
可直接在首頁搜尋你想尋找的模型關鍵字,或是到「Models」頁面在「Filter by name」篩選搜尋。
例如:我想要下載由 Meta 開發的大型語言模型,可以搜尋「Meta」、「Chat」等關鍵字進行查找。
🔺 使用 Call API
-
準備階段
- 註冊 Hugging Face 帳號:前往 Hugging Face 官方網站 註冊帳號。
- 獲取 API Token:登入後,進入 設定頁面。創建新的 API Token,並記下 Token 值(如 hf_ABC123...)。
-
操作步驟
- 確認模型 ID:瀏覽 Hugging Face 模型頁面。確定需要調用的模型名稱(例如:gpt2 或 facebook/bart-large-cnn)。
- 確認 API URL:API URL 格式微「https://api-inference.huggingface.co/models/{模型ID}」。將 {模型ID} 替換為選定的模型名稱。
- 準備輸入數 據:決定需要傳遞的輸入內容(如文本、圖像或其他模型所需的格式)。確保輸入內容符合目標模型的要求。
- 發送請求:使用工具(如 Postman)或程式碼發送 HTTP POST 請求。在請求的 Header 中添加 Authorization: Bearer {您的API Token}。在 Body 中添加 inputs 作為模型的輸入數據。
- 處理回應:API 返回的結果為 JSON 格式,解析其中的輸出內容。確認模型輸出是否符合您的期望,並處理返回的數據。
-
注意事項
- 授權限制:如果模型是私有的,請確保您有適當的授權或訪問權限。
- API 配額:免費版 API 有請求數量與速度限制,請參考 Hugging Face 定價頁面。
- 輸入格式:不同模型要求的輸入格式不同,務必查看模型的說明文件。
STEP 2-模型下載
你可以利用「直接下載」、「使用 Git clone」或是「透過 Python 的套件直接下載所有目錄」 3 種方法進行下載。
🔺 直接下載
點選「File and versions」,接著往下滑到「Preview of files found in this repository」,選擇想要下載的文件。
🔺 使用 Git clone
點擊右側「⋮」進入選單,選擇「Clone repository」。 先確認已經安裝「git lfs install (https://git-lfs.com) 」後,接著根據視窗上顯示的指示複製指令,就可以開始下載囉!
🔺 透過 Python 的套件直接下載所有目錄
-
準備階段
- 確保 Python 環境已安裝以下套件:pip install huggingface_hub
- 獲取模型名稱或 ID:瀏覽 Hugging Face 模型庫。確認目標模型的名稱或 ID(如 gpt2 或 username/model_name)。
-
操作步驟
- 導入 Hugging Face Hub 的 snapshot_download 函數:該函數可用於下載整個模型存儲庫,包含所有權重、配置和附加文件。
- 準備下載的參數:模型 ID:指定目標模型(如 gpt2 或 facebook/wav2vec2-large-960h)。 下載目錄:設置本地儲存模型的路徑(如 ./models)。
- 其他參數
- resume_download=True:支持中斷後繼續下載。
- cache_dir:選擇快取目錄,避免重複下載。
- 執行下載:呼叫 snapshot_download 函數,根據輸入的參數自動下載模型及其相關文件到指定目錄。
- 檢查下載結果:確認目錄結構是否完整,包含模型的權重文件(如 .bin)、配置文件(如 .json)等。
-
注意事項
- 網路環境:確保穩定的網路連線,避免下載過程中斷。
- 存儲空間:某些大型模型可能需要數 GB 或更多空間,請確保本地磁碟容量充足。
- 下載速度:如果下載速度較慢,可考慮切換網路或使用 VPN。
(二)Hugging Face 使用範例
Hugging Face 其中一個特色就是你可以先在網頁上進行測試或預覽,再決定是否下載模型。
在「Space」上有許多非常有趣的 AI 應用程式可以試玩,以下我們將利用「Stable Diffusion 3.5 Large (8B)」文字生成圖像模型來作為範例。
生成圖像的文字指令為:A baby wearing a suit holding a sign that reads Hello World(穿著西裝的嬰兒舉著寫著「Hello World」的牌子)
對 AI 有興趣或是想要更深入探索 Hugging Face 可以到 Space 上玩玩看喔:https://huggingface.co/spaces
Hugging Face費用|Hugging Face 收費方案介紹
Hugging Face 針對不同的需求制定出不同的收費方案,以下將分享目前網站上提供的收費方案與價格。
方案/美金 | 費用(美金) | 方案說明 |
---|---|---|
HF Hub | 免費 | 在機器學習上進行協作,提供無限的模型、資料集和空間,同時包含社群功能。 |
Pro Account | $9/月 | 解鎖進階功能,如 ZeroGPU、無伺服器推論的更高限制,以及搶先體驗新功能。 |
Enterprise Hub | $20/每位使用者/月 | 提供進階安全性、數據位置控制與優先支援。 |
Spaces Hardware | 從 $0/小時起 | 升級空間運算資源,提供免費的 CPU、進階硬體選項及優化效能(從 CPU 到 GPU 及加速器)。 |
Inference Endpoints | 從 $0.032/小時起 | 在托管基礎設施上部署模型,提供低成本、自動擴展及企業級安全性。 |
以上就是 Hugging Face 的介紹,如果您想要了解更多 Solwen AI 資訊,或者想要免費諮詢 AI 導入評估,都可以透過下方藍色按鈕與 Solwen AI 團 隊聯繫!
葉長霖
AI 工程師
專精於 NLP 與 RAG 技術,具豐富的 AI Agent 開發經驗,曾任職於緯創軟體。 競賽經歷:
- 2024 Kaggle LLM - Detect AI Generated Text(913/4436)
- 2024 Kaggle Optiver - Trading at the Close(1120/4358)
- 2023 AWS 雲端技術挑戰賽全國 6 強
- 2023 L‘ORÉAL Brandstorm 南區冠軍
- 2022 台灣企銀金融科技 挑戰賽全國第 4
實務經歷:
- 2024 聯華電子 - 內部 UGPT 系統開發
- 2024 緯創 - KM 機器人、到職率預測模型、面試機器人開發
- 2024 新光金控 - KM 機器人開發
黃適文.
2024-12-23
Claude 怎麼用?Claude 費用怎麼算?本文介紹 3 大 Claude 種類與 2 大 Claude 特色,並分享 ChatGPT、Gemini 和 Claude 3 大 AI 工具比較!
黃適文.
2024-12-23
Perplexity 是什麼?連黃仁勳都愛用的 AI 搜尋引擎!本文帶將介紹 Perplexity 4 大功能與應用教學 5 步驟!並分享 Perplexity 與 ChatGPT、Gemini 等 AI 工具差異!
葉長霖.
2024-12-18
Mistral 是什麼?Mistral AI 模型有哪些?本文帶你了解 Mistral AI 特色、Mistral AI 應用,以及 Mistral 與其他 AI 的比較,最後是 Mistral AI 方案的介紹,一起認識這開源新星的崛起。
李彤.
2024-12-17
LangChain 是什麼?本文將整理 LangChain 費用方案,並提供 LangChain 功能及元件完整解析,以及 LangChain 應用實例,6 步驟輕鬆上手 LangChain!
黃適文.
2024-12-17
Vertex AI 是什麼?本文將介紹 6 大 Vertex AI 模型應用,並提供完整的註冊 Vertex AI 教學與 Vertex AI 費用方案,Vertex AI 介紹就看這篇!
編輯精選
黃適文.
2024-12-23
Claude 怎麼用?Claude 費用怎麼算?本文介紹 3 大 Claude 種類與 2 大 Claude 特色,並分享 ChatGPT、Gemini 和 Claude 3 大 AI 工具比較!
黃適文.
2024-12-23
NLP 是什麼?NLP 怎麼運作的?本文將分享 NLP、NLG、NLU 差異,並且帶你了解 NLP 運作方式及 5 個 AI 常見概念解釋,探索 NLP 在生活上的應用案例!
黃適文.
2024-12-17
生成式 AI 是什麼?本文詳細介紹生成式 AI(Generative AI)原理,並分享生成式 AI 優缺點、3 大生成式 AI 應用產業與生成式 AI 工具!
黃適文.
2024-12-17
ChatBot 是什麼?本文將分享 ChatBot 4 大優勢與 Chatbot 2 大類型,以及 8 個 Chatbot 推薦平台與聊天機器人應用案例!最完整 ChatBot 介紹看這篇!
黃適文.
2024-12-17
數位轉型是什麼?AI 數位轉型怎麼做?本文介紹數位轉型 3 階段與數位轉型 5 步驟,並分享 2 大數位轉型成功案例,以及 3 個數位轉型可能遇到的常見問題!
黃適文.
2024-12-17
人工智慧有哪些?AI 人工智慧應用在哪裡?本文將介紹 3 大 AI 種類與 9 大 AI 人工智慧生活應用領域!想了解最詳細的 AI 介紹就看這篇!
最新文章
邱鈺傑.
2024-12-31
大數據是什麼?大數據分析怎麼做?本文將帶你深入了解大數據特色及大數據應用產業,並推薦 6 個實用大數據工具,最後分享企業都該關注的大數據挑戰,讓你更有效地掌握大數據分析的技術!
葉長霖.
2024-12-31
AI 模型訓練是什麼?本文為你介紹 AI Model Training、5 步驟了解 AI 模型開發流程、 4 項 AI 模型訓練種類,最後了解 AI 模型訓練的挑戰與 AI 模型訓練教學資源。
呂亮進.
2024-12-30
監督式學習定義為何?監督式學習、非監督式學習、半監督式學習、強化學習有何不同?本文將介紹各項學習之間的差異,並分享監督式學習演算法與 2 個監督式學習例子!
黃適文.
2024-12-23
Claude 怎麼用?Claude 費用怎麼算?本文介紹 3 大 Claude 種類與 2 大 Claude 特色,並分享 ChatGPT、Gemini 和 Claude 3 大 AI 工具比較!
黃適文.
2024-12-23
NLP 是什麼?NLP 怎麼運作的?本文將分享 NLP、NLG、NLU 差異,並且帶你了解 NLP 運作方式及 5 個 AI 常見概念解釋,探索 NLP 在生活上的應用案例!
黃適文.
2024-12-23
Perplexity 是什麼?連黃仁勳都愛用的 AI 搜尋引擎!本文帶將介紹 Perplexity 4 大功能與應用教學 5 步驟!並分享 Perplexity 與 ChatGPT、Gemini 等 AI 工具差異!