快速跳轉目錄
Hugging Face 介紹|Hugging Face 創業歷史與理念
(一)Hugging Face 是什麼?「AI 界的 GitHub」起源介紹!
Hugging Face 是一個擁有豐富模型與資料庫的 AI 開源社群平台,已成為全球 AI 人工智慧領域的重要資源。
成立於 2016 年的 Hugging Face 是近年來在人工智慧(AI)領域崛起的一個開源社群平台,其創立之初只是作為一款青少年社交聊天機器人應用而存在。
隨著平台的發展,Hugging Face AI 漸漸轉型成為一個專門提供自然語言處理(NLP)工具和資源的社群平台,被譽為「AI 界的 GitHub」。
創辦人 Clément Delangue、 Julien Chaumond 及 Thomas Wolf 期望讓 AI 以更親民、更人性化的方式出現在人們的生活中,就如同 Hugging Face 中文翻譯「擁抱臉」就彷彿象徵著機器與人之間更無距離的溝通。
Hugging Face 的創新之處在於,它不僅提供開源的 AI 模型和工具,還建構了一個全球化的社群,讓開發者能夠共享知識、交流經驗,推動 AI 技術的普及和進步。
如今,Hugging Face 已經成為全球 NLP(Natural Language Processing,自然語言處理) 領域的重要資源,許多研究人員和開發者都依賴其豐富的模型和數據集資源來進行各種 AI 研究和應用。
(二)Hugging Face 特色與經營理念
Hugging Face 特色除了其共享的開源模型和豐富的資源之外,還創建了 Hugging Face Hub,彙集了來自世界各地開發者所創建的各種 AI 模型、數據集和工具,讓使用者能夠方便的下載、測試和部署這些資源。
Hugging Face 的經營理念主要是推動「AI 民主化」,讓更多人能夠輕鬆接觸和使用先進的 AI 技術。無論是初學者還是資深 AI 研究者,都能在 Hugging Face 找到適合自己的資源和工具。
透過這樣的共享模式,Hugging Face 打破了科技的壟斷,真正實現了知識的普及。
Hugging Face 功能|探索 Hugging Face 模型與工具
Hugging Face 提供了多樣化的模組和工具,支援開發者在 AI 領域進行各種創新。
以下將介紹 Hugging Face 的幾個主要組件與頁面,包括 Hugging Face Hub、Transformers、Tokenizers、Datasets 等,讓各位更進一步認識 Hugging Face。
(一)Hugging Face Hub:Hugging Face 資源中心
Hugging Face Hub 是 Hugging Face 平台上的核心資源中心,匯集包含 Hugging Face Library、Datasets、Space、Models 等豐富的 AI 資源。
Hugging Face Hub 擁有超過 90 萬個模型、20 萬個資料集,提供開發者在一個平台上搜尋、測試並比較各種 AI 模型和資料集,滿足不同應用場景的需求。
Hugging Face Hub 不僅提供免費的開源模型下載,同時允許開發者將自己的模型上傳到平台,與全球使用者分享並交流,進一步促進 AI 技術的發展與普及。
Hugging Face Hub:https://huggingface.co/docs/hub/index
(二)Hugging Face Transformers:解決各種 NLP 任務
Hugging Face Transformers 是 Hugging Face 最受歡迎的開源庫之一,專為處理 NLP(Natural Language Processing,自然語言處理)任務而設計。
NLP 是讓機器能夠理解和生成人類語言的技術,應用範圍涵蓋語言生成、情感分析、機器翻譯、語音識別等多種領域,使機器能與人類語言互動更加自然。
為了簡化 NLP 任務的執行,Hugging Face Transformers 提供了許多強大的 Pre-training 模型,例如 BERT、RoBERTa 和 GPT,讓開發者能夠輕鬆應用於各種 NLP 任務,無需從零開始訓練模型,大幅節省開發時間。
Hugging Face Transformers:https://huggingface.co/docs/transformers/index
(三)Hugging Face Tokenizers:將文本轉換成數據的重要工具
在 NLP 中,Tokenizers(分詞器)是至關重要的組件之一。
由於模型只能處理數字,而標記器的主要目的是將文本分解成模型可以理解的數據格式。因此,Tokenizers 的工作便是將自然語言的文本轉換為數字數據,以便模型進行分析。
Hugging Face Tokenizers 提供了高效的分詞功能,能夠迅速處理大規模的文本資料,使 AI 模型可以更準確的理解語義,進而提升模型預測的準確性。
Hugging Face Tokenizers:https://huggingface.co/docs/tokenizers/index
(四)Hugging Face Datasets:豐富的資料集庫
Hugging Face Datasets 是 Hugging Face 提供的另一個重要資源,包含豐富的資料集,適合訓練模型。
這些資料集涵蓋了各種不同的應用領域,如音訊、文字、表格、圖像等,並且已經過標準化處理,讓使用者可以輕鬆應用在自己的專案中。
此外,Hugging Face Datasets 提供即時下載和使用,且支援上傳自訂的資料集。無論是 AI 研究還是商業應用,幾乎都可以在 Hugging Face Datasets 中找到合適的數據來源,大幅縮短資料準備的時間。
Hugging Face Datasets:https://huggingface.co/docs/datasets/index
(五)Hugging Face Diffusers:生成影像的專業工具
Hugging Face Diffusers 是 Hugging Face 專門為影像生成和處理所開發的工具。
與 DALL-E 2 相似,透過此工具,開發者可以輕鬆生成各種風格的圖像,並且支援影像編輯、圖像風格轉換等多種功能。使用者只需輸入簡單的描述文字,即可創造出個性化的圖像,讓影像創作變得更加輕鬆。
Hugging Face Diffusers:https://huggingface.co/docs/diffusers/index
(六)HuggingGPT:Hugging Face X ChatGPT
HuggingGPT 是浙江大學與 Microsoft 微軟公司協力開發的一款生成式 AI 對話工具,結合 Hugging Face 上的各種 AI 模型,提供了人性化的對話體驗,以及解決較複雜的 AI 問題。
HuggingGPT 的應用強調了 4 大階段:
第 1 階段 - 任務規劃
利用 ChatGPT 分析用戶的需求,深入了解其意圖,並將需求拆解為可執行的具體任務提示。
第 2 階段 - 模型選擇
為了解決這些任務,ChatGPT 會根據每個模型的描述,從 Hugging Face 平台上的專家模型中挑選出合適的模型。
第 3 階段 - 任務執行
啟用並執行所選模型,將模型的結果整理後返回給 ChatGPT。
第 4 階段 - 響應生成
最後,ChatGPT 綜合所有模型的預測結果,生成對應的答案並提供給用戶。
HuggingGPT 的研究成果,讓 AI 的使用更加簡單及方便!
HuggingGPT:https://huggingface.co/spaces/microsoft/HuggingGPT
而大家在 Hugging Face 網站上看到的 HuggingChat 則是由 Hugging Face 所創建而成,其使用方法類似 ChatGPT,但大家還是要注意 OpenAI 模型仍可能提供不正確的回答,建議還是要加以驗證喔!
有興趣的朋友可以到這裡試試看:https://huggingface.co/chat/
此外,HuggingChat 還推出了專為 macOS 使用者打造的原生聊天應用程式,提供流暢且直觀的使用體驗。透過這款桌面版工具,可以直接與 AI 模型進行對話, 同時訪問 Hugging Face 平台上的多種模型,包括自然語言處理、翻譯、問答和文字生成等模型。
HuggingChat macOS:https://github.com/huggingface/chat-macOS/
Hugging Face 教學|模型下載方法與使用範例分享
上一段了解了 Hugging Face 模型與功能後,你可能會想:「那要如何使用 Hugging Face 上的模型呢?」
本段落將分享 Hugging Face 下載教學,帶著大家一起學會如何從 Hugging Face 下載模型!
(一)如何從 HuggingFace 下載模型?
STEP 1-搜尋模型
🔺 首頁搜尋
可直接在首頁搜尋你想尋找的模型關鍵字,或是到「Models」頁面在「Filter by name」篩選搜尋。
例如:我想要下載由 Meta 開發的大型語言模型,可以搜尋「Meta」、「Chat」等關鍵字進行查找。
🔺 使用 Call API
-
準備階段
- 註冊 Hugging Face 帳號:前往 Hugging Face 官方網站 註冊帳號。
- 獲取 API Token:登入後,進入 設定頁面。創建新的 API Token,並記下 Token 值(如 hf_ABC123...)。
-
操作步驟
- 確認模型 ID:瀏覽 Hugging Face 模型頁面。確定需要調用的模型名稱(例如:gpt2 或 facebook/bart-large-cnn)。
- 確認 API URL:API URL 格式微「https://api-inference.huggingface.co/models/{模型ID}」。將 {模型ID} 替換為選定的模型名稱。
- 準備輸入數 據:決定需要傳遞的輸入內容(如文本、圖像或其他模型所需的格式)。確保輸入內容符合目標模型的要求。
- 發送請求:使用工具(如 Postman)或程式碼發送 HTTP POST 請求。在請求的 Header 中添加 Authorization: Bearer {您的API Token}。在 Body 中添加 inputs 作為模型的輸入數據。
- 處理回應:API 返回的結果為 JSON 格式,解析其中的輸出內容。確認模型輸出是否符合您的期望,並處理返回的數據。
-
注意事項
- 授權限制:如果模型是私有的,請確保您有適當的授權或訪問權限。
- API 配額:免費版 API 有請求數量與速度限制,請參考 Hugging Face 定價頁面。
- 輸入格式:不同模型要求的輸入格式不同,務必查看模型的說明文件。
STEP 2-模型下載
你可以利用「直接下載」、「使用 Git clone」或是「透過 Python 的套件直接下載所有目錄」 3 種方法進行下載。
🔺 直接下載
點選「File and versions」,接著往下滑到「Preview of files found in this repository」,選擇想要下載的文件。
🔺 使用 Git clone
點擊右側「⋮」進入選單,選擇「Clone repository」。 先確認已經安裝「git lfs install (https://git-lfs.com) 」後,接著根據視窗上顯示的指示複製指令,就可以開始下載囉!
🔺 透過 Python 的套件直接下載所有目錄
-
準備階段
- 確保 Python 環境已安裝以下套件:pip install huggingface_hub
- 獲取模型名稱或 ID:瀏覽 Hugging Face 模型庫。確認目標模型的名稱或 ID(如 gpt2 或 username/model_name)。
-
操作步驟
- 導入 Hugging Face Hub 的 snapshot_download 函數:該函數可用於下載整個模型存儲庫,包含所有權重、配置和附加文件。
- 準備下載的參數:模型 ID:指定目標模型(如 gpt2 或 facebook/wav2vec2-large-960h)。 下載目錄:設置本地儲存模型的路徑(如 ./models)。
- 其他參數
- resume_download=True:支持中斷後繼續下載。
- cache_dir:選擇快取目錄,避免重複下載。
- 執行下載:呼叫 snapshot_download 函數,根據輸入的參數自動下載模型及其相關文件到指定目錄。
- 檢查下載結果:確認目錄結構是否完整,包含模型的權重文件(如 .bin)、配置文件(如 .json)等。
-
注意事項
- 網路環境:確保穩定的網路連線,避免下載過程中斷。
- 存儲空間:某些大型模型可能需要數 GB 或更多空間,請確保本地磁碟容量充足。
- 下載速度:如果下載速度較慢,可考慮切換網路或使用 VPN。
(二)Hugging Face 使用範例
Hugging Face 其中一個特色就是你可以先在網頁上進行測試或預覽,再決定是否下載模型。
在「Space」上有許多非常有趣的 AI 應用程式可以試玩,以下我們將利用「Stable Diffusion 3.5 Large (8B)」文字生成圖像模型來作為範例。
生成圖像的文字指令為:A baby wearing a suit holding a sign that reads Hello World(穿著西裝的嬰兒舉著寫著「Hello World」的牌子)
對 AI 有興趣或是想要更深入探索 Hugging Face 可以到 Space 上玩玩看喔:https://huggingface.co/spaces
Hugging Face費用|Hugging Face 收費方案介紹
Hugging Face 針對不同的需求制定出不同的收費方案,以下將分享目前網站上提供的收費方案與價格。
方案/美金 | 費用(美金) | 方案說明 |
---|---|---|
HF Hub | 免費 | 在機器學習上進行協作,提供無限的模型、資料集和空間,同時包含社群功能。 |
Pro Account | $9/月 | 解鎖進階功能,如 ZeroGPU、無伺服器推論的更高限制,以及搶先體驗新功能。 |
Enterprise Hub | $20/每位使用者/月 | 提供進階安全性、數據位置控制與優先支援。 |
Spaces Hardware | 從 $0/小時起 | 升級空間運算資源,提供免費的 CPU、進階硬體選項及優化效能(從 CPU 到 GPU 及加速器)。 |
Inference Endpoints | 從 $0.032/小時起 | 在托管基礎設施上部署模型,提供低成本、自動擴展及企業級安全性。 |
以上就是 Hugging Face 的介紹,如果您想要了解更多 Solwen AI 資訊,或者想要免費諮詢 AI 導入評估,都可以透過下方藍色按鈕與 Solwen AI 團 隊聯繫!
葉長霖
AI 工程師
專精於 NLP 與 RAG 技術,具豐富的 AI Agent 開發經驗,曾任職於緯創軟體。 競賽經歷:
- 2024 Kaggle LLM - Detect AI Generated Text(913/4436)
- 2024 Kaggle Optiver - Trading at the Close(1120/4358)
- 2023 AWS 雲端技術挑戰賽全國 6 強
- 2023 L‘ORÉAL Brandstorm 南區冠軍
- 2022 台灣企銀金融科技 挑戰賽全國第 4
實務經歷:
- 2024 聯華電子 - 內部 UGPT 系統開發
- 2024 緯創 - KM 機器人、到職率預測模型、面試機器人開發
- 2024 新光金控 - KM 機器人開發
李彤.
2024-12-11
LlamaIndex是什麼?本文將介紹LlamaIndex的3大優勢,並與另一熱門開源框架Langchain比較,接續探討LlamaIndex進階使用的5階段,最後整理出適合不同需求的3個LlamaIndex費用方案。
黃適文.
2024-11-29
Perplexity 是什麼?連黃仁勳都愛用的 AI 搜尋引擎!本文帶你了解 Perplexity 功能、Perplexity AI 教學,並有其他 4 大工具與 Perplexity 比較,以及Perplexity 方案介紹。
李彤.
2024-11-21
LangChain是什麼?為什麼LangChain很重要?跟開發AI有什麼關聯?LangChain需要付費嗎?本文將介紹LangChain 框架,介紹並整理不同的付費方案,最後透過LangChain應用實例,帶你深入認識LangChain!
黃適文.
2024-11-19
Vertex AI 是什麼?Vertex AI 怎麼用?本文將介紹 Vertex AI 定義、Vertex AI 功能和 Vertex AI 平台使用 ,最後分享 Vertex AI 方案,最完整 Vertex AI 教學操作攻略在這邊。
黃適文.
2024-11-03
Claude 怎麼用?Claude 需要付費嗎?本文介紹 3 大 Claude 種類、Claude 方案以及 ChatGPT、Gemini 和 Claude 比較!最完整 Claude 教學指南在這邊,一次搞懂 Claude 怎麼用。
編輯精選
黃適文.
2024-11-29
NLP 是什麼?NLP 怎麼運作的?本文帶你了解 NLP 基本概念、NLP 運作原理,以及 LLM 與 NLP 比較,最後是 NLP 應用,讓你全方位了解 NLP 自然語言處理。
黃適文.
2024-11-20
數位轉型是什麼?數位轉型步驟該怎麼做?本文介紹數位轉型三階段、數位轉型5步驟,從0開始帶你了解數位轉型概念,內容還包含數位轉型成功案例、常見數位轉型問題以及如何利用AI數位轉型!
黃適文.
2024-11-03
Claude 怎麼用?Claude 需要付費嗎?本文介紹 3 大 Claude 種類、Claude 方案以及 ChatGPT、Gemini 和 Claude 比較!最完整 Claude 教學指南在這邊,一次搞懂 Claude 怎麼用。
黃適文.
2024-10-27
ChatBot 是什麼?ChatBot 優點有哪些?本文將介紹 2 大 ChatBot 類型以及實際 ChatBot 應用,最後分享 8 大 ChatBot 推薦平台!最完整 ChatBot 使用指南在這邊!一起打造企業專屬聊天機器人。
黃適文.
2024-10-14
LLM 是什麼?LLM 原理有哪些?本文詳細帶你認識 LLM 意思、LLM 模型訓練流程以及實際的 LLM 應用,透過基礎概念和實際案例,讓你快速入門大型語言模型。
黃適文.
2024-10-11
知識管理現已成為提升企業競爭力的關鍵!本文將帶你了解知識管理的定義、知識管理步驟的應用與知識管理案例,並介紹如何通過知識管理系統,結合 AI 知識管理,替企業帶來創新與效率提升。
最新文章
李彤.
2024-12-11
LlamaIndex是什麼?本文將介紹LlamaIndex的3大優勢,並與另一熱門開源框架Langchain比較,接續探討LlamaIndex進階使用的5階段,最後整理出適合不同需求的3個LlamaIndex費用方案。
葉長霖.
2024-12-09
Hugging Face 是什麼?Hugging Face 特色有哪些?本文將深入介紹 Hugging Face 功能,提供 Hugging Face 教學,並分享 Hugging Face 費用方案,助你快速掌握開源 AI 平台!
黃適文.
2024-11-29
NLP 是什麼?NLP 怎麼運作的?本文帶你了解 NLP 基本概念、NLP 運作原理,以及 LLM 與 NLP 比較,最後是 NLP 應用,讓你全方位了解 NLP 自然語言處理。
黃適文.
2024-11-29
Perplexity 是什麼?連黃仁勳都愛用的 AI 搜尋引擎!本文帶你了解 Perplexity 功能、Perplexity AI 教學,並有其他 4 大工具與 Perplexity 比較,以及Perplexity 方案介紹。
黃適文.
2024-11-28
RPA 意思是什麼?RPA 軟體怎麼選?本文介紹 RPA優缺點、RPA 原理運作和推薦 4 款 RPA 軟體,最後分享 RPA 應用案例以及 RPA 趨勢洞察!幫助你全面掌握 RPA 的知識。
李彤.
2024-11-21
LangChain是什麼?為什麼LangChain很重要?跟開發AI有什麼關聯?LangChain需要付費嗎?本文將介紹LangChain 框架,介紹並整理不同的付費方案,最後透過LangChain應用實例,帶你深入認識LangChain!