【電子報 006】Llama OCR 開源套件改寫 - FREE OCR 技術實作


AI . FREE Newsletter 006


上週黃仁勳在 NVIDIA AI 日本高峰會上,與軟銀的董事長,孫正義,進行公開演講,並宣布將打造一套全新 AI 結合 5G的系統,AI RAN,預期將能有效優化無線網路傳輸的速度、功耗,提供電信業者提升網路效能、改善能源效率和進一步打造 AI 服務創新的等優勢。

在開源社群中,全新的開源項目:Llama-OCR,也掀起了一波新的討論聲量,其核心的技術是透過多模態 (Multi-Modal) 的 VLM 模型 (Vision Language Model),針對圖片內容進行分析並結構化的描述,背後的演算法則是採行 Llama-3.2-11B 的模型,而本周電子報就讓我們一起瞭解這個專案的目的,以及實際體驗這個套件吧!


運算資源與環境建置

在 LLM 的時代,模型大小動輒 7B、8B 的參數量,換算大家熟習的儲存空間大約為 10GB 以上,也因此在電腦配備的規格上特別講究,除了會需要圖形顯示卡 (GPU) 來加速運算之外,在 CPU、RAM 等規格上,也需要搭載中上規格的元件。

因此在一般公司中,推展生成式 AI 專案時經常會遇到「算力」的瓶頸,意即缺乏 GPU 的運算資源 (通常為虛擬記憶體不足),而導致在專案推動前,因硬體限制而遲滯不前;而學生及工程師亦然,在進行學校作業或技術研究時,可能面臨「硬體資源不足」、「環境安裝不易」等困境,最終導致研究提前終止。

但也因為這些事前準備工作的門檻,許多新創公司便以提供 AI 運算環境為產品服務,提供企業、工程師租賃式運算服務,只要透過刷卡儲值點數,便能隨時取用所需的運算資源與環境,不僅大幅降低使用者的技術切入門檻,更提供企業與個人更經濟實惠的運算資源。

AI . FREE Team 先前也在 AI 繪圖實作課程中,搭配新創公司提供免費額度的雲端資源進行課程實作,若有興趣進一步瞭解的讀者,歡迎私訊粉專!


免費的 Llama-3.2-11B 模型 API 

Llama-OCR 背後開源的廠商便是提供 AI 模型運算雲端服務的新創,together.ai ,提供的 AI 模型應用如: AI 繪圖、地端語言模型等。

在 Llama-OCR 的開源專案中,其爆紅的點,除了開源 Prompt 與技術架構的設計外,together.ai 更提供了前陣子 Meta 所開源 VLM 模型的調用服務 (Llama-3.2-11B),讓開發者只需要註冊會員,便能免費使用這個模型的 API 服務,也因此,此專案在上架到開源社群短短不到 10 天,吸引到近 1500 名工程師的「星星」。


Llama-OCR 體驗與實作:free_ocr

若查看 Llama-OCR 的套件,讀者應該可以發現:除了官方的前端介面可以上傳照片使用外,其開源到 github 社群的工具為 javascript 的語法,對於具備前端開發經驗的工程師,非常好上手,但是對於一般只懂 Python 的工程師卻有基本的門檻在。

因此 AI . FREE Team 將其改寫為 Python 的套件,只需要透過 pip 安裝套件,並取得 together.ai 的免費 API,便能透過 5 行程式碼調用 llama-OCR,話不多說立即提供大家程式碼:

# 安裝 free_ocr 套件
!pip install free_ocr
# 導入套件
from free_ocr import ocr
# 輸入 API key
api_key = "your-together-api-key"
# 針對圖片進行 OCR
result = ocr("path/to/your/image.jpg", api_key=api_key)
# 查看辨識結果
print(result)


本週的 AI . FREE Newsletter 簡單探討企業導入 AI 的準備,若你還想知道更多 AI 相關的趨勢或資訊,歡迎追蹤 AI . FREE Team 粉絲專頁,或是加入 AI . FREE Team - Community 自由團隊 學習社群,讓我們一起跟上AI時代的洪流。