吴忠躺衫网络科技有限公司

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用GPU加速在Orange Pi?5上跑LLMs:人工智能愛好者High翻了!

香橙派 ? 2024-01-22 15:29 ? 次閱讀

本期視頻將會給人工智能愛好者們帶來超級震撼!

視頻中,我們將深入了解利用GPU加速在Orange Pi5上跑LLMs的精彩世界。最近知乎上的一篇文章《利用GPU加速,在Orange Pi上跑LLMs》引起了我們的注意,這篇文章主要展示了GPU加速的LLM在嵌入式設備上以合適的速度順利運行。具體來說,是在Orange Pi 5(8G)上,作者通過機器學習編譯(MLC)技術,實現了Llama2-7b以2.5 toks/sec的速度運行,RedPajama-3b以5 toks/sec運行。此外,還在16GB版本的Orange Pi 5上以1.5 tok/sec的速度運行Llama-2 13b模型。

下面我們看看他們是如何做到的:

背景

開放語言模型的進步已經催生了跨問題回答、翻譯和創意任務的創新。雖然當前的解決方案需要高端的桌面GPU甚至服務器級別的GPU來實現滿意的性能。但為了使LLM日常使用,我們想了解我們如何在廉價的嵌入式設備上部署它們。

許多嵌入式設備配備了移動GPU(例如Mali GPU)可以用來加速LLM的運行速度。在這篇文章中,我們選擇了Orange Pi 5,這是一個基于RK3588的開發板,與Raspberry Pi相似,但也配備了更強大的Mali-G610 GPU。這篇文章總結了我們首次嘗試利用機器學習編譯,并為該設備提供了開箱即用的GPU加速。

面向Mali GPU的機器學習編譯

wKgaomWuGSKAXYx7AAIZygnubI8614.png

機器學習編譯(MLC)是一種新興技術,它自動編譯和優化機器學習工作負載,并將編譯后的工作負載部署到廣泛的后端。在寫作時,基于Apache TVM Unity,MLC支持的平臺包括瀏覽器(WebGPU, WASM)、NVIDIA GPU(CUDA)、AMD GPU(ROCm, Vulkan)、Intel GPU(Vulkan)、iOS和MacBooks(Metal)、Android(OpenCL)以及Mali GPU(本文)。

基于通用機器學習編譯實現Mali代碼生成

MLC是建立在Apache TVM Unity之上的,這是一個用于在不同硬件和后端上編譯機器學習模型的通用軟件棧。為了將LLM編譯到Mali GPU上,我們復用了所有現有的編譯流程,沒有進行任何代碼優化。更具體地說,我們成功地部署了Llama-2和RedPajama模型,采取了以下步驟:

·復用了模型優化步驟,包括量化、融合、布局優化等;

·復用了在TVM TensorIR中的定義的通用GPU內核優化空間,并將其重新運用在到Mali GPU;

·復用了基于TVM的OpenCL代碼生成后端,并將其重新運用在到Mali GPU;

·復用了現有的用戶界面,包括Python API、CLI和REST API。

運行方法

本節提供了一個分步運行指南,以便您可以在自己的Orange Pi設備上嘗試它。這里我們使用RedPajama-INCITE-Chat-3B-v1-q4f16_1作為運行示例。您可以用Llama-2-7b-chat-hf-q4f16_1或Llama-2-13b-chat-hf-q4f16_1(需要16GB的板)來替換它。

準備工作

請首先按照這里的指示,為RK3588板設置OpenCL驅動程序。然后從源代碼克隆MLC-LLM,并下載權重和預構建的庫。

# clone mlc-llm from GitHub

git clone --recursive https://github.com/mlc-ai/mlc-llm.git && cd mlc-llm

# Download prebuilt weights and libs

git lfs install

mkdir -p dist/prebuilt && cd dist/prebuilt

git clone https://github.com/mlc-ai/binary-mlc-llm-libs.git lib

git clonehttps://huggingface.co/mlc-ai/mlc-chat-RedPajama-INCITE-Chat-3B-v1-q4f16_1

cd ../../..

使用CLI

從源代碼編譯mlc_llm_cli

cd mlc-llm/

# create build directory

mkdir -p build && cd build

# generate build configuration

python3 ../cmake/gen_cmake_config.py

# build `mlc_chat_cli`

cmake .. && cmake --build . --parallel $(nproc) && cd ..

驗證是否編譯成功

# expected to see `mlc_chat_cli`, `libmlc_llm.so` and `libtvm_runtime.so`

ls -l ./build/

# expected to see help message

./build/mlc_chat_cli --help

使用mlc_llm_cli運行LLM

./build/mlc_chat_cli --local-id RedPajama-INCITE-Chat-3B-v1-q4f16_1 –device mali

wKgZomWuGSKAU8uVAAH0oewE22c363.png

CLI運行截圖

使用Python API

編譯TVM runtime(無需編譯完整TVM編譯器)

# clone from GitHub

git clone --recursive https://github.com/mlc-ai/relax.git tvm_unity && cd tvm_unity/

# create build directory

mkdir -p build && cd build

# generate build configuration

cp ../cmake/config.cmake . && echo "set(CMAKE_BUILD_TYPE RelWithDebInfo)\nset(USE_OPENCL ON)" >> config.cmake

# build `mlc_chat_cli`

cmake .. && cmake --build . --target runtime --parallel $(nproc) && cd ../..

設置PYTHONPATH(可按需添加到bashrc或zshrc)

export TVM_HOME=$(pwd)/tvm_unity

export MLC_LLM_HOME=$(pwd)/mlc-llm

export PYTHONPATH=$TVM_HOME/python:$MLC_LLM_HOME/python:${PYTHONPATH}

運行下列Python腳本

from mlc_chat import ChatModule

from mlc_chat.callback import StreamToStdout

cm = ChatModule(model="RedPajama-INCITE-Chat-3B-v1-q4f16_1")

# Generate a response for a given prompt

output = cm.generate(

prompt="What is the meaning of life?",

progress_callback=StreamToStdout(callback_interval=2),)

# Print prefill and decode performance statistics

print(f"Statistics: {cm.stats()}\n")

評論區Hihg翻了!

這篇文章同時發表 Hacker News。在人工智能評論區,大家的討論熱鬧非凡,令人目不暇接。他們熱烈地討論Orange Pi 5的硬件選項和可擴展性,感嘆如此強大的模型,如此實惠的價格,將改變游戲規則,認為這一突破將為預算有限的人工智能愛好者帶來了新的可能性。

“這一功能強大的工具使得在Orange Pi 5等設備上充分發揮人工智能的潛力變得前所未有的簡單。對于開發者和業余愛好者來說,這都是一個改變游戲規則的工具?!?/p>

“通過 GPU加速語言模型編譯,Orange Pi 5已被證明是一款經濟實惠的人工智能利器。這款設備擁有令人驚嘆的速度,能以極低的成本運行高性能模型,正在徹底改變人工智能領域?!?/p>

我們欣喜地可以看到,Orange Pi 5正在以其強大的人工智能能力讓越來越多的人工智能愛好者加入到創新、創意的世界,不斷進行新的實踐和探索。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    4777

    瀏覽量

    129360
  • 人工智能
    +關注

    關注

    1796

    文章

    47683

    瀏覽量

    240302
  • 開發板
    +關注

    關注

    25

    文章

    5121

    瀏覽量

    98207
收藏 人收藏

    評論

    相關推薦

    Banana Pi 攜手 ArmSoM 推出人工智能加速 RK3576 CM5 計算模塊

    的直接替代品。 ArmSoM 在其創建過程中寫道:“ArmSoM-CM5 是一款由 Rockchip RK3576 第二代 8nm 高性能 AIOT(人工智能物聯網)平臺驅動的計算模塊。它集成了四核
    發表于 12-11 18:38

    Banana Pi攜手ArmSoM推出人工智能加速 RK3576 CM5

    AIOT(人工智能物聯網)平臺驅動的計算模塊。它集成了四核 [Arm] Cortex-A72 @ 2.2GHz 和四核 Cortex-A53 @ 1.8GHz,以及專用的 NEON 協處理器、6
    的頭像 發表于 12-11 18:36 ?551次閱讀
    Banana <b class='flag-5'>Pi</b>攜手ArmSoM推出<b class='flag-5'>人工智能</b><b class='flag-5'>加速</b> RK3576 CM<b class='flag-5'>5</b>

    嵌入式和人工智能究竟是什么關系?

    人工智能的結合,無疑是科技發展中的一場革命。人工智能硬件加速中,嵌入式系統以其獨特的優勢和重要性,發揮著不可或缺的作用。通過深度學習和神經網絡等算法,嵌入式系統能夠高效地處理大量數
    發表于 11-14 16:39

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    幸得一好書,特此來分享。感謝平臺,感謝作者。受益匪淺。 閱讀《AI for Science:人工智能驅動科學創新》的第6章后,我深刻感受到人工智能在能源科學領域中的巨大潛力和廣泛應用。這一章詳細
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    很幸運社區給我一個閱讀此書的機會,感謝平臺。 《AI for Science:人工智能驅動科學創新》第4章關于AI與生命科學的部分,為我們揭示了人工智能技術在生命科學領域中的廣泛應用和深遠影響。
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    ,無疑為讀者鋪設了一條探索人工智能(AI)如何深刻影響并推動科學創新的道路。閱讀這一章后,我深刻感受到了人工智能技術科學領域的廣泛應用潛力以及其帶來的革命性變化,以下是我個人的學習
    發表于 10-14 09:12

    risc-v人工智能圖像處理應用前景分析

    人工智能推薦系統中強大的圖形處理器(GPU)一爭高下。其獨特的設計使得該處理器功耗受限的條件下仍能實現高性能的圖像處理任務。 Ceremorphic公司 :該公司開發的分層學習處理器結合了
    發表于 09-28 11:00

    人工智能ai4s試讀申請

    目前人工智能在繪畫對話等大模型領域應用廣闊,ai4s也是方興未艾。但是如何有效利用ai4s工具助力科研是個需要研究的課題,本書對ai4s基本原理和原則,方法進行描訴,有利于總結經驗,擬按照要求準備相關體會材料。看能否有助于入門和提高ss
    發表于 09-09 15:36

    名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新

    材料基因組工程的推動下,人工智能如何與材料科學結合,加快傳統材料和新型材料的開發過程。 第4章介紹了人工智能在加快藥物研發、輔助基因研究方面及合成生物學中的普遍應用。 第5章介紹了
    發表于 09-09 13:54

    FPGA人工智能中的應用有哪些?

    FPGA(現場可編程門陣列)人工智能領域的應用非常廣泛,主要體現在以下幾個方面: 一、深度學習加速 訓練和推理過程加速:FPGA可以用來加速
    發表于 07-29 17:05

    Hailo聯手樹莓派,開創人工智能新紀元

    近日,人工智能處理器領導品牌Hailo正式宣布與樹莓派展開深度合作。Hailo將為樹莓派推出專用AI套件,支持樹莓派5的全新AI功能。此次強強聯合,旨在用精準高效的AI功能幫助廣大專業人士和創意愛好者
    的頭像 發表于 06-06 16:08 ?797次閱讀

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V2)

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V2) 課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https
    發表于 05-10 16:46

    5G智能物聯網課程之Aidlux下人工智能開發(SC171開發套件V1)

    課程類別 課程名稱 視頻課程時長 視頻課程鏈接 課件鏈接 人工智能 參賽基礎知識指引 14分50秒 https://t.elecfans.com/v/25508.html *附件:參賽基礎知識指引
    發表于 04-01 10:40

    FPGA深度學習應用中或將取代GPU

    ,并在運算速度和吞吐量方面提供了更高的性能。它們的使用壽命也更長,大約是 GPU 的 2-5 倍,并且對惡劣環境和其它特殊環境因素有更強的適應性。 有一些公司已經在他們的人工智能產品中使用了 FPGA
    發表于 03-21 15:19

    嵌入式人工智能的就業方向有哪些?

    嵌入式人工智能的就業方向有哪些? 新一輪科技革命與產業變革的時代背景下,嵌入式人工智能成為國家新型基礎建設與傳統產業升級的核心驅動力。同時在此背景驅動下,眾多名企也紛紛嵌入式
    發表于 02-26 10:17
    噢门百家乐玩的技巧| 利赢百家乐现金网| 大发888bet亚洲| 百家乐官网最大的赌局| 澳门太阳城娱乐城| 新锦江百家乐官网娱乐网| qq德州扑克官网| 百家乐官网计划软件| 五原县| 百家乐黏土筹码| 百家乐官网玩法规| 霍邱县| 珠江太阳城广场| 百家乐二游戏机| 真人百家乐官网蓝盾| 茌平县| 能赚钱的棋牌游戏| 百家乐平台那家好| 百家乐官网线上| 宝马会娱乐城网址| 玩百家乐有何技巧| 劳力士百家乐官网的玩法技巧和规则 | 百家乐官网网址| 大发888可靠吗| 上市百家乐.评论| 三国百家乐官网的玩法技巧和规则| 大亨百家乐官网游戏| 澳门百家乐游戏官网| 百家乐视频游戏世界| 同花顺百家乐官网的玩法技巧和规则 | 百家乐官网真人游戏网上投注 | 百家乐太阳城娱乐城| 免费百家乐官网预测软件| 哪家百家乐官网最好| 广东百家乐官网桌布| 百家乐官网双面数字筹码| 网上百家乐官网好玩吗| 百家乐官网重要心态| ewin娱乐城官方下载| 嘉义县| 百家乐官网有技巧么|