fastchat-run-llm
/
download_run_orion-14b.sh


# 开始下载模型：
apt update && apt install -y git-lfs net-tools
# 一定要保证有大磁盘空间：
cd /root/autodl-tmp

# 下载 大模型
if [ ! -d "Orion-14B-Chat" ]; then
    echo "start downloading Orion-14B-Chat"
    git clone https://www.modelscope.cn/OrionStarAI/Orion-14B-Chat.git
fi


# 1，安装 torch 模块，防止依赖多次下载
# pip3 install torch==2.0.0

# 安装 flash_attn 需要网络下载 github
# https://www.autodl.com/docs/network_turbo/

source /etc/network_turbo

# 最后安装 软件
pip3 install "fschat[model_worker,webui]" flash_attn


# 清除全部 fastchat 服务
ps -ef | grep fastchat.serve | awk '{print$2}' | xargs kill -9
sleep 1

rm -f *.log

# 首先启动 controller ：
nohup python3 -m fastchat.serve.controller --host 0.0.0.0 --port 21001 > controller.log 2>&1 &

# 启动 openapi的 兼容服务 地址 8000
nohup python3 -m fastchat.serve.openai_api_server --controller-address http://127.0.0.1:21001 \
  --host 0.0.0.0 --port 8000 > api_server.log 2>&1 &

# 启动 web ui 可以给web使用。
nohup python -m fastchat.serve.gradio_web_server --model-list-mode reload --controller-url http://127.0.0.1:21001 \
 --host 0.0.0.0 --port 6006 > web_server.log 2>&1 &

nohup python3 -m fastchat.serve.model_worker --model-names orion-14b,gpt-3.5-turbo \
  --model-path /root/autodl-tmp/Orion-14B-Chat --controller-address http://127.0.0.1:21001 \
  --worker-address http://127.0.0.1:8080 --host 0.0.0.0 --port 8080 > model_worker.log 2>&1 &

sleep 1

tail -f model_worker.log