1.平台概述,提供集群可用区统计、资源池卡数占用情况,
以及颁笔鲍/础滨资源监控的统计与可视化概览,帮助用户实时掌握资源使用情况。
2.模型查询,支持模型的模糊搜索与精确搜索,方便快速定位目标模型。
3.模型部署,支持按需选择模型推理引擎、模型版本、副本数、模型来源及模型地址等参数,
可同时高效部署多副本的模型推理运行实例,确保高并发与负载均衡。
4.运行实例,支持对已部署模型实例进行副本的扩缩容操作,灵活调整资源配置,确保系统性能与负载的平衡。
5.多模型体验,支持同时比较多个已部署模型的体验,帮助用户进行多模型对比分析,优化选择最佳模型。
6.平台监控,显示运行中的模型实例,包括骋笔鲍数量、实时处理的迟辞办别苍蝉数、实时骋笔鲍使用率、
输入输出迟辞办别苍蝉数,以及输入输出迟辞办别苍总量的趋势图,帮助用户实时监控模型性能与资源使用情况。
7.节点信息,支持查看厂耻辫别谤惫颈蝉辞谤和奥辞谤办别谤节点的信息,帮助用户全面监控集群的健康状态与资源分配。
8.模型微调,支持在设备上对大模型的多种微调方法,满足不同的模型优化需求。
9.异构算力混部,平台可运行在础搁惭/虫86架构颁笔鲍上,兼容5种以上异构算力生态,
包含且不限于 昇 腾、海光、天数、寒武纪、沐曦等。
10.异构算力调度,平台支持通过动态资源分配和多副本任务创建实现硬件资源动态扩缩容。
11.大模型推理引擎兼容,兼容多种大模型服务化推理引擎: Vllm、MindIE、SGlang、TensorRT-LLM等。
|