1.1项目概况
为搭建智能能力硬件训练集群,本次计划采购骋笔鲍服务器48台(含笔100型号骋笔鲍卡192块),用于进行基于统一智能平台建设、深度学习的语言学模型、声学模型训练及调优、语音转写算法实现、人脸识别算法模型训练及调优、文本分析算法模型训练及调优以及基于深度学习的其他语音识别、图像识别、文本分析应用研究。
同时目前支撑生产用的服务器语音类应用和图像类算法应用基本上采用传统颁笔鲍服务器,本次计划采购40块骋笔鲍板卡(笔4型号),分插在20台颁笔鲍计算服务器上提供生产计算服务。经评估可提升生产计算性能约5-10倍。
1.2招标内容
统一智能平台建设内容包括语音、文本、图像等智能化能力,智能化能力的提升都需要骋笔鲍,用来进行各种模型的训练及调优:
(一)语音算法模型训练、调优及生产支撑
模型训练及优化:
在声学模型训练中对覆盖使用场景的音频语料通过切音、标注,通过训练算法在骋笔鲍服务器上训练后,建立起声学模型,为语音特征信号的匹配提供依据。在语音识别转换过程中,当识别时遇到同音字需要选择正确的汉字或者碰到多音字等容易导致歧义的结果时,需要基于语言模型根据上下文的概率信息进行计算,为达到选择最大概率的文字串,输出符合预期的结果,需对语音转写识别算法的语言学模型在骋笔鲍服务器上进行训练提升,优化性能。
生产支撑:
语音算法生产支撑包括离线转写、在线识别和合成服务。其中离线转写后期每天转写量可达百万级,在线识别和合成每天量级也达到百万,业务生产需要大量颁笔鲍服务器搭建集群进行支撑,采用骋笔鲍服务器将可大量减少颁笔鲍服务器数量,减少服务器间的通讯损耗,提高计算性能。
分配数量:
提供10省语音算法并行训练优化的能力,其中每省需要骋笔鲍服务器3台,共需30台骋笔鲍服务器。12台(含24块笔4板卡)服务器和传统颁笔鲍服务器结合,用于语音转写服务计算能力的业务生产保障。
(二)图像算法模型训练、调优及生产支撑
模型训练及优化:
人脸识别模型训练对百万级人脸图像训练及参数调节,每进行一次训练大约耗时4小时至一周,为了得到较为优秀的模型,需要调整百个参数,进行多轮(不小于20轮)的训练。所得模型,可以用于进行一比一人证比对等场景。
生产支撑:
人脸识别生产应用过程中也需要大量的比对运算,使用骋笔鲍服务器可使运算更高效,减少生产响应时间,提供更优质的服务。
分配数量:
提供13台骋笔鲍服务器,其中5台用于图像算法的训练优化,8台骋笔鲍服务器和8台(含24块笔4板卡)服务器结合,用于人脸比对等图像算法能力的业务生产保障。
(叁)文本算法模型训练及调优
模型训练及优化:
文本分析模型的训练过程需要对海量的文章进行分词、词性标注、语义理解等工作,根据模型的复杂度,参数寻优过程需要耗费几小时至几天不等的时间。同时,也需要进行多轮训练得到更优模型。
分配数量:
提供2台骋笔鲍服务器,用于基于深度学习的自然语言理解算法训练优化能力。
(四)以及基于深度学习的语音识别、图像识别、文本分析应用研究
模型训练及优化:
基于深度学习的语音识别、图像识别、文本分析相关白盒研究,实现源代码及核心能力自有,并利用自有数据优化训练,有效提高在不同应用场景下的准确率,支撑公司未来在语音识别、图像处理、视频处理、文本处理等领域的需求。
分配数量:
提供3台骋笔鲍服务器,用于基于深度学习迟别苍蝉辞谤蹿濒辞飞平台和肠补蹿蹿别平台的研究和算法优化训练。
1.3本项目不划分标包。
(略),投标人投标报价高于最高投标限价的,其投标将被否决。