长期以来,美国国防部一直依靠试验和鉴定 (T&E) 流程来鉴定并确保其系统、平台和技术在全面投入使用之前,能以安全可靠的方式运行。近年,大型语言模型和生成式AI技术的发展,给装备赋能的同时,也为试验鉴定工作带来挑战:人工智能安全标准和政策尚待制定,大语言模型的复杂性和不确定性,使得试验鉴定工作在面对人工智能赋能系统时更为复杂。
如何对AI赋能系统进行试验鉴定?美国防部在首席数字人工智能办公室(CDAO)算法战部门下成立了利马特遣队( Task Force Lima),加速对生成式人工智能的掌握、鉴定和部署。
CDAO的主要任务是确保AI系统在部署前能够满足安全、可靠的标准,并能够有效支持军事任务。为此,CDAO制定了一套AI赋能系统的试验鉴定框架,评估了AI试验鉴定能力的需求与当前的差距,并提供了若干工具软件和Python库供试验鉴定单位参考使用。

CDAO今年2月份的一份PPT,透露了相关内容。我们将其全文翻译,供同行参考。以下为内容摘要:
1. CDAO评估和保证任务:旨在为利益相关者提供信心,确保美国国防部AI赋能系统满足要求,并通过道德行动支持任务。利益相关者包括战斗人员、指挥官、项目经理、采购人员、监管机构、纳税人和国际盟友。
2. 保证最佳实践:关注工作层面的测试人员,使没有AI/ML专业知识的测试人员也能够达到80-90%的目标。
3. 保证系统研发:AI试验和评估(T&E)的需求和差距报告指出,DoD AI测试人员的成熟度和领域知识不足,在不同的国防部环境、平台和任务中使用工具存在困难。
4. CDAO T&E框架:作战试验鉴定(OT&E)、人机系统整合(HSI)T&E、系统集成(SI)T&E;AI模型T&E。
5. 复杂决策问题:黑盒算法、游戏化和奖励黑客、敏捷迭代开发、过拟合训练数据等问题。
6. AI T&E库:包括用于AI模型测试的一系列Python库,以及与MLOps平台和能力的无缝集成。
7. RAVEN - AI T&E平台:为没有基础设施的组织提供最佳开源工具。
8. 项目评估:强调了T&E与训练数据分割的重要性,需要不断迭代算法和操作指标,以及T&E在优先数据收集、标注和模型开发路线图方面的关键反馈作用。
9. 合作与访问:CDAO T&E正在积极寻求关键政府合作伙伴,研AI T&E和AI保证,并支持AI技术的集成和部署。
5216694.png)
5325286.png)
5021560.png)
7358568.png)