但其挑战在于的执行能力和自主决策的准确性。 那么相应的,在实施模式时,团队需要对的自主能力有充分信任,并能够设计合理的监督机制以确保的表现符合预期。 三、成效预估:从评测工作流中拆解评测维度和打分标准 当你规划需求时,不可避免地要对能力上线后的成效进行评估以便指导产品后续的迭代方向。而对于应用来说也是一样,如何定义业务结合大模型后的评估标准值得商榷。 比如你在做客户服务场景,目标是提高顾客服务效率和满意度
拆解目标后你需要让模型
基于底层知识库、话术推荐等信息,辅助甚至是替代人工客服收 乐队数据库 集顾客信息后并完成电商场景的售前导购、答疑解惑、售后服务等流程。 梳理这些业务流程的过程中,相信你会抽象出一些标准能力。关键来了,功能好不好用,效果达不达预期,你得定义一条评估的基准线,才能指导产品优化后的效果观测。 这条评估基准线究竟是什么,怎么定义? 在说评估标准前,先来了解下评测流程以及其中涉及到的关键环节。 以虚拟陪伴机器人为例,整个评测过程中的关键角色包括业务侧(业务产品、算法和工程团队)、评测平台侧(评测运营团队、评测人员(含外包)、负责评测平台的产品和工程团队。
其中常见的评测环节包括基线
评测、模型迭代评测和对话质量评测,具体工作流如下: .基线评 竞争和消费者保护 测 本轮评测通常发生在模型部署训练后,由评测团队从题库中获取评测题目(不少公司会有各自的数据平台,支持生成题库及回复),在数据平台上开展评测并生成评测报告。整个过程对话主题自动匹配,算法再根据完整的知识库进行; 图:基线评测的工作流 .模型迭代评测 该评测环节通常发生在产品发布后,在机器人与用户互动的过程,可能会伴随着模型底座的持续训练和模型能力的评测,辅助算法在规模化、、记忆、安全、多模态、基座能力上得出迭代的结论。
图模型迭代评测的工作流
对话效果评测 产品上线后与测,评测团队会持续对实际的 买入铅 对话效果进行评测,提升回复的二分率,对不符合评测要求的回复打分和归因。 图:对话效果评测的工作流 而在上述的三类核心的评测工作流中,「评估标准」贯穿始终,作为各方业务协作的基准线。那么,如何定义评测标准呢? 图:评测标准的创建流程 从职责方面来看,评测标准一般由业务产品联合算法向评测运营团队提需,由评测运营团队搭建评测工作流,制定评测标准后再与业务产品算法团队对齐; 从内容层面来看,评测标准主要包括评估维度和打分标准两方面: )安全性:确保对话内容符合合规性,不包含违规内容、敏感话题或不当言论。 评估要点:检视生成的回复中是否包含政治、暴力、色情、歧视等不良内容,确保模型符合监管要求。