Yao Shunyu提到的“ AI下半年”仍然不了解
作者:bet356官网首页 发布时间:2025-06-04 10:22
几个小时前,Openai研究员Yao Shunyu出版了一个“ AI下半场”主题博客。它指出:“接下来,AI的重点将从解决问题转变为确定问题。在这个新时代,评估的重要性将超过培训。我们需要考虑如何培训AI和如何衡量如何衡量开发,这可能需要更接近对产品经理的思考。”由于观点是如此聪明,因此该博客吸引了许多从业者观看。请注意,亚马逊的首席应用程序科学家尤金·扬(Eugene Yan)最近还发表了一个博客,该博客专门介绍了AI产品的评论,据说这是Yao Shuneu博客的强大补充。该博客还获得了许多赞美。以下是原始博客。无法保存自动预览产品。您需要调整过程。产品分析是许多人不了解的东西。有些人总是认为添加工具,指示器或让大语言模型是RefeREE(LLM-AS-Gudge)可以解决问题并保存产品。这只是为了避免关键问题并避免真正要完成的工作。该分析不是一项旨在的方法,也不是使用科学技术,开发驱动的开发以及对AI输出的持续监控的持续实践的快速方法。建立产品评估系统是科学方法的重要培训。这是真正的秘密。这是一个持续的问题,实验和审查的循环。首先,观察开始,即“查看数据”。我们需要检查输入内容,AI的输出结果以及用户与系统之间的交互。数据将告诉我们系统在哪里正常工作,更重要的是,出现问题的地方。发现这些故障模式是有效改进的起点。然后,我们标记数据并确定问题的输出。这意味着成功的标签UL和失败的样本以建立数据集的平衡和代表。理想情况下,正和负样本应为55,并涵盖各种输入方案。该数据集将作为目标测试的基础,以帮助我们监视确定问题的改进。然后,我们提出了一个假设:为什么会发生此错误? MAATHE搜索抹布不会返回上下文上下文,否则该模型将无法应对复杂的(有时是矛盾的)指令。通过评估诸如搜索文档,推理轨迹和错误输出之类的数据,我们可以确定将首先解决的问题以及要证明的假设。然后设计实验以验证假设。例如,重写提示单词,更新搜索服装或切换到不同的型号。一个良好的实验应该清楚地证明该假设是有效的,并且最好设置一个基线对照组进行比较。测量和检查的结果错误通常是最困难的链接。这与随机感觉判断不同。确定Pagesexpermentiments经验是否真的有效的必要:准确性是否提高?缺陷减少了吗?新版本在比较测试中的性能更好吗?无法衡量的改进根本不是。如果实验成功,将应用更新。如果失败成功,则误差将更深地挖掘,并将再次纠正假设。在这个周期中,产品分析成为推动产品开发,减少缺陷并赢得用户信心的原因。应用科学方法开发AI产品。由评估驱动(EDD)驱动的开发将帮助我们创建更好的AI产品。这与开发 - 驱动 - 驱动 - 编写测试用例,然后实现可能通过测试的代码。 EDD遵循相同的哲学:在开发AI功能之前,请先确定成功标准H产品评估以确保有一天的明确目标和可衡量的指标。让我告诉您一个秘密:机器研究团队已经这样做了几十年了,我们一直基于验证集和测试集建立模型系统,但该语句是不同的。在EDD中,《审查指南开发的方向》。我们首先检查基线(例如简单的提示单词)以获取基准数据。之后,每个单词的立即调整,更新系统并应评估差异:迅速单词的一致性是否提高了准确性?查找更新会增加相关文档的召回率吗?还是效果恶化? EDD向Makita US提供了立即和客观的反馈,其中改进了工作。这个“写作写作 - 进行更改 - 进行评估 - 综合改进”的周期可确保可衡量的发展。我们已经建立的不是模糊的直观酌处权,而是反馈的反馈Gineering工程。首先编写评估标准,然后开发一种可能通过审查的系统。工具的自动测试(LLM-AS-Gudge)也不能与手动管理分开。尽管自动评估可以扩大监视范围,但他们无法弥补人类的忽视。如果我们不积极检查用户的AI和反馈输出,无论多少自动评估工具,产品都不会保存。为了评估和监视AI产品,通常有必要进行质量和标签缺陷样本。有了足够的质量标记数据,我们可以校准自动审查工具以对齐人类酌处权。这可能涉及测量二进制标签的召回/准确性,或通过比较对确定输出之间的相关性。校准测试工具可以有效地扩展AI系统的持续监视功能。但是自动化评估工具无法替代Manu -Managion。我们仍然需要定期示例和标签数据以研究用户的评论。理想情况下,我们应该设计可以通过用户交互获得隐式反馈的产品。但是,显式反馈并不是频繁的,偶尔会有偏见,但也很重要。此外,即使是高度测量了自动分析工具,也不是完美的。但是人类标记也会犯错。只要我们继续收集更高的标签数据质量,我们就可以更好地校准这些工具。维护“数据采样 - 输出注释 - 工具优化”的反馈循环需要严格的组织纪律。自动检查工具本质上是用于管理和反馈过程的放大器。虽然感到很棒 - 在AI中开发产品真是太神奇了,但仍然需要大量的努力。如果团队不采用科学程序,开发驱动的开发以及监视系统输出,则购买或开发其他审核工具将无法节省产品。原始inal链接:https://eugeneyan.com/writing/eval-process/
电话
020-66888888