12月
10日
Databricks 推出用于生成合成数据集的新 API
牛透社消息:据外媒12月9日报道,Databricks 公司今日推出一款应用程序编程接口,可用于机器学习项目的合成数据生成。该 API 在 Mosaic AI Agent Evaluation 中使用,此为公司旗舰数据湖工具,能助开发人员比较人工智能应用输出质量、成本与延迟,其与 6 月推出的 Mosaic AI Agent Framework 协同,后者简化检索增强生成任务。
合成数据由人工智能生成,用于神经网络开发,创建训练数据集比手动组装更高效。Databricks 新 API 旨在生成问答集,对大语言模型驱动应用开发有益。
使用 API 创建数据集分三步:先上传含业务信息的框架或文件集合,格式需为 Apache Spark 或 Pandas 支持,前者是 Databricks 平台开源数据处理引擎,后者是 Python 流行分析工具;上传样本数据后,指定 API 生成的问答数量,还可提供其他说明定制输出,如问题样式、用途及最终用户;因不准确训练数据会降低 AI 模型输出质量,Databricks 开发的 API 可简化专家检查错误流程,生成的综合答案是回答问题所需事实,更便于专家审查编辑。
Databricks 计划明年初发布多项 API 增强功能,新图形界面将助力数据集审阅者快速检查问答对错误并按需添加,还将添加跟踪合成数据集变化情况的工具。