摘要:蚂蚁数科在乌镇峰会上发布了其最新的AI数据合成与生产平台AIGD(AI Generated Data),该平台具备PB级数据生产能力,支持数据从生成到训练的全流程自动化处理,极大提高了数据处理的效率和质量。AIGD平台自研了15余种数据合成工具,能够合成包括图片、视频、3D模型等多模态数据,满足多种应用场景下的AI模型训练需求。蚂蚁数科的这一举措标志着AI服务产业的黄金年代即将到来。
2024年11月19日下午,在乌镇峰会上,蚂蚁数科发布了其最新的AI数据合成与生产平台AIGD(AI Generated Data)。该平台因其聚焦“数据合成”而备受关注,展示了行业大模型、具身智能、算力、芯片、数据合成等10项首发成果。
AI发展面临的数据短缺问题
随着大模型技术的快速发展,AI的发展正面临着高质量数据短缺的问题。近年来,机器学习从“以模型为中心”转向“以数据为中心”,高质量数据对于提升模型的准确性和稳定性至关重要。据Epoch AI Research预测,到2026年,现存的用于AI模型训练的高质量语言数据将耗尽。Gartner预测,到2030年,合成数据将成为AI模型的主要训练数据来源,而2024年60%的AI数据将是合成数据。
AIGD平台的能力与特点
AIGD平台是蚂蚁数科申报的首发成果,具备PB级数据生产能力,支持数据从生成到训练的全流程自动化处理,自动化率达到80%,极大提高了数据处理的效率和质量。平台自研了15余种数据合成工具,能够合成包括图片、视频、3D模型、多模态图文视频对、多轮对话、语音信号、心率脑电信号、结构化交易数据等多模态数据,以满足多种应用场景下的AI模型训练需求。
数据合成的重要性
未来的AI应用需要大量稀缺且难以获取的长尾数据,如自动驾驶中的极端天气与极端路况数据,具身智能训练所需要的复杂场景数据。在此背景下,数据合成成为关键。蚂蚁数科AI科技技术负责人、蚂蚁天玑实验室主任李哲在乌镇峰会上表示,高质量数据是AI大模型深入到产业的重要基础,没有好的数据做支撑,一切AI应用都是空中楼阁。
数据标注与质检能力
AIGD平台不仅具备强大的数据合成能力,还包括数据标注和质检能力。在数据标注方面,通过人机协同进行标注,人工智能算法能够自动识别和预处理大部分基础信息,预标注模型依赖人工标注量降低了70%以上。在数据质检方面,平台会根据元信息支持不同粒度的数据质量统计,最大程度理解数据,保证合成及标注后的数据符合预期质量要求。
蚂蚁数科的AI产品布局
蚂蚁数科今年陆续迭代发布了多款AI产品,包括大模型安全评测与防御产品“蚁天鉴”、反深伪造产品ZOLOZ Deeper等。作为一家面向ToB服务的科技公司,蚂蚁数科旗下主要包含“企业用云服务”“企业区块链服务”“企业AI服务”三大核心业务。
AI服务产业的前景
蚂蚁数科AI科技技术负责人李哲表示,我们即将迎来AI服务产业的黄金年代,蚂蚁数科将会坚定在AI ToB领域投入,让AI深入千行百业。近日,OpenAI员工爆料说,新模型“没有那么大飞跃”,主要原因之一便是高质量数据不足所导致的。今年9月份,OpenAI发布推理模型o1,带来了强化学习训练新范式,通过自博弈强化学习,将合成数据的形式训练给大模型,从而大幅增加大模型逻辑推理能力。
结语
蚂蚁数科的AIGD平台的发布,标志着AI数据合成与生产进入了一个新的阶段。随着AI技术的不断发展,高质量数据的需求将越来越大,数据合成将成为AI模型训练的主要来源。蚂蚁数科在AI ToB领域的投入,将推动AI技术深入各行各业,迎来AI服务产业的黄金年代。