Little Lingxi/数据注释成为AI巨人的战场的新战场
时间:2025-06-19 09:28 作者:bat365在线平台官网

图:巨型全球技术在大型AI模型上越来越有竞争力。 Meta花费了148亿美元,以获得49%的AI量表股份,旨在领导未来的大型模型数据培训。为了改善人工智能的竞争业务(AI),上周,梅塔花了近150亿美元来获得数据标签公司,并为初创企业的单个外部融资赢得了新的票据。该交易以数据质量数据在模型性能中的关键作用,并可以触发新的工业武器竞赛。所谓的数据注释是指通过手动或算法含义向原始数据(例如文本,图片,语音,视频等)添加标签或注释的过程,该过程提供了对机器研究的培训和推理支持。应该指出的是,在大规模语言模型起义之前,数据注释已在学术研究领域广泛使用(到2022年底)。例如,在2007年,Li Feifei在S的团队坦福大学(Tanford University)启动了Imagenet(图像数据库)项目,该项目通过众包标志着大量图像,正式启动了数据标签行业的开发。 2016年后,数据标签行业进入了一段快速发展的时期,出现了大量的初创企业和平台,Google和Meta开始组建自己的标签团队。同时,数据标签应用领域从传统的互联网行业渗透到许多领域,例如自动驾驶,技术融资和高端制造业。 CHATGPT的出现进一步刺激了对标签数据的需求,因为只有通过连续的“投资”高质量和专业文本内容,才能帮助AI模型获得更好,智能的决策能力。赞赏上升,创始人在一夜之间很丰富。作为行业领导者,Scale AI于2016年成立。在早期,它提供了内容审查,数据提取和其他业务S服务。 2018年,该公司已正式更改为AI培训数据服务提供商,并开始与OpenAI合作,深入参与GPT-2数据注释工作和后续模型。多年来,AI量表已逐渐从注释服务提供商变为AI基础设施公司,该公司收集了广泛的客户和业务资源。数据显示,2024年的AI量表收入约为8.7亿美元,而Google支付的服务费仅达到1.5亿美元。在2025年初,该公司的赞赏达到了140亿美元,联合创始人露西·郭(Lucy Guo)也以13亿美元的净资产命名为“从头开始最年轻的最年轻的女性”。目前,巨型全球技术与AI模型越来越具竞争力。今年4月发布的Llama 4的大型美洲驼模型模型在市场上变得寒冷,外部世界未能满足T他期望水平。公司的创始人扎克伯格面临着投资者的巨大压力。林的背景是,Meta以148亿美元的价格获得了49%的非共享AI股份,其目的是将来培训大型模型数据。完成交易后,Cale AI的赞赏将增加到290亿美元。招募新闻工作者作为另一种趋势的编码人员的吉加行业的经济吸引了集合的注意力。 Outier是一个规模AI的平台,近年来招募了专业记者来参与在线数据注释。尽管记者缺乏数据处理经验,学习机器或技术行业,但对理解媒体工人的文本,验证事实和写作能力的异常值非常重要。由于这种类型的兼职工作在时间上更加灵活,因此每小时17至20美元的薪水非常慷慨,记者聚集在这里。特别是,媒体行业是受AI技术影响的艰苦攻击区域。根据挑战者,格雷和圣诞节的年度报告,美国新闻机构在2024年删除了近5,000个工作岗位,去年增长了59%。从无休止的工作到网络博览会,记者的职业生涯在不断变化的时间内已成为脚注。