首页 > 焦点要闻 > 无数据 不模型,看亚马逊云科技如何打造生成式AI时代的数据基座

无数据 不模型,看亚马逊云科技如何打造生成式AI时代的数据基座

2024-05-07 21:41  

基本信息

面向行业
应用领域
 
日前,亚马逊云科技大中华区产品部总经理陈晓建发表“无数据 不模型——生成式AI时代的数据基座”主题分享,系统介绍了亚马逊云科技如何在生成式AI时代为合作伙伴及客户打造数据基座。
 
“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。”亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。
 
无数据不模型
 
 
陈晓建指出,数据是企业在生成式 AI 时代取得成功的关键。每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。
 
生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书。而数据结合基础模型会产生独特价值。
 
例如:Perplexity正是将传统搜索,客户数据与大型语言模型的推理能力和文本转换能力相结合,产生了独特的价值。Perplexity是一家目前正在构建世界上第一个对话答案引擎的公司,自2022年12月推出以来,这家初创公司的网站和移动应用程序实现了快速增长,每月吸引了1000万用户,仅在11月就有5300万的访问量。值得注意的是,Perplexity是在没有依靠口耳相传和在线讨论的情况下对传统营销进行大量投资的情况下实现这一目标的。
 
 
企业需要高效管理飞速发展的生成式 AI 应用产生的新数据。亚马逊打造的Rufus是一款以生成式AI为核心的专业购物助手,能够解答客户的购物疑问、提供产品比较,并根据对话情境进行推荐。它将为亚马逊商城超过2亿的Prime 会员提供服务,在提升客户体验的同时也会产生大量新的数据。
 
用企业自身的数据去差异化生成式AI应用,通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调和持续预训练,这三种方式适用不同的应用场景。Amazon Bedrock提供对这三类模型定制方式的支持:
 
检索增强生成(RAG)——企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个方法相对简便。适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。
 
微调——微调使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。微调的门槛介于预训练和RAG两者之间。适用场景包括角色理解、输入理解、输出格式控制等。
 
持续预训练——企业利用自身专有数据(如内部文档、客户记录等)对模型进行持续预训练。这种持续预训练门槛较高,成本较大,但是可以得到一个企业自身定制的行业大模型。适用场景包括理解行业领域知识/术语,以及用于严控数据合规等。
 
数据基座构建必备的三大核心能力
 
陈晓建介绍,亚马逊云科技持续引领数据基座构建必备的三大核心能力,即模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力,助力企业在生成式AI时代取得成功。
 
企业构建生成式AI应用需要具备强大的数据能力一:
利用现有数据支持微调或预训练模型的能力
 
从原始数据集到训练出基础模型需要解决三个主要问题,找到合适的存储来承载海量数据;清洗加工原始数据为高质量数据集以及对整个组织内数据的发现编目治理。
 
在数据存储方面,扩展性和响应速度是关键。
 
Amazon S3的容量,安全和功能都满足微调和预训练基础模型对数据存储上的要求: S3拥有超过200万亿个对象,平均每秒超过1亿个请求。亚马逊云科技上超过20万个数据湖都使用了S3。Amazon S3几乎是云上扩展性的代名词,它支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层以降低训练成本。
 
专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。LG AI Research 使用Amazon FSx for Lustre 将数据分发到实例中来加速模型训练,开发了自己的基础模型 EXAONE,通过减少基础设施管理和提高GPU扩展效率,降低了约35%的成本。
 
在数据清洗方面,企业面临着繁重的数据清洗加工任务。
 
Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。
 
Amazon EMR serverless采用无服务器架构,它易用使用,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源,性能上拥有比开源快2倍以上的速度,且用户只需为使用的时间和资源付费,同时提供实时监控和跨AZ的高可用设计。
 
Amazon Glue是简单、可扩展的无服务器数据集成服务,它可以更快地集成数据,可以连接不同数据源并简化相关的代码工作;它提供大规模自动化功能,通过Amazon Glue Studio提供可视化创作体验,通过拖拉拽快速集成源和目标;它具有无服务器执行引擎,可降低管理运维难度;它还提供基于Spark、Python和Ray这种广泛使用的框架,以方便开发者进行灵活构建。
 
在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。
 
Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。
 
企业构建生成式AI应用需要具备强大的数据能力二:
将现有数据快速结合模型产生独特价值的能力
 
基础模型自身有一定的局限性:缺乏垂直行业的专业知识,缺乏时效性(不知道最新发生的事情),生成错误信息——幻觉问题,以及用户敏感数据的隐私合规风险。
 
用户期待生成式AI给出高质量答案,但简单的对话背后蕴藏着复杂的提示工程。通过提示工程获取模型介绍,从企业数据库获取用户背景信息,从RAG获取上下文,最后才是用户的问题及问题相关的提示词。
 
亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。“我们预计,随着新用例的不断出现,我们在该领域的创新速度将迅速加快。”陈晓建表示。
 
以图数据库为例,它擅长处理复杂关联,在社交网络、推荐系统、欺诈检测、知识图谱等领域被广泛应用。以知识图谱为例,它被广泛应用于制造业当中,用于建设跨产品生命周期集成的数字主线。知识图谱擅长结构化知识,并能够确保数据准确,劣势在于不能理解自然语言,只能做严格推理。基础模型和知识图谱正好相反,能理解自然语言但缺乏专业知识。两者结合可以获得更精确专业的信息以减少幻觉,也可以对不准确的回答进行溯源和纠偏。
 
亚马逊云科技专门构建了图数据库Amazon Neptune,并为其推出了分析数据库引擎,能够提升80倍的图数据分析速度,使用内置算法可在几秒钟分析数百亿个连接。通过将图和向量数据一直存储能够实现更快的向量搜索。
 
企业构建生成式AI应用需要具备强大的数据能力三
有效处理新数据,助力生成式AI应用飞速发展的能力
 
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。
 
Amazon Memory DB内存数据库本身就是一个高速的缓存,同时也支持向量搜索。它能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。这对于欺诈检测和实时聊天机器人等实时场景至关重要。
 
Amazon OpenSearch Serverless用于向量搜索,可省去企业配置运维OpenSearch的负责,快速占领市场。
 
Amazon Music通过分析用户和歌曲的特征,并将它们转换成向量以提高推荐精准度。Amazon Music已通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,以为全球用户提供实时音乐推荐。Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量,并能够处理每秒高达7,100次的查询峰值,有效支撑其推荐系统。
 
 
生成式AI的数据飞轮——数据,模型,应用程序
 
“希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础。这样企业就可以高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并收到终端用户的欢迎,进而产生更多的数据。这些新数据又会继续提升模型的准确度,创造更好的用户体验,从而实现生生不息的正向生成式AI数据飞轮,带动我们企业的业务走向成功。”陈晓建总结说。
 
作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。
 
赞 0个人觉得赞
logo

北京康邦科技有限公司

规模:

网站: http://www.combanc.com.cn/

北京康邦科技有限公司提供面向智慧教育的IT整合服务, 以智慧校园整体建设和运维为目标,综合应用云计算、物联网、大数据、移动互联、虚拟仿真(VR)等新一代信息技...

粉丝0

关联信息

关于我们 | 全生命周期管理 | 服务的客户 | 版权说明 | 联系我们

公司名称:北京金誉在线伙伴文化传播有限公司    备案号:京ICP备 15026202号-1

意见
反馈
返回
顶部