一个应用狂赚15亿!打造差异化生成式AI秘密武器,数据是关键(一款app能赚多少钱)
【新智元导读】有的生成式AI应用,已经吸金15亿美元了。风头无限的背后,构建应用的关键,竟然在于这家企业的技术。
生成式AI应用,现在已经风头无两,动辄狂吸数亿美元的投资!
可以说,全世界的大科技公司和独角兽们,已经为生成式AI打造了丰富的生态系统,版图还在不断扩张。
在10月24日刚刚结束的生成式AI构建者大会上,亚马逊云科技就提出了为用户构建完整端到端生成式AI的技术堆栈。
具体来说,亚马逊云科技从5个方面来助力企业和开发者释放生成式AI潜力:
根据IDC在2023年2月发布的全球CIO快速调研,金融、能源、医疗、法律行业的头部机构,在1年内都会尝试引进大模型以及生成式AI能力。
如今我们可以看到,这项预测已经成真。
为生成式AI定制数据
生成式AI,可以用一个公式呈现,即提示词+上下文+大模型=输出结果。
举个栗子,当一位客户想要更换球鞋的颜色,他会提出「我买的鞋子可以换成棕色的吗?」,提出问题便是提示词。
那么上下文是指,之前购买的历史对话信息,以及客户订单记录等数据。
然后需要寻求大模型,检索退换货相关策略,然后根据以往的售后处理案例,再给出结果。
这样,一个生成式AI应用真正的价值就体现了。
但我们要清楚的是,这其中的基础模型,并不是生成式AI的全部。
若说,在这些华丽的应用背后,有着一个非常关键要素——数据。
相比于传统的应用,生成式AI在数据的利用上,有一套特有的流程。
其所需的能力涉及到从数据/语料加工、基础模型训练/调优,到数据治理、知识召回、提示工程等一系列模块。
玩转数据,可是个技术活
目前,已经有72%的头部科技公司指出,「管理数据」已经是阻止他们扩展AI用例的最大挑战之一。
就拿现在最为火热的向量数据库来说,它可以可加速AI应用程序的开发,并简化由AI驱动的应用程序工作负载的运作。
然而,作为一项相对较新的技术,目前能够做出高质量向量数据库的企业,并不多。
与此同时,用户的隐私等问题,也让企业对于私有数据的采用望而却步。
对于垂直领域模型的训练微调,都需要一定的数据累积。
但有些数据是无法共享,拿来公开训练的,比如医疗领域大模型,涉及患者个人、病历等私人重要信息。
另外,数据质量管控不到位、数据源分散或者出现数据孤岛、缺乏数据素养等问题,在很多企业中不知不觉积累了很多「数据负债」。
全球领先的解决方案
显然,面对如此复杂多变的挑战,企业需要一套全面且一站式的解决方案,才能真正让让生成式AI技术实现赋能。
简而言之,就是一个强大的「数据底座」。
其中包括,能够存储各种类型的数据库,然后能够提供将多个数据源打通的服务,最后,还需要确保数据安全并对其进行管理。
数据是每个企业的核心资产,构建差异化优势的基础
数据作为企业最为核心的资产之一,是在生成式AI浪潮中构建差异化优势的基础。
为此,亚马逊云科技针对生成式AI的各项需求场景,特别定制了专有的数据库。
场景一:用户个人信息
对于一个生成式AI应用来说,要想让给出的结果更加贴合用户的需求,就需要结合每个用户自身的特点。
在把这些信息结合到Prompt里一起发送给LLM之后,就可以得到更加个性化的输出了。
针对这一需求,亚马逊云科技打造了Amazon RDS和Amazon Aurora这两个关系数据库解决方案。
其中,Amazon RDS是一项托管式关系数据库服务,总共提供了7种热门数据库引擎。
Amazon Aurora则是亚马逊云科技专为云平台打造的关系型数据库,具有着高性能、高可用、可扩展性强等特点,而且成本仅有同级数据库的1/10。
场景二:会话历史信息
除了个人信息外,用户对话的上下文信息,对于生成式AI应用的准确性来说也至关重要。
通过将历史对话记录和用户最新提出的问题相结合,并一起发送给大模型,便可以实现更好的用户体验。
对此,亚马逊云科技打造了Amazon DynamoDB和Amazon DocumentDB。
前者是快速且灵活的NoSQL数据库,对规模没有限制。非常适合无服务器的事件驱动型架构、遍及全球的弹性服务,以及高吞吐量工作负载。
后者是基于云原生架构,全面兼容MongoDB的托管NoSQL数据库。
场景三:私域知识库信息
众所周知,通用大模型存在着幻觉、信息时效性差,以及包括token长度限制等各种问题。
尤其是对于企业内部的信息来说,如果让LLM自由发挥,很容易就给出了错误答案。
但如果能有私有知识的加持,LLM就可以给出更为精准有效的回答。
为了利用这些私域知识,我们可以通过Embedding模型把它们变成向量,并存放在向量数据库里。
当有查询到来时,通过同样的Embedding模型生成新的向量,和向量数据库里的数据做相似度计算,返回最相近的结果。
可以说,如果把LLM比作是容易失忆的大脑,那么向量数据库就是这个大脑的海马体。
对此,亚马逊云科技有AmazonOpenSearch、Amazon PostgreSQL和Amazon RDS for PostgreSQL等方案。
Amazon Aurora/Amazon RDS PostgreSQL,能够兼容开源PostgreSQL,易于学习。
Amanzon OpenSearch具备向量和倒排召回能力,可利用现有集群,同时能提供日志检索能力。
Amazon Kendra是基于机器学习的端到端智能检索服务,能够帮助用户使用自然语言搜索非结构化文本。
场景四:输出结果缓存
缓存,是一种存储数据的组件,作用就在于能够让数据的请求更快地返回。
直白讲,我们每次用网页查询后的信息,都会被缓存,当下次再访问的时候,加载就更快了。
对于生成式AI应用来说,用户发出请求时,需要调用模型,输出结果。
但是,就像ChatGPT这样的爆火应用,每天收到大量请求,就会出现高并发阶段,存储数据量暴增,数据库的磁盘IO就成为了瓶颈。
因为,数据库的速度和吞吐量,是影响生成式AI应用程序整体性能的重要因素。
这时,就需要一种访问更快的组件——缓存,来提升系统的整体性能。
就是将之前调用LLM输入输出结果进行缓存,当后续请求与之前输入「相似」时,直接就返回内存数据库调用结果,完成输出。
这样一来,就做到了就无需调用模型就能得到结果,不仅提高了应用的反应率,还降低了模型的调用成本。
亚马逊云科技对此提供了三种解决方案。
通过针对Redis或Memcached引擎的亚毫秒级的响应时间,Amazon ElastiCache可用作高可用性内存缓存,以减少访问延迟、提高吞吐量并减轻关系数据库或NoSQL数据库的负载。
Amazon ElastiCache for Redis可以提供查询结果缓存、持久会话缓存和整页缓存。
另外,Amazon MemoryDB for Redis专为带有微服务架构的现代化应用程序而构建,与Redis兼容、持久的内存数据库服务,可提供超快的性能。
通过解决这四大场景的需求,亚马逊云科技也就保障了每个企业都可以充分利用核心的数据,来构建自己独有的优势。
数据质量决定了模型质量,是构建应用的关键
数据质量,不仅决定了模型质量,同时也是构建生成式AI应用的关键。
而数据治理,便是这些应用落地的保障。
Gartner数据显示,到2025年,寻求扩大数字业务规模的组织中有80%将因不采用现代的数据和分析治理方法而失败。
只有实施正确的管理策略,团队才能随时访问高质量的数据。
但是在实践中,创建正确的管理控制,往往既复杂又耗时。
ETL是指数据的提取、转换和加载过程。以往,业务数据往往需要通过ETL,才能进行分析从而提供洞察。
然而,这一过程非常耗时且复杂,需要管理复杂的转换代码和数据管道,以及投入一批具备专业ETL技能的工程师,曾被亚马逊云科技CEO Adam描述为「不讨好、不可持续的黑洞」。
数据集成不应是一项人工工作的无底洞,我们需要快速、轻松地连接到所有数据,并加以使用。
而「Zero ETL」,就是亚马逊云科技迈出的关键一步。
Amazon Zero ETL能够大大帮助客户简化数据ETL,减少数据质量问题。
具体来说,它没有ETL流水线,可以实现交易数据的实时分析和机器学习,还能综合来自多个Aurora数据库的数据见解。
此外,亚马逊云科技数据服务可以与外部数据库实现Zero的集成。
让数据实现一体化融合,将其数据库、数据服务底层打通,由此,数据就实现了「无感知」流动。
另外,亚马逊云科技提出了敏感数据保护方案——Amazon DataZone。
它使用内置治理的统一平台,能够跨组织边界解锁数据价值。
它支持整个集团的数据发现、管理跨部门的访问和使用生命周期,对数据的共享方式和授权人进行全面的控制和知晓审计的能力。
在以往,数据协作过程中,往往存在着重重困难。
比如指标定义不一致、可用数据难发现、数据权限难管理等。
通过Amazon DataZone,开发者和业务人员可以通过清晰指标的定义进行数据分析,开发者可以放心使用目录管理中的数据,还能在同一个平台上对数据进行可视化的订阅和授权。
这样,以上困难就都一一解决了。
而赋予Amazon DataZone关键能力的,就是可信赖数据集,和简化数据访问。
有了可信赖数据集,就可以对数据进行目录化,找到和发现数据。
而有了简化数据访问,终端用户就可以导航到Amazon DataZone的数据门户,并选择一个项目,来浏览他们的数据资产。
拉美最大的私营金融机构伊塔乌联合银行,就在使用Amazon DataZone进行简化数据治理。
数据安全与合规是重中之重
数据安全与合规,贯穿了从模型训练、到微调,再到部署的整个过程,是重中之重。
LLM的火爆,虽然促进了众多生成式AI的繁荣,却也同时带来许多新的安全挑战。
提示注入、数据泄漏、过度依赖LLM生成的内容、训练数据污染等问题,林林总总防不胜防。
尤其是,通用模型使用少量的私有数据集自定义,就可以执行面向特定领域的任务。这个过程中,私有数据集的安全性和保密性,显然极为重要。
那么,我们该如何保护数据隐私,让数据更安全呢?
首先,Amazon Bedrock服务,就提供了数据隐私保护,严格做到了「您的数据由您自己控制」。
Amazon Bedrock服务后端实现的架构
它保证了客户的数据不会被用于训练Amazon Titan模型,也不会被共享给其他基础模型提供商。
客户的数据(提示词、响应、微调模型)是按用户隔离的,会被保留在相应的地理区域。
而且,客户在Amazon Bedrock中的数据是被加密传输和存储的,可以使用自带的密钥。
其次,Amazon DataZone可以保护数据在不同账号之间安全共享。
它可以保证跨组织的数据治理,确保授权的用户以授权的目的,访问被授权的数据。
在工作流的发布与订阅模式、数据的授权、通过数据项目和域来访问数据、基于实际使用量的计费、组织结构的复制、与API的集成商,它都保证了数据的安全。
全新生成式BI诞生
对于许多企业来说,都希望通过数据驱动业务,形成数据飞轮。
只有数据被充分利用和挖掘,才能发挥出巨大的商业价值。
举个例子,如果销售团队能更好地了解从免费账户到付费账户的转化率,他们就能优化营销和销售计划,从而增加收入。
但是,理解数据需要花费大量的时间、精力和知识。如何在海量数据中完成分析,并实现可视化,对于一个企业来说至关重要。
尤其是,对于那些不懂底层数据逻辑,以及没有任何代码基础的企业用户。
当前,业界常见解决方案是——BI工具,解决了大数据「最后一公里」的问题。
但是,在生成式AI爆发的当下,如何利用最新技术帮助企业释放数据价值,做出商业决策?
亚马逊云科技在自家的BI工具——Amazon QuickSight,推出了生成式BI功能。
通过将Amazon Quicksight的功能与Amazon Bedrock提供的大语言模型功能相结合,将其称之为生成式BI。
现在,企业用户中任何一个人都可以通过自然语言的提问,了解数据。
甚至,业务分析师还可以使用自然语言在几秒钟内快速编写和微调视觉效果,并将其添加到仪表板中。
无需学习语法,便可直接使用自然语言创建新的计算。
现在,创建一个新的仪表板或计算只需问几个问题即可,非常简单。
另外,业务用户还可以使用自然语言提示来生成分析报告,或在Amazon Quicksight中对其数据进行可视化演示。
只需用文字键入故事描述,就可以使用相关仪表板中的数据,创建你想要的效果。
比如可以让其生成对亚马逊云科技免费试用账号最感兴趣的客户分类报告,在报告生成后,他们可以根据需要对其进行修改,并与业务团队共享。
加速生成式AI技术革命
构建生成式AI应用,充满了挑战性。
这个过程中,涉及到接入和管理多家基础模型,还要连接不同的数据源,数据隐私和安全性需要保证。
金山办公的WPS AI,成功将大语言模型的能力全面引入了产品。
而背后的功臣之一,就是亚马逊云科技。
客户的数据隐私和安全,一直是WPS的第一优先级。
构建各种AI的过程中,亚马逊云科技不会使用客户数据来改进模型,也不会将客户数据与他人共享。客户数据均保留在该客户所在的区域中。
因此,Amazon Bedrock成功地助力WPS,加速了各种生成式AI的构建。它支持的领先大语言模型,在多个文字处理场景都符合金山办公的需求。
通过亚马逊云科技的技术,西门子也解决了诸多业务难题。
此前,西门子中国IT面对的难题有,企业内部信息分散、数据资料增长迅速、数据信息你传递能力不足等等。
对此,亚马逊云科技基于西门子数据(如西门子的产品和解决方案),开发了一款智能回答助手——小禹。
它是西门子中国业务知识一体化的解决方案,部署在西门子安全环境中。
除了GPT本身拥有的庞大知识库外,小禹还集成了西门子独特的知识系统,如西门子的各种产品和服务、平台和工具、内部流程等。
它能够及时响应,自动提取知识,快速定位内容(比如产品描述、用户手册、技术规格、营销材料、常见问题解答、法规等)。
它既省时,又减少了人工维护成本,还增加了信息透明度和知识共享。
从2023年初项目立项,到9月手机版发布,小禹持续在各个领域运用生成式AI能力,加速了西门子中国业务的发展。
在亚马逊云科技的助力之下,各大企业的生成式AI技术一定会继续蓬勃发展,发生更多革命性变化。
生成式AI带来的生产力提高和新用例,会给全球经济带来巨大影响。
肉眼可见的是,这个时间点正在加速到来。
参考资料:
https://news.crunchbase.com/venture/biggest-rounds-of-june-ai-inflection-cleancapital/