立马耀:通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统,驱动个性化推荐业务

本文涉及的产品
EMR Serverless Spark 免费试用,1000 CU*H 有效期3个月
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 蝉妈妈旗下蝉选通过迁移到阿里云 Serverless Spark 及 Milvus,解决传统架构性能瓶颈与运维复杂性问题。新方案实现离线任务耗时减少40%、失败率降80%,Milvus 向量检索成本降低75%,支持更大规模数据处理,查询响应提速。

作者:厦门立马耀网络科技有限公司大数据开发工程师 陈宏毅

背景介绍

行业

蝉选是蝉妈妈出品的达人选品服务平台。蝉选秉持“陪伴达人赚到钱”的品牌使命,致力于洞悉达人变现需求和痛点,提供达人选高佣、稳变现、速响应的选品服务。


业务特征

  • 个性化推荐:利用大数据和人工智能算法,根据用户的兴趣和行为提供定制化的产品推荐。
  • 数据驱动:通过分析用户和市场趋势,优化推荐策略,提升用户满意度。
  • 精准营销:帮助商家通过精准的用户画像进行有效的产品推广。
  • 高效搜索:提供强大的搜索功能,帮助用户快速找到所需产品。

产品原有架构痛点

依赖传统搜索方案的向量检索进行相似商品推荐的痛点

  • 性能瓶颈:在处理高维向量时,性能可能不如专用的向量数据库。
  • 存储效率:高维向量的存储效率较低,占用较多磁盘空间。
  • 复杂性:需要额外配置和插件才能支持向量检索。
  • 更新成本:频繁更新向量数据可能导致索引重建,影响性能。
  • 资源消耗:内存和计算资源消耗较大,尤其在大规模数据集上。

Spark 集群原架构的痛点

  • 集群稳定性:需要自行监控和维护集群,可能面临稳定性问题。
  • 性能优化:缺乏类似Fusion的加速技术,可能导致任务执行速度较慢。
  • 运维负担:需要手动管理集群,包括配置、监控和故障排除。
  • 资源利用率:资源分配不够灵活,可能导致资源浪费。
  • 费用问题:即使在空闲时也可能产生费用,导致成本增加。
  • 复杂性:需要配置和管理底层基础设施,增加了复杂性。


为了应对新的业务挑战,蝉妈妈选择与阿里云合作,利用其 Serverless Spark & Milvus,构建了符合业务场景和分析师习惯的工程解决方案。


为什么选择阿里云 Serverless Spark&Milvus

  • 完善的周边服务:提供全面的监控和告警功能,能够实时跟踪任务状态和性能,及时发现并解决问题。
  • 托管弹性伸缩功能:自动根据工作负载调整资源,减少手动干预。
  • 集群稳定性:由云服务商管理,提供高稳定性和可靠性。
  • 弹性资源管理:按需分配资源,避免资源浪费。
  • 按需计费:仅为实际使用的资源付费,降低成本。
  • 快速启动:无需预配置资源,能够快速启动和运行任务。
  • 自动扩展:根据工作负载自动调整资源,提升灵活性。
  • 性能优化:Serverless Spark通过技术如Fusion加速任务执行,提高效率,降低成本;Milvus支持并保证超大规模向量检索的性能。


技术方案设计

架构图

image.png

业务场景介绍

在Serverless Spark中,通过周期性的离线任务,从StarRocks数据库中提取商品数据。这些数据包含商品的基本信息,如商品ID、名称、描述等。接着,使用Serverless Spark的计算能力,调用机器学习模型服务,将商品标题转换为向量表示。生成的向量数据与其他商品信息结合后,批量写入阿里云Milvus向量数据库。Milvus负责高效存储和管理这些向量数据,并支持快速相似性搜索。通过构建数据接口,Milvus中的数据可以对外提供查询服务,用户可以通过该接口输入一个商品或其特征,系统将返回相似商品的列表。这种架构支持大规模、低延迟的相似商品检索,适用于推荐系统、个性化营销等应用场景。


关键服务组件

Serverless Spark

EMR Serverless Spark 是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。

向量检索服务 Milvus 版

阿里云向量检索服务Milvus版是一款云原生、全托管的向量检索引擎,100%兼容开源Milvus,支持自建Milvus集群无缝迁移上云。具备易⽤性、可⽤性、安全性、低成本与⽣态优势,能提供超大规模向量数据的相似性检索服务,广泛应用于多模态检索、RAG、大模型AI等场景。


迁移后的收益

Serverless Spark

  • 性能:离线任务耗时减少40%,核心报表更早产出。
  • 稳定性:任务稳定性显著提高,失败率降低 80%。
  • 运维灵活性:根据业务需求自动调整扩充计算资源。
  • 性价比:真正的按量付费,不使用时没有资源消耗;提供多种资源包选择,进一步降低成本。


Milvus

  • 降本:与传统搜索方案相比,阿里云Milvus 实现向量检索的成本降低了 75%。
  • 提效:作为专业级向量数据库,在处理高维向量时,检索性能显著提升。
  • 业务支持:Milvus 能支持更大规模的数据读取和写入,覆盖了商品范围更广,查询响应速度更快。



后续期待

希望 Serverless Spark 能够全面兼容 Spark Launcher 这一便捷方式提交任务,支持任务无缝迁移至全托管环境。



阿里云 EMR Serverless Spark 版是一款面向 Data+AI 的高性能 Lakehouse 产品。它为企业提供了一站式的数据平台服务,包括任务开发、调试、调度和运维等,极大地简化了数据处理和模型训练的全流程。同时,它100%兼容开源 Spark 生态,能够无缝集成到客户现有的数据平台。使用 EMR Serverless Spark,企业可以更专注于数据处理分析和模型训练调优,提高工作效率。


EMR Serverless Spark 交流钉钉群:58570004119

image.png

相关实践学习
【文生图】一键部署Stable Diffusion基于函数计算
本实验教你如何在函数计算FC上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。函数计算提供一定的免费额度供用户使用。本实验答疑钉钉群:29290019867
建立 Serverless 思维
本课程包括: Serverless 应用引擎的概念, 为开发者带来的实际价值, 以及让您了解常见的 Serverless 架构模式
相关文章
|
2月前
|
SQL 分布式计算 Serverless
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
鹰角网络为应对游戏业务高频活动带来的数据潮汐、资源弹性及稳定性需求,采用阿里云 EMR Serverless Spark 替代原有架构。迁移后实现研发效率提升,支持业务快速发展、计算效率提升,增强SLA保障,稳定性提升,降低运维成本,并支撑全球化数据架构部署。
260 56
鹰角网络:EMR Serverless Spark 在《明日方舟》游戏业务的应用
|
1月前
|
JSON 安全 Serverless
MCP Server On FC之旅2: 从0到1-MCP Server市场构建与存量OpenAPI转MCP Server
本文介绍了将社区主流STDIO MCP Server一键转为企业内可插拔Remote MCP Server的方法,以及存量API智能化重生的解决方案。通过FunctionAI平台模板实现STDIO MCP Server到SSE MCP Server的快速部署,并可通过“npx”或“uvx”命令调试。同时,文章还探讨了如何将OpenAPI规范数据转化为MCP Server实例,支持API Key、HTTP Basic和OAuth 2.0三种鉴权配置。该方案联合阿里云百练、魔搭社区等平台,提供低成本、高效率的企业级MCP Server服务化路径,助力AI应用生态繁荣。
339 40
|
2月前
|
自然语言处理 安全 数据挖掘
Hologres+函数计算+Qwen3,对接MCP构建企业级数据分析 Agent
本文介绍了通过阿里云Hologres、函数计算FC和通义千问Qwen3构建企业级数据分析Agent的解决方案。大模型在数据分析中潜力巨大,但面临实时数据接入与跨系统整合等挑战。MCP(模型上下文协议)提供标准化接口,实现AI模型与外部资源解耦。方案利用SSE模式连接,具备高实时性、良好解耦性和轻量级特性。Hologres作为高性能实时数仓,支持多源数据毫秒级接入与分析;函数计算FC以Serverless模式部署,弹性扩缩降低成本;Qwen3则具备强大的推理与多语言能力。用户可通过ModelScope的MCP Playground快速体验,结合TPC-H样例数据完成复杂查询任务。
|
1月前
|
人工智能 运维 安全
阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台
海牙湾(G-Town)是一家以“供应链+场景+技术+AI”为核心驱动力的科技公司,致力于为各行业提供数字化转型解决方案。通过采用阿里云Serverless架构,解决了弹性能力不足、资源浪费与运维低效的问题。SAE全托管特性降低了技术复杂度,并计划进一步探索Serverless与AI结合,推动智能数字化发展。海牙湾业务覆盖金融、美妆、能源等领域,与多家知名企业建立战略合作,持续优化用户体验和供应链决策能力,保障信息安全并创造可量化的商业价值。未来,公司将深化云原生技术应用,助力更多行业实现高效数字化转型。
176 19
|
1月前
|
JSON 安全 Serverless
MCP Server 之旅第 2 站: 从 0 到 1 - MCP Server 市场构建与存量 OpenAPI 转 MCP Server
本文聚焦MCP协议在企业应用中的两大核心痛点:如何将社区主流STDIO MCP Server一键转为可插拔Remote MCP Server,以及如何实现存量OpenAPI向MCP Server的智能化转型。文章通过具体示例,展示了基于函数计算和协议转译Adapter的解决方案,支持npm/pip生态,实现零改造一键迁移,大幅降低成本。
116 3
|
3月前
|
人工智能 运维 NoSQL
Dify x Tablestore 构建低成本、Serverless 知识库
本文介绍如何基于Dify与阿里云Tablestore构建检索增强生成(RAG)系统,解决大模型知识时效性和领域适配性问题,该方案具备低代码、Serverless免运维、高可靠、弹性扩展及低成本等优势。文章通过答疑助手的案例,详细说明了创建Tablestore实例、配置Dify、构建与验证知识库的步骤。
433 11
Dify x Tablestore 构建低成本、Serverless 知识库
|
2月前
|
人工智能 开发框架 安全
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力,用户只需提交 npx 命令即可“零改造”将开源 MCP Server 部署到云上,函数计算 FC 会准备好计算资源,并以弹性、可靠的方式运行 MCP 服务,按实际调用时长和次数计费,欢迎你在阿里云百炼和函数计算 FC 上体验 MCP 服务。
301 29
|
5月前
|
人工智能 运维 物联网
云大使 X 函数计算 FC 专属活动上线!享返佣,一键打造 AI 应用
如今,AI 技术已经成为推动业务创新和增长的重要力量。但对于许多企业和开发者来说,如何高效、便捷地部署和管理 AI 应用仍然是一个挑战。阿里云函数计算 FC 以其免运维的特点,大大降低了 AI 应用部署的复杂性。用户无需担心底层资源的管理和运维问题,可以专注于应用的创新和开发,并且用户可以通过一键部署功能,迅速将 AI 大模型部署到云端,实现快速上线和迭代。函数计算目前推出了多种规格的云资源优惠套餐,用户可以根据实际需求灵活选择。
|
2月前
|
人工智能 开发框架 运维
Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
Serverless MCP 运行时业界首发,函数计算支持阿里云百炼 MCP 服务!阿里云百炼发布业界首个全生命周期 MCP 服务,无需用户管理资源、开发部署、工程运维等工作,5 分钟即可快速搭建一个连接 MCP 服务的 Agent(智能体)。作为云上托管 MCP 服务的最佳运行时,函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力。
228 0
 Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速
|
3月前
|
人工智能 运维 架构师
Serverless + AI 让应用开发更简单,加速应用智能化
Serverless + AI 让应用开发更简单,加速应用智能化
128 5