大数据与机器学习-博文-阿里云开发者社区

天烬

|

存储关系型数据库 MySQL

|

博文

阿里云开源离线同步工具DataX3.0介绍

阿里云开源离线同步工具DataX3.0介绍一. DataX3.0概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

106884 34 69

来自：大数据计算 MaxCompute 版块

傲海

|

机器学习/深度学习自然语言处理算法

|

博文

【玩转数据系列六】文本分析算法实现新闻自动分类

新闻分类是文本挖掘领域较为常见的场景。目前很多媒体或是内容生产商对于新闻这种文本的分类常常采用人肉打标的方式，消耗了大量的人力资源。本文尝试通过智能的文本挖掘算法对于新闻文本进行分类。无需任何人肉打标，完全由机器智能化实现。

19613 1 3

来自：人工智能平台PAI 版块

身行

|

分布式计算大数据 MaxCompute

|

博文

【逐云】阿里“水电煤”背后的人物故事

《逐云》第三期，我们拍了阿里巴巴通用计算平台负责人关涛，记录了他的学生时代，以及为什么从美回国来到阿里巴巴做通用计算平台，以及他对未来的展望。

13231 0 0

来自：大数据计算 MaxCompute 版块

继盛

|

机器学习/深度学习分布式计算数据挖掘

|

博文

MaxCompute上你从未体验过的数据分析和机器学习过程

PyODPS，拥有对于Python用户传统的数据分析和机器学习愉快的体验，包括了DataFrame框架和机器学习模块，它们类似于pandas+scikit-learn，能用它们进行数据分析、绘图、机器学习等等。

10310 0 0

来自：大数据计算 MaxCompute 版块

曾安祥仁重

|

机器学习/深度学习算法搜索推荐

|

博文

强化学习在电商环境下的若干应用与研究

本文描述了淘宝搜索算法AI技术团使用强化学习算法在淘宝的环境中怎么解决实际的业务问题的以及一些研究探索。

12950 0 3

来自：智能搜索推荐版块

晋恒

|

分布式计算大数据 Devops

|

博文

阿里云全新一代企业级新品解读—通过MaxCompute Studio实践大数据时代的DevOps

今天是2017杭州·云栖大会的第一天，这场科技盛宴吸引了来自全球的参展商、开发者、相关从业人员以及科技爱好者。在今天上午的主论坛，阿里云总裁胡晓明在发言中重点提及的新一代计算平台MaxCompute将在本次大会中多次亮相。

8864 0 1

来自：大数据计算 MaxCompute 版块

傲海

|

SQL 人工智能分布式计算

|

博文

【教程】5分钟在PAI算法市场发布自定义算法

概述在人工智能领域存在这样的现象，很多用户有人工智能的需求，但是没有相关的技术能力。另外有一些人工智能专家空有一身武艺，但是找不到需求方。这意味着在需求和技术之间需要一种连接作为纽带。今天PAI正式对外发布了“AI市场”以及“PAI自定义算法”两大功能，可以帮助用户5分钟将线下的spark算法或是pyspark算法发布成算法组件，并且支持组件发布到AI市场供更多用户使用。

10486 2 4

来自：人工智能平台PAI 版块

隐林

|

分布式计算大数据 MaxCompute

|

博文

【大数据技巧】MaxCompute中实现IP地址归属地转换

大数据平台的成熟使得更多种类的非结构化、半结构化的数据分析成为可能其中应用非常广泛的一种场景就是日志分析。在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景。

11639 1 11

来自：大数据计算 MaxCompute 版块

zongyuanwu

|

分布式计算运维算法

|

博文

DII—算法服务利器

随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大，为算法同学使用数据提供了更多的手段和玩法，能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的，他们需要将数据结合算法在线服务的方式应用到业务中去，才能真正产生价值。从搜索事业部的现状来看，算法的作用方式主要有两种，一种是嵌入引擎内.

11152 2 6

来自：智能搜索推荐版块

开源大数据EMR

|

机器学习/深度学习大数据 Apache

|

博文

开源大数据周刊-第97期

本期周刊带来了开源社区重要的产品更新，包括Flink和Alluxio等，还有互联网一线公司以及传统银行业的最新大数据应用实践。

6886 0 0

来自：开源大数据平台 E-MapReduce 版块

阿里云实时计算Flink

|

流计算缓存监控

|

博文

深入了解 Flink 网络栈（二）：监控、指标和处理背压

在之前的文章中，我们从高级抽象到底层细节各个层面全面介绍了 Flink 网络栈的工作机制。作为这一系列的第二篇文章，本文将在第一篇的基础上更进一步，主要探讨如何监视与网络相关的指标，从而识别背压等因素带来的影响，或找出吞吐量和延迟的瓶颈所在。

8731 0 0

来自：实时计算 Flink 版块

开源大数据EMR

|

存储消息中间件大数据

|

博文

开源大数据周刊-第66期

6701 0 0

来自：开源大数据平台 E-MapReduce 版块

海清

|

分布式计算 MaxCompute Python

|

博文

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

2017/12/20 北京云栖大会上阿里云MaxCompute发布了最新的功能Python UDF，万众期待的功能终于支持啦，我怎么能不一试为快，今天就分享如何通过Studio进行Python udf开发。

7667 0 0

来自：大数据计算 MaxCompute 版块

晋恒

|

分布式计算大数据调度

|

博文

【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季

5月底MaxCompute开启大数据计算技术共享计划，第一季，为大数据爱好者和企业客户带来了MaxCompute数据开发实战的四次主题分享，有1500多名用户线上参加了共享季直播。7月24日，MaxCompute开启第二季技术公开课，近6000名大数据爱好者和企业客户参加了第二季的5次主题直播，越来越多的大数据专家、技术牛人、爱好者参与到我们的技术共享活动中来，让我们一起玩大数据如烹小鲜吧。

7131 0 2

来自：大数据计算 MaxCompute 版块

鸿初

|

SQL 缓存大数据

|

博文

Presto实现原理（转）

Presto架构 Presto查询引擎是一个Master-Slave的架构，由一个Coordinator节点，一个Discovery Server节点，多个Worker节点组成，Discovery Server通常内嵌于Coordinator节点中。Coordinator负责解析SQL语句，生

7479 0 0

来自：开源大数据平台 E-MapReduce 版块

付空

|

存储大数据流计算

|

博文

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

基于Blink为新商业调控打造实时大数据交互查询服务从IT到DT、从电商到新商业，阿里巴巴的每个细胞都存在大数据的DNA，如何挖掘大数据的价值成为抢占未来先机的金钥匙！传统的大数据开发主要基于离线计算平台MaxCompute（ODPS）进行天级别、小时级别的批量数据分析，但近些年随着618、99.

6690 0 0

来自：实时计算 Flink 版块

公达

|

自然语言处理算法

|

博文

交互搜索中的自然语言理解技术

交互搜索交互搜索是一种新的产品形态，可以和用户对话，记住用户的购物需求和偏好，提供购物知识和建议。在搜索页面下拉就可以进入了，类似于微信的小程序的进入方式。自然语言理解对话和搜索的最大区别就是对话是多轮的，而搜索是单轮的。

6380 0 1

来自：智能搜索推荐版块

开源大数据EMR

|

存储分布式计算 API

|

博文

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

正如在之前的那篇文章中 Spark Streaming 设计原理中说到 Spark 团队之后对 Spark Streaming 的维护可能越来越少，Spark 2.4 版本的 Release Note 里面果然一个 Spark Streaming 相关的 ticket 都没有。

6472 0 0

来自：开源大数据平台 E-MapReduce 版块

李恒龙楚

|

机器学习/深度学习算法搜索推荐

|

博文

Learning to Collaborate——基于多智能体强化学习的多场景联合优化

利用多智能体强化学习技术来进行多场景的联合排序优化

5650 1 1

来自：智能搜索推荐版块

百遇

|

机器学习/深度学习分布式计算搜索推荐

|

博文

技术创业难？看汇合营销如何玩转大数据与机器学习

峰值期间，汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹；同时，还需要根据用户需求在亿级日志表中做秒级查询。

5118 0 0

来自：大数据计算 MaxCompute 版块

隐林

|

分布式计算 Java MaxCompute

|

博文

基于MaxCompute的图计算实践分享-常见问题解决及优化指南

常见问题解决及优化指南

5570 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

分布式计算安全大数据

|

博文

开源大数据周刊-第12期

本周包括全景洞察大数据全貌、数据分析师的职业规划、打造智能聊天机器人、E-Mapreduce的相关实践及动态、最近值得关注的大数据会议。

5027 0 0

来自：开源大数据平台 E-MapReduce 版块

yq传送门

|

资源调度分布式计算测试技术

|

博文

走近伏羲，谈5000节点集群调度与性能优化

阿里巴巴分布式调度系统被命名为“伏羲”，主要负责管理集群的机器资源和调度并发的计算任务，为上层分布式应用提供稳定、高效、安全的资源管理和任务调度服务。本文将向读者展示阿里是如何使用伏羲来对5000节点集群进行调度与性能优化的。

5293 0 1

来自：大数据计算 MaxCompute 版块

隐林

|

资源调度大数据调度

|

博文

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(三) 针对在线服务的资源强稳定

转载自xingbao各位好，这是介绍阿里云伏羲(fuxi)调度器系列文章的第三篇，今天主要介绍针对在线服务的资源强稳定一、FuxiMaster简介 FuxiMaster和Yarn非常相似，定位于分布式系统中资源管理与分配的角色：一个典型的资源分配流程图如下所示：作为调度器，目前FuxiMas

4767 0 0

来自：大数据计算 MaxCompute 版块

文刀禾乃

|

数据可视化关系型数据库数据库

|

博文

DataV企业版免费试用来啦！

更丰富的组件、更多的模板、更有智能设计AI马良加持，更多功能邀请你体验！

8875 0 0

来自：数据可视化DataV 版块

阿里云实时计算Flink

|

SQL 机器学习/深度学习 jstorm

|

博文

年度回顾 | 2019 年的 Apache Flink（文末有福利）

2019 年即将落下帷幕，这一年对于 Apache Flink 来说是非常精彩的一年，里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件，JIRA 中超过 4 千个 tickets，以及 GitHub 上超过 3 千个 PR，Apache Flink 迎来了快速的发展。

4383 0 0

来自：实时计算 Flink 版块

振禹

|

SQL 分布式计算 MaxCompute

|

博文

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告

MaxCompute (ODPS) ( __注1__ )是阿里云自主研发的具有业界领先水平的分布式大数据处理平台, 尤其在集团内部得到广泛应用，支撑了多个BU的核心业务。 ODPS2.0除了持续优化性能外，也致力于提升SQL语言的用户体验和表达能力，提高广大ODPS开发者的生产力。

4693 0 1

来自：大数据计算 MaxCompute 版块

傲海

|

新零售机器学习/深度学习算法

|

博文

【玩转数据系列十七】机器学习实现双十一购物清单的自动商品标签归类

3965 0 0

来自：人工智能平台PAI 版块

楚项

|

分布式计算 Java 数据库连接

|

博文

MaxCompute JDBC 2.0 beta中的一些变更说明

本文主要介绍了在MaxCompute JDBC 2.0 beta 之后就易用性方面对配置相关变更的说明

3654 0 0

来自：大数据计算 MaxCompute 版块

开源大数据EMR

|

SQL 分布式计算 Apache

|

博文

Apache Spark 系列技术直播 - Spark SQL 实践与优化

Apache Spark 系列技术直播 Spark SQL 实践与优化内容简介： SparkSQL介绍基本原理支持的DataSource介绍 Hue/Zepplin/Livy周边跟SparkSQL的集成使用等 SparkSQL优化 SparkSQL Catalyst优化 AE优化 Shuffle优化直播时间： 2018.

3365 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

消息中间件人工智能分布式计算

|

博文

开源大数据周刊-第67期

3236 0 0

来自：开源大数据平台 E-MapReduce 版块

xy_xin

|

分布式计算并行计算 TensorFlow

|

博文

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

4188 0 1

来自：开源大数据平台 E-MapReduce 版块

健身不健身

|

SQL 存储缓存

|

博文

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能，可以通过对数据模型进行预计算和高效地存储，加速Spark SQL，为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图，在用户提交SQL语句时对语句进行分析，并选出可用的预计算结果来加速查询。

3352 0 0

来自：开源大数据平台 E-MapReduce 版块

拉尔夫沈

|

机器学习/深度学习大数据

|

博文

阿里大数据深度学习在线服务体系架构图

其实是概念图，这是阿里巴巴搜索和推荐引擎体系在深度学习时代的新面貌，十年磨一剑，详细介绍随后就来。

4091 0 0

来自：智能搜索推荐版块

隐林

|

机器学习/深度学习人工智能分布式计算

|

博文

去年开始涉足人工智能技术应用于证券投资领域的研究，将近两年的研究实践，发现公开资料上很多关于人工智能（AI）对证券投资业发展影响的文章都存在几个明显的思维误区：①一个是对人工智能的认识有误。人工智能是个广域笼统的概念，但基石是机器学习，以机器学习算法构建逻辑和规则为基石的人工智能与自动化程序软件及通过数据回测构建起来的以固定逻辑运行的量化投资模型是完全不同的事物，区别就好比活鸡和模型鸡，需要明白自动化软件不是人工智能，国内大多数所谓智能投顾其实还不是真正意义上的人工智能投顾；②另一个是曲解了人工智能在证券投资行业的应用。

2725 0 1

来自：大数据计算 MaxCompute 版块

云无谓

|

分布式计算 Spark

|

博文

在E-MapReduce集群内运行Spark GraphX作业

Spark GraphX是一个比较流行的图计算框架，如果你使用了阿里云的E-MapReduce服务，可以很方便的运行图计算的作业。下面以PageRank为例，看看如何运行GraphX作业

2809 0 0

来自：开源大数据平台 E-MapReduce 版块

开源大数据EMR

|

分布式计算大数据测试技术

|

博文

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

Apache Spark 是当今最流行的开源大数据处理框架。Spark 用于进行分布式、大规模的数据处理，提供了更高级的编程接口、更高的性能。除此之外，Spark 不仅能进行常规的批处理计算，还提供了流式计算支持。

1981 0 0

来自：开源大数据平台 E-MapReduce 版块

实时数仓Hologres团队

|

12月前

|

存储 SQL 消息中间件

|

博文

Hologres+Flink企业级实时数仓核心能力介绍

通过Hologres+Flink构建易用、统一的企业级实时数仓。

100461 30 48

来自：实时数仓 Hologres 版块

sling

|

博文

asd【文本分析】新闻分类aaa_2493

流控流控流控流控 数据源: 数据大小:261 KB 字段数量:3 使用组件:读数据表,类型转换,过滤与映射,增加序号列,合并列

1148 0 0

来自：人工智能平台PAI 版块

翠

|

博文

test_multiEvaluation

实验名称实验名称实验名称 数据源:实验名称 数据大小:779 KB 字段数量:42 使用组件:读数据表

1055 0 0

来自：人工智能平台PAI 版块

AI小怪兽

|

8月前

|

机器学习/深度学习人工智能文字识别

|

博文

ultralytics YOLO11 全新发布！（原理介绍+代码详见+结构框图）

本文详细介绍YOLO11，包括其全新特性、代码实现及结构框图，并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进，如C3k2、C2PSA模块和更轻量级的分类检测头，显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别，并展示了训练过程和结果的可视化

12168 0 2

228387087934150290

|

算法

|

博文

【推荐算法】商品推荐_3041

asdfsadf eee 数据源: 数据大小:328 KB 字段数量:4 使用组件:读数据表,SQL脚本,JOIN,过滤与映射

1059 0 0

来自：人工智能平台PAI 版块

星月之寂

|

博文

文本分类

文本分析实验 数据源: 数据大小:261 KB 字段数量:3 使用组件:拆分,SQL脚本,读数据表,JOIN,增加序号列,类型转换,合并列

980 0 0

来自：人工智能平台PAI 版块

李博garvin1

|

博文

心脏病预测案例_1480

贷款发放 数据源: 数据大小:7.49 KB 字段数量:15 使用组件:归一化,拆分,SQL脚本,读数据表,类型转换

919 0 0

来自：人工智能平台PAI 版块

翠

|

博文

test_etrec

etrec 数据源:etrec 数据大小:1.03 KB 字段数量:4 使用组件:读数据表

1029 0 0

来自：人工智能平台PAI 版块

阿里云实时计算Flink

|

SQL 机器学习/深度学习新零售

|

博文

实时数仓、1.10生产实践、AI 都来了，2020 首场 Flink 社区 Meetup，可！

5月16日，2020 首场 Meetup 重磅上线。一如既往，本次 Meetup 邀请了来自袋鼠云、网易云音乐、有赞及阿里巴巴的四位技术专家为您现场直播，让您足不出户，有直播看、有干货学、有奖品拿～

1500 0 0

来自：实时计算 Flink 版块

阿里云实时计算Flink

|

机器学习/深度学习存储 SQL

|

博文

Flink 消息聚合处理方案

在本篇文章中我们将详细介绍 Flink 中对消息进行聚合处理的方案，描述不同方案中可能遇到的问题和解决方法，并进行对比。

1143 0 0

来自：实时计算 Flink 版块

275572597944702476

|

博文

雾霾天气预测_604

管网压力预测 数据源: 数据大小:37.3 KB 字段数量:7 使用组件:归一化,拆分,SQL脚本,读数据表,类型转换

741 0 0

来自：人工智能平台PAI 版块

编程小石头

|

11月前

|

SQL XML JavaScript

|

博文

【若依Java】15分钟玩转若依二次开发，新手小白半小时实现前后端分离项目，springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

摘要：本文档详细介绍了如何使用若依框架快速搭建一个基于SpringBoot和Vue3的前后端分离的Java管理后台。教程涵盖了技术点、准备工作、启动项目、自动生成代码、数据库配置、菜单管理、代码下载和导入、自定义主题样式、代码生成、启动Vue3项目、修改代码、以及对代码进行自定义和扩展，例如单表和主子表的代码生成、树形表的实现、商品列表和分类列表的改造等。整个过程详细地指导了如何从下载项目到配置数据库，再到生成Java和Vue3代码，最后实现前后端的运行和功能定制。此外，还提供了关于软件安装、环境变量配置和代码自动生成的注意事项。

15090 65 69

miaogs

|

博文

lesson1

本人小白，初次学习PAI,欢迎和大家一起交流学习这个PAI学习。阿里API直播课程的“手把手在线直播实操：机器学习PAI教你如何品酒”，我这边也就是学习一下。 数据源: 数据大小:96.1 KB 字段数量:12 使用组件:归一化,拆分,SQL脚本,读数据表

677 0 0

来自：人工智能平台PAI 版块

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

阿里云开源离线同步工具DataX3.0介绍

【玩转数据系列六】文本分析算法实现新闻自动分类

【逐云】阿里“水电煤”背后的人物故事

MaxCompute上你从未体验过的数据分析和机器学习过程

强化学习在电商环境下的若干应用与研究

阿里云全新一代企业级新品解读—通过MaxCompute Studio实践大数据时代的DevOps

【教程】5分钟在PAI算法市场发布自定义算法

【大数据技巧】MaxCompute中实现IP地址归属地转换

DII—算法服务利器

开源大数据周刊-第97期

深入了解 Flink 网络栈（二）：监控、指标和处理背压

开源大数据周刊-第66期

MaxCompute Studio使用心得系列6——一个工具完成整个Python UDF开发

【8.23更新--技术干货全家桶】大数据计算技术共享计划 — MaxCompute技术公开课第二季

Presto实现原理（转）

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

交互搜索中的自然语言理解技术

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

Learning to Collaborate——基于多智能体强化学习的多场景联合优化

技术创业难？看汇合营销如何玩转大数据与机器学习

基于MaxCompute的图计算实践分享-常见问题解决及优化指南

开源大数据周刊-第12期

走近伏羲，谈5000节点集群调度与性能优化

【大数据技术干货】阿里云伏羲(fuxi)调度器FuxiMaster功能简介(三) 针对在线服务的资源强稳定

DataV企业版免费试用来啦！

年度回顾 | 2019 年的 Apache Flink（文末有福利）

MaxCompute - ODPS重装上阵 第一弹 - 善用MaxCompute编译器的错误和警告

【玩转数据系列十七】机器学习实现双十一购物清单的自动商品标签归类

MaxCompute JDBC 2.0 beta中的一些变更说明

Apache Spark 系列技术直播 - Spark SQL 实践与优化

开源大数据周刊-第67期

漫谈分布式计算框架

EMR Spark Relational Cache的执行计划重写

阿里大数据深度学习在线服务体系架构图

用炸弹开路——加速到来的证券投资行业人工智能时代

在E-MapReduce集群内运行Spark GraphX作业

微软发布 .Net for Apache Spark ：用什么语言开发大数据都可以

Hologres+Flink企业级实时数仓核心能力介绍

asd【文本分析】新闻分类aaa_2493

test_multiEvaluation

ultralytics YOLO11 全新发布！（原理介绍+代码详见+结构框图）

【推荐算法】商品推荐_3041

文本分类

心脏病预测案例_1480

test_etrec

实时数仓、1.10生产实践、AI 都来了，2020 首场 Flink 社区 Meetup，可！

Flink 消息聚合处理方案

雾霾天气预测_604

【若依Java】15分钟玩转若依二次开发，新手小白半小时实现前后端分离项目，springboot+vue3+Element Plus+vite实现Java项目和管理后台网站功能

lesson1

大数据与机器学习

活跃用户

相关产品

MaxCompute - ODPS重装上阵　第一弹 - 善用MaxCompute编译器的错误和警告