大数据公共数据集上线,免费试用TB级数据分析

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),通过DataWorks与MaxCompute快速完成大数据分析。

一、实验简介

本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),快速完成大数据分析。

实验目标:

通过DataWorks+MaxCompute完成离线查询分析

通过Hologres完成外表加速查询分析

免费试用产品:

DataWorks 按量付费

MaxCompute 5000CU时+100GB存储

Hologres 5000CU时+20GB存储

二、环境准备

开通大数据开发治理平台DataWorks

选择上海Region开通DataWorks免费试用

如果无法享受免费试用可以开通DataWorks按量付费

image.png

开通大数据计算引擎MaxCompute

选择上海Region开通MaxCompute免费试用

如果无法享受免费试用可以开通MaxCompute按量付费(可能产生费用)

开通实时数仓Hologres

选择上海Region开通Hologres免费试用

如果无法享受免费试用可以开通Hologres共享集群(湖仓加速版)(可能产生费用)

二、离线大数据查询分析

创建DataWorks工作空间并绑定MaxCompute

前往DataWorks管控台

创建DataWorks工作空间

image.png绑定MaxCompute计算引擎

image.png

前往DataWorks数据分析

https://da-cn-shanghai.data.aliyun.com/#/query

若左侧目录无数据集,请删除或在列表重新添加目录

image.png

阿里电商数据集分析

本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的真实商品数据,近12亿条记录,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。

在欢迎页打开默认SQL文件(若无欢迎页,请确认开通region为上海后,关闭所有便签页,从默认页面打开)

image.png

选择分析执行引擎MaxCompute

image.png

点击运行后查看结果

image.png

点击查看默认生成图表

image.png

Github事件数据集分析

大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。

打开动态更新-Github事件数据集-查看详情,在数据集详情页打开SQL示例文件

image.png

选择分析执行引擎MaxCompute,运行查看结果

image.png

自定义数据集分析

单击任意表,打开表详情页,查看字段信息

image.png

点击生成SQL语句,并运行,进行数据预览

image.png

新建SQL文件,撰写自定义SQL语句,进行自由分析

基于MaxCompute引擎分析需要在每个文件执行打开MaxCompute三层模型开关

SET odps.namespace.schema=true;---打开MaxCompute三层模型

image.png

四、外表加速查询分析

前往Hologres管控台,新增数据库

image.png

选择购买的示例,输入数据库名称,选择SPM(简单模式)

image.png

Holoweb-元数据管理中,登录数据库

image.png

Holoweb-SQL编辑器中,复制以下SQL,无需将数据导出至Hologres,即可通过外表加速查询能力(Hologres配置越高,查询速度越快)

----本示例可以基于公共数据集统计淘宝活跃下单时间并排序IMPORT FOREIGN SCHEMA "bigdata_public_dataset#commerce"LIMIT to
(commerce_ali_e_commerce)FROM SERVER odps_server INTO public OPTIONS(if_table_exist 'update',if_unsupported_type 'error');---创建Hologres外表SET odps.namespace.schema=true;---打开MaxCompute三层模型SELECT  CASE    WHEN SUBSTR(behavior_time,12)::int>=0AND SUBSTR(behavior_time,12)::int<=3 THEN '0点-3点'                WHEN SUBSTR(behavior_time,12)::int>=4AND SUBSTR(behavior_time,12)::int<=7 THEN '4点-7点'                WHEN SUBSTR(behavior_time,12)::int>=8AND SUBSTR(behavior_time,12)::int<=11 THEN '8点-11点'                WHEN SUBSTR(behavior_time,12)::int>=12AND SUBSTR(behavior_time,12)::int<=15 THEN '12点-15点'                WHEN SUBSTR(behavior_time,12)::int>=16AND SUBSTR(behavior_time,12)::int<=19 THEN '16点-19点'                WHEN SUBSTR(behavior_time,12)::int>=20AND SUBSTR(behavior_time,12)::int<=23 THEN '20点-23点'        END AS 下单时间 
,COUNT(*)AS 订单数---统计订单总数FROM    commerce_ali_e_commerce
GROUPBY 下单时间
ORDERBYCOUNT(*)DESCLIMIT100

image.png


三、后续体验

除了数据分析,DataWorks还包含了数据建模、数据集成、数据开发、数据调度、数据运维、数据地图、数据质量、数据治理、数据安全、数据服务等众多大数据开发治理平台能力,帮助企业快速构建大数据平台,可参考文档《零售电子商务数仓搭建》

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2月前
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
273 92
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
2025年AI客服机器人推荐:核心能力与实际场景应用分析
据《2024年全球客户服务机器人行业研究报告》预测,2025年全球AI客服机器人市场规模将超500亿美元,年复合增长率达25%以上。文章分析了主流AI客服机器人,如合力亿捷等服务商的核心功能、适用场景及差异化优势,并提出选型标准,包括自然语言处理能力、机器学习能力、多模态交互能力等技术层面考量,以及行业适配性、集成能力、数据安全、可定制化程度和成本效益等企业维度评估。
93 12
|
1月前
|
人工智能 边缘计算 算法
AI人流热力图分析监测技术
通过深度学习算法(如CSRNet)进行实时密度估算和热力图生成,结合历史数据分析预测高峰时段,优化人员调度与促销活动。采用边缘计算减少延迟,确保实时响应,并通过数据可视化工具提升管理决策效率。
119 24
|
24天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年1、2月】
大数据& AI 产品技术月刊【2025年1、2月】,涵盖双月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
1月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
1月前
|
机器学习/深度学习 人工智能 监控
AI监控智能化客户行为轨迹分析技术
本方案通过目标跟踪技术(如DeepSORT)和多摄像头协作,实时分析顾客在商场内的行为路径,识别高频活动区域,优化商场布局与商品陈列,提供个性化营销服务。基于深度学习与时序数据分析,精准捕捉顾客动线,提升购物体验与销售转化率。
|
2月前
|
机器学习/深度学习 人工智能 运维
智能日志分析:用AI点亮运维的未来
智能日志分析:用AI点亮运维的未来
515 15
|
29天前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
|
29天前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
2月前
|
人工智能 分布式计算 大数据
MaxFrame 产品评测:大数据与AI融合的Python分布式计算框架
MaxFrame是阿里云MaxCompute推出的自研Python分布式计算框架,支持大规模数据处理与AI应用。它提供类似Pandas的API,简化开发流程,并兼容多种机器学习库,加速模型训练前的数据准备。MaxFrame融合大数据和AI,提升效率、促进协作、增强创新能力。尽管初次配置稍显复杂,但其强大的功能集、性能优化及开放性使其成为现代企业与研究机构的理想选择。未来有望进一步简化使用门槛并加强社区建设。
202 7

热门文章

最新文章