阿里云开发者社区

电脑版
提示:原网页已由神马搜索转码, 内容由developer.aliyun.com提供.
|
3小时前
|
存储数据采集OLAP
|

饿了么基于Flink+Paimon+StarRocks的实时湖仓探索

本文源自饿了么大数据架构师王沛斌在 Streaming Lakehouse Meetup Online 的分享,涵盖饿了么实时数仓演进历程、实时湖仓方案选型与探索及未来规划。文章详细介绍了饿了么从实时ETL、报表应用到监控补偿等多个典型应用场景,并展示了其数据架构全貌。通过对比 Paimon 与 Hudi、StarRocks 与 Hologres 等技术,饿了么最终选择了 Paimon 和 StarRocks 作为湖仓解决方案,实现了显著的成本节约与性能提升。未来,饿了么将继续优化实时湖仓架构,探索更多应用场景。

911
来自:实时计算 Flink  版块
|
7小时前
|
数据采集存储安全
|

抓取网页数据的高级技巧:结合 Popen() 与 stdout 处理异步任务

本文介绍了如何利用 `Popen()` 和 `stdout` 处理异步任务,结合代理IP和多线程技术提高爬虫效率。通过实例展示了如何在项目中集成这些技术,包括设置代理IP、多线程任务分发及新闻标题提取等关键步骤。文章还探讨了性能提升的方法和扩展方案,如使用 `asyncio` 和数据库集成,适合大规模数据抓取场景。

900
|
9小时前
|
机器学习/深度学习存储缓存
|

Monte Carlo方法解决强化学习问题

本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。

1255
|
21小时前
|
存储Java
|

java的对象详解

在Java中,对象是根据类模板实例化的内存实体,具有唯一标识符、属性及行为。通过`new`关键字实例化对象并用构造方法初始化。变量存储的是对象引用而非对象本身,属性描述对象状态,方法定义其行为。Java利用垃圾回收机制自动处理不再使用的对象内存回收,极大地简化了对象生命周期管理,同时对象具备封装、继承和多态性,促进了代码的重用与模块化设计。这使得Java程序更易于理解、维护和扩展。

1929496
|
1天前
|
JSON数据挖掘API
|

京东商品评论数据接口:洞察消费者心声的重要渠道

京东商品评论数据接口提供了商品用户评价信息,包括评价内容、时间、星级、用户头像、昵称、图片和视频地址等。使用时需注册京东开放平台账号,获取认证信息,查阅API文档,明确所需商品信息并调用接口,解析返回的JSON数据以获取评论。此接口适用于市场分析、产品改进、提升用户体验、品牌塑造与口碑营销以及电商运营决策等多个场景,帮助企业深入了解消费者需求,优化产品和服务。

1455
|
1天前
|
Java流计算Apache
|

flink CDC MySQL to Paimon发生报错

1700
来自:实时计算 Flink版块
|
1天前
|
机器学习/深度学习
|

【LLM提示技术:零样本提示、少样本提示】

本文介绍了零样本和少样本提示技术在大型语言模型中的应用。零样本提示指模型无需示例即可完成任务,而少样本提示则通过提供少量示例提升模型的表现。文中详细探讨了这两种技术的特点与限制,并通过具体示例说明了其在不同任务中的效果。研究表明,指令调整和人类反馈可增强模型性能,而对于复杂任务,则需更高级的提示工程,如思维链提示。

600
|
1天前
|
机器学习/深度学习存储算法
|

Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系

通过探索大语言模型(LLM)架构之间的潜在联系,我们可能开辟新途径,促进不同模型间的知识交流并提高整体效率。尽管Transformer仍是主流,但Mamba等线性循环神经网络(RNN)和状态空间模型(SSM)展现出巨大潜力。近期研究揭示了Transformer、RNN、SSM和矩阵混合器之间的深层联系,为跨架构的思想迁移提供了可能。本文深入探讨了这些架构间的相似性和差异,包括Transformer与RNN的关系、状态空间模型在自注意力机制中的隐含作用以及Mamba在特定条件下的重写方式。

2277
|
1天前
|
数据采集Web App开发测试技术
|

使用Selenium与WebDriver实现跨浏览器自动化数据抓取

在网络爬虫领域,Selenium与WebDriver是实现跨浏览器自动化数据抓取的利器。本文详细介绍了如何利用Selenium和WebDriver结合代理IP技术提升数据抓取的稳定性和效率。通过设置user-agent和cookie来模拟真实用户行为,避免被网站检测和阻止。文章提供了具体的代码示例,展示了如何配置代理IP、设置user-agent和cookie,并实现了跨浏览器的数据抓取。合理的参数配置能有效减少爬虫被封禁的风险,提高数据抓取效率。

2066
|
1天前
|
机器学习/深度学习数据采集存储
|

使用Python实现深度学习模型:智能医疗影像分析

使用Python实现深度学习模型:智能医疗影像分析

1000
|
2天前
|
机器学习/深度学习数据采集算法
|

时间序列结构变化分析:Python实现时间序列变化点检测

在时间序列分析和预测中,准确检测结构变化至关重要。新出现的分布模式往往会导致历史数据失去代表性,进而影响基于这些数据训练的模型的有效性。

1411
|
2天前
|
机器学习/深度学习数据采集TensorFlow
|

使用Python实现智能信用评分系统

使用Python实现智能信用评分系统

291010
|
2天前
|
存储Java容器
|

Java 基础语法

Java是一种面向对象的编程语言,其基础语法包括类和对象、方法、变量、控制流语句、继承和多态以及异常处理。代码需写在类中,`main()`方法是程序入口,变量用于存储数据,控制流语句控制程序执行流程,继承和多态增强代码灵活性,异常处理保证程序稳定性。掌握这些知识可帮助您编写简单的Java程序。

2766
|
2天前
|
Java
|

Java 对象和类

在Java中,**类**(Class)和**对象**(Object)是面向对象编程的基础。类是创建对象的模板,定义了属性和方法;对象是类的实例,通过`new`关键字创建,具有类定义的属性和行为。例如,`Animal`类定义了`name`和`age`属性及`eat()`、`sleep()`方法;通过`new Animal()`创建的`myAnimal`对象即可调用这些方法。面向对象编程通过类和对象模拟现实世界的实体及其关系,实现问题的结构化解决。

2044
|
3天前
|
流计算消息中间件Kafka
|

flink动态修改kafka数据源问题

2211
来自:实时计算 Flink版块
|
3天前
|
机器学习/深度学习数据可视化算法
|

图特征工程实践指南:从节点中心性到全局拓扑的多尺度特征提取

本文详细介绍了如何利用NetworkX库从图结构中提取重要特征。首先,通过定义辅助函数设置了图的可视化选项,并以Zachary网络数据集为例进行了可视化展示。接着,文章深入探讨了三类图特征:基于节点的特征(如节点度、中心性等)、基于边的特征(如最短路径、邻域重叠等)以及基于图的特征(如Graphlets、Weisfeiler-Leman特征等)。通过这些特征的提取与分析,可以全面理解网络结构,识别关键节点,分析信息流动模式,并发现潜在的隐藏模式。本文不仅展示了如何应用这些特征来揭示社交网络中的角色和联系,还强调了其在交通网络分析和生物系统研究等领域的广泛应用潜力。

271212
|
4天前
|
算法
|

基于GA遗传优化的TSP问题最优路线规划matlab仿真

本项目使用遗传算法(GA)解决旅行商问题(TSP),目标是在访问一系列城市后返回起点的最短路径。TSP属于NP-难问题,启发式方法尤其GA在此类问题上表现出色。项目在MATLAB 2022a中实现,通过编码、初始化种群、适应度评估、选择、交叉与变异等步骤,最终展示适应度收敛曲线及最优路径。

532929
|
4天前
|
人工智能分布式计算DataWorks
|

大数据&AI产品月刊【2024年8月】

大数据& AI 产品技术月刊【2024年8月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。

2899
|
4天前
|
Java编译器数据处理
|

说说Lambda表达式底层原理?

说说Lambda表达式底层原理?

2977
来自:大数据计算 MaxCompute  版块
|
4天前
|
缓存运维前端开发
|

腾讯写码6年,我总结的技术人核心竞争力

腾讯写码6年,我总结的技术人核心竞争力

2555
来自:大数据计算 MaxCompute  版块
|
4天前
|
消息中间件存储负载均衡
|

一篇文搞定消息队列选型

一篇文搞定消息队列选型

2199
来自:大数据计算 MaxCompute  版块
|
4天前
|
机器学习/深度学习存储算法
|

Optuna发布 4.0 重大更新:多目标TPESampler自动化超参数优化速度提升显著

Optuna,广受欢迎的超参数优化框架,近日发布了其第四个主要版本。自2018年问世以来,Optuna迅速成为机器学习领域的关键工具,目前拥有10,000+ GitHub星标、每月300万+下载量、16,000+代码库使用、5,000+论文引用及18,000+ Kaggle使用。Optuna 4.0引入了OptunaHub平台,支持功能共享;正式推出Artifact Store管理生成文件;稳定支持NFS的JournalStorage实现分布式优化;显著加速多目标TPESampler,并引入新Terminator算法。

2199
|
4天前
|
机器学习/深度学习数据采集TensorFlow
|

使用Python实现智能股票交易策略

使用Python实现智能股票交易策略

1400
|
4天前
|
算法数据可视化
|

基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真

奇异谱分析(SSA)是一种基于奇异值分解(SVD)和轨迹矩阵的非线性、非参数时间序列分析方法,适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线,并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构,适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。

361919
|
5天前
|
运维供应链前端开发
|

开发一个 ERP

【9月更文第5天】开发一个 ERP (Enterprise Resource Planning) 系统是一项复杂的工程,涉及到多个业务流程的集成与优化。ERP 系统旨在帮助企业整合财务、人力资源、采购、销售、库存管理和生产计划等多个部门的数据,从而提高运营效率和决策质量。本文将带你一起体验从零开始开发一个简单的 ERP 系统,并通过示例代码来说明关键组件的设计与实现。

3433
|
5天前
|
人工智能Cloud NativeApache
|

Flink Forward Asia 2024 议题征集令|探索实时计算新边界

Flink Forward Asia 2024 将于11月29日至30日在上海举行,现公开征集议题。作为Apache Flink社区的重要年度活动,大会旨在汇集行业最佳实践和技术动态。议题覆盖流式湖仓、流批一体、Al大模型、生产实践等方向,并特别关注 Apache Paimon 和 Flink CDC 等社区项目。所有议题将由专业委员会筛选,确保高质量内容。欢迎开发者及数据专业人士提交议题或参与报名,共享技术盛宴。

6368
来自:实时计算 Flink  版块
|
5天前
|
弹性计算负载均衡关系型数据库
|

阿里云产品近期优惠

阿里云提供多种售卖模式,包括按量付费、按量付费+资源包/节省计划及包年包月。权益中心为不同客户提供丰富优惠:飞天免费试用计划、99实例/计划、初创企业上云补贴及高校师生专属优惠。具体方案详询阿里云官网权益中心。各类优惠活动的具体条件与折扣力度各异,用户可根据自身需求在阿里云权益中心查看并领取相应权益。

3399
|
5天前
|
自然语言处理数据可视化API
|

优化采样参数提升大语言模型响应质量:深入分析温度、top_p、top_k和min_p的随机解码策略

本文详细解析了大语言模型(LLM)的采样策略及其关键参数,如温度和top_p。LLM基于输入提示生成下一个标记的概率分布,通过采样策略选择标记并附回输入,形成循环。文章介绍了对数概率(logprobs)、贪婪解码、温度参数调整、top-k与top-p采样等概念,并探讨了min-p采样这一新方法。通过调整这些参数,可以优化LLM输出的质量和创造性。最后,文章提供了实验性尝试的建议,帮助读者在特定任务中找到最佳参数配置。本文使用VLLM作为推理引擎,展示了Phi-3.5-mini-instruct模型的应用实例。

2466
|
5天前
|
机器学习/深度学习数据采集TensorFlow
|

使用Python实现智能金融市场预测

使用Python实现智能金融市场预测

1200
|
5天前
|
Web App开发数据采集存储
|

WebDriver与Chrome DevTools Protocol:如何在浏览器自动化中提升效率

本文探讨了如何利用Chrome DevTools Protocol (CDP) 与 Selenium WebDriver 提升浏览器自动化效率,结合代理IP技术高效采集微博数据。通过CDP,开发者可直接操作浏览器底层功能,如网络拦截、性能分析等,增强控制精度。示例代码展示了如何设置代理IP、cookie及user-agent来模拟真实用户行为,提高数据抓取成功率与稳定性。适用于需要频繁抓取互联网数据的应用场景。

3133
|
6天前
|
算法
|

基于GA遗传优化的离散交通网络双层规划模型设计matlab仿真

该程序基于GA遗传优化设计了离散交通网络的双层规划模型,以路段收费情况的优化为核心,并通过一氧化碳排放量评估环境影响。在MATLAB2022a版本中进行了验证,显示了系统总出行时间和区域排放最小化的过程。上层模型采用多目标优化策略,下层则确保总阻抗最小,实现整体最优解。

3033
|
6天前
|
消息中间件canal数据采集
|

Flink CDC 在货拉拉的落地与实践

陈政羽在Apache Asia Community Over Code 2024上分享了《货拉拉在Flink CDC生产实践落地》。文章介绍了货拉拉业务背景、技术选型及其在实时数据采集中的挑战与解决方案,详细阐述了Flink CDC的技术优势及在稳定性、兼容性等方面的应用成果。通过实际案例展示了Flink CDC在提升数据采集效率、降低延迟等方面的显著成效,并展望了未来发展方向。

3171414
来自:实时计算 Flink  版块
|
6天前
|
前端开发JavaScript关系型数据库
|

如何开发一个ERP系统:从零开始构建

【9月更文第4天】企业资源计划(ERP)系统是现代企业管理不可或缺的一部分,它集成了公司的关键业务流程,并提供了统一的数据管理平台。本文将探讨如何从零开始构建一个简单的ERP系统,并提供一些基本的代码示例来演示关键组件的开发过程。

6833
|
6天前
|
存储缓存PyTorch
|

使用PyTorch从零构建Llama 3

本文将详细指导如何从零开始构建完整的Llama 3模型架构,并在自定义数据集上执行训练和推理。

2011
|
6天前
|
存储消息中间件算法
|

深入解析OpenStack Cinder:块存储服务详解

本文介绍了OpenStack及其块存储服务Cinder。OpenStack是一个开源云计算管理平台,提供基础设施即服务(IaaS),核心服务包括计算、网络、存储等。Cinder主要用于为虚拟机提供持久性块存储,具备多种功能,如卷操作、备份、快照及与实例的交互等。此外,还详细介绍了Cinder的工作流程、命令行操作及不同存储插件的使用。

2688
|
6天前
|
数据采集测试技术API
|

在BrowserStack上进行自动化爬虫测试的终极指南

随着互联网的发展,数据价值日益凸显,爬虫技术成为提取网页信息的关键工具。然而,不同环境下的测试与运行挑战重重,特别是在多浏览器、多平台上保证爬虫的稳定性和兼容性尤为困难。BrowserStack作为领先的跨浏览器测试平台,提供了强大的工具和服务。本文将详细介绍如何在BrowserStack上进行自动化爬虫测试,并结合代理IP技术提升爬虫的隐蔽性和成功率。通过具体步骤和案例分析,展示如何利用Selenium、自定义用户代理和Cookie设置来应对反爬虫机制。本指南旨在为开发者提供实用模板,帮助其在多变的测试环境中构建高效的爬虫系统。

2111
|
6天前
|
机器学习/深度学习供应链TensorFlow
|

使用Python实现智能供应链风险预测

使用Python实现智能供应链风险预测

1811
|
6天前
|
SQL
|

有序行转列

本文介绍了配送订单表的基本结构与相关SQL查询方法。配送订单表记录了骑手配送的物品类型、送达时间、顾客ID等信息。通过SQL查询可实现按送达时间对顾客ID进行排序,并展示了两种方法:一是使用`collect_list`和`collect_set`函数(存在不确定性),二是将时间和顾客ID拼接后排序再拆分,确保结果有序。此外,还提供了创建表和插入数据的示例,并推荐了更多关于行转列和列转行的相关资料。

1547879
|
6天前
|
SQL数据处理
|

简单行转列

本文介绍了基于配送订单表的数据处理方法,包括使用 `collect_list`、`collect_set` 和 `sort_array` 函数实现行转列操作。通过 SQL 查询,实现了骑手 ID 和配送品类的统计,并对数据进行了去重和排序处理。此外,还提供了相关函数的详细说明和示例,以及数据准备的 SQL 语句。最后推荐了更多关于行转列和列转行的相关文章。

1588081
|
6天前
|
搜索推荐算法数据挖掘
|

搜索排名频繁波动,如何做到SEO可控?

在数字营销领域,搜索排名的波动如同海浪般难以捉摸。本文深入剖析波动背后的逻辑,分享应对策略。首先,理解搜索引擎算法更新的重要性,紧跟变化调整优化策略;其次,强调内容质量和稳健的外链建设;再者,通过数据分析和用户体验优化,结合多元化渠道提升品牌曝光度;最后,保持持续学习和灵活应变的心态,实现网站排名稳步提升与品牌价值最大化。

4244
来自:智能搜索推荐  版块
|
7天前
|
机器学习/深度学习数据可视化大数据
|

阿里云大数据的应用示例

阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)

381111
|
7天前
|
JSON供应链API
|

1688 商品采集数据,1688 商品详情数据接口

1688开放平台提供的商品详情数据接口,允许第三方开发者获取平台上商品的详细信息,助力企业实现精准市场分析、优化供应链管理和个性化客户服务。开发者需注册账号并申请权限,通过HTTP请求调用接口,获取JSON格式的数据,涵盖商品基本信息、图片、属性及店铺信息。使用时需注意权限管理、调用频率限制及数据异常处理,遵循平台规定,确保合规使用。如需详细了解,可参考官方文档或联系技术支持。

2511
|
7天前
|
SQL存储NoSQL
|

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在 《阿里云 x StarRocks:极速湖仓第二季—上海站》的分享。

8922
|
7天前
|
机器学习/深度学习数据采集TensorFlow
|

使用Python实现智能仓储管理系统

使用Python实现智能仓储管理系统

1644
|
7天前
|
算法
|

基于SIR模型的疫情发展趋势预测算法matlab仿真

该程序基于SIR模型预测疫情发展趋势,通过MATLAB 2022a版实现病例增长拟合分析,比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程,优化参数并求解微分方程组以预测易感者(S)、感染者(I)和移除者(R)的数量变化。![]该模型将总人群分为S、I、R三部分,通过解析或数值求解微分方程组预测疫情趋势。

1933
|
7天前
|
数据采集存储JavaScript
|

如何使用Cheerio与jsdom解析复杂的HTML结构进行数据提取

在现代网页开发中,复杂的HTML结构给爬虫技术带来挑战。传统的解析库难以应对,而Cheerio和jsdom在Node.js环境下提供了强大工具。本文探讨如何在复杂HTML结构中精确提取数据,结合代理IP、cookie、user-agent设置及多线程技术,提升数据采集的效率和准确性。通过具体示例代码,展示如何使用Cheerio和jsdom解析HTML,并进行数据归类和统计。这种方法适用于处理大量分类数据的爬虫任务,帮助开发者轻松实现高效的数据提取。

2222
|
7天前
|
机器学习/深度学习数据采集存储
|

一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析

蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。

7311
|
7天前
|
监控数据可视化API
|

Elasticsearch 的实时监控与告警

【9月更文第3天】随着数据量的不断增加和业务复杂度的提升,对数据系统的实时监控和告警变得至关重要。Elasticsearch 作为一个高性能的搜索和分析引擎,提供了丰富的工具和插件来帮助用户实现实时监控和自动化告警。本文将详细介绍如何配置 Elasticsearch 以实现实时数据监控,并自动触发告警机制。

3033
|
7天前
|
存储搜索推荐数据建模
|

Elasticsearch 的数据建模与索引设计

【9月更文第3天】Elasticsearch 是一个基于 Lucene 的搜索引擎,广泛应用于全文检索、数据分析等领域。为了确保 Elasticsearch 的高效运行,合理的数据建模和索引设计至关重要。本文将探讨如何为不同的应用场景设计高效的索引结构,并分享一些数据建模的最佳实践。

2322
|
7天前
|
机器学习/深度学习存储数据采集
|

Elasticsearch 与机器学习的集成

【9月更文第3天】Elasticsearch 不仅仅是一个强大的分布式搜索和分析引擎,它还是一个完整的数据平台,通过与 Kibana、Logstash 等工具结合使用,能够提供从数据采集、存储到分析的一站式解决方案。特别是,Elasticsearch 集成了机器学习(ML)功能,使得在实时数据流中进行异常检测和趋势预测成为可能。本文将详细介绍如何利用 Elasticsearch 的 ML 功能来检测异常行为或预测趋势。

2144

大数据与机器学习

大数据领域前沿技术分享与交流,这里不止有技术干货、学习心得、企业实践、社区活动,还有未来。

3
今日
63937
内容
103
活动
437919
关注
你好!
登录掌握更多精彩内容

相关产品

  • 大数据开发治理平台 DataWorks
  • 检索分析服务 Elasticsearch版