大数据与机器学习

7小时前

数据采集存储安全

抓取网页数据的高级技巧：结合 Popen() 与 stdout 处理异步任务

本文介绍了如何利用 `Popen()` 和 `stdout` 处理异步任务，结合代理IP和多线程技术提高爬虫效率。通过实例展示了如何在项目中集成这些技术，包括设置代理IP、多线程任务分发及新闻标题提取等关键步骤。文章还探讨了性能提升的方法和扩展方案，如使用 `asyncio` 和数据库集成，适合大规模数据抓取场景。

900

9小时前

机器学习/深度学习存储缓存

Monte Carlo方法解决强化学习问题

本文继续深入探讨蒙特卡罗 (MC)方法。这些方法的特点是能够仅从经验中学习,不需要任何环境模型,这与动态规划(DP)方法形成对比。

1255

java的细水长流

21小时前

存储Java

java的对象详解

在Java中，对象是根据类模板实例化的内存实体，具有唯一标识符、属性及行为。通过`new`关键字实例化对象并用构造方法初始化。变量存储的是对象引用而非对象本身，属性描述对象状态，方法定义其行为。Java利用垃圾回收机制自动处理不再使用的对象内存回收，极大地简化了对象生命周期管理，同时对象具备封装、继承和多态性，促进了代码的重用与模块化设计。这使得Java程序更易于理解、维护和扩展。

1929496

winx_19970108018

1天前

JSON数据挖掘API

京东商品评论数据接口：洞察消费者心声的重要渠道

京东商品评论数据接口提供了商品用户评价信息，包括评价内容、时间、星级、用户头像、昵称、图片和视频地址等。使用时需注册京东开放平台账号，获取认证信息，查阅API文档，明确所需商品信息并调用接口，解析返回的JSON数据以获取评论。此接口适用于市场分析、产品改进、提升用户体验、品牌塑造与口碑营销以及电商运营决策等多个场景，帮助企业深入了解消费者需求，优化产品和服务。

1455

游客abooyu65huucy

1天前

Java流计算Apache

问答

flink CDC MySQL to Paimon发生报错

1700

来自：实时计算 Flink版块

奥耶可乐冰

1天前

机器学习/深度学习

【LLM提示技术：零样本提示、少样本提示】

本文介绍了零样本和少样本提示技术在大型语言模型中的应用。零样本提示指模型无需示例即可完成任务，而少样本提示则通过提供少量示例提升模型的表现。文中详细探讨了这两种技术的特点与限制，并通过具体示例说明了其在不同任务中的效果。研究表明，指令调整和人类反馈可增强模型性能，而对于复杂任务，则需更高级的提示工程，如思维链提示。

600

1天前

机器学习/深度学习存储算法

Transformer、RNN和SSM的相似性探究：揭示看似不相关的LLM架构之间的联系

通过探索大语言模型（LLM）架构之间的潜在联系，我们可能开辟新途径，促进不同模型间的知识交流并提高整体效率。尽管Transformer仍是主流，但Mamba等线性循环神经网络（RNN）和状态空间模型（SSM）展现出巨大潜力。近期研究揭示了Transformer、RNN、SSM和矩阵混合器之间的深层联系，为跨架构的思想迁移提供了可能。本文深入探讨了这些架构间的相似性和差异，包括Transformer与RNN的关系、状态空间模型在自注意力机制中的隐含作用以及Mamba在特定条件下的重写方式。

2277

1天前

数据采集Web App开发测试技术

使用Selenium与WebDriver实现跨浏览器自动化数据抓取

在网络爬虫领域，Selenium与WebDriver是实现跨浏览器自动化数据抓取的利器。本文详细介绍了如何利用Selenium和WebDriver结合代理IP技术提升数据抓取的稳定性和效率。通过设置user-agent和cookie来模拟真实用户行为，避免被网站检测和阻止。文章提供了具体的代码示例，展示了如何配置代理IP、设置user-agent和cookie，并实现了跨浏览器的数据抓取。合理的参数配置能有效减少爬虫被封禁的风险，提高数据抓取效率。

2066

1天前

机器学习/深度学习数据采集存储

使用Python实现深度学习模型：智能医疗影像分析

1000

2天前

机器学习/深度学习数据采集算法

时间序列结构变化分析：Python实现时间序列变化点检测

在时间序列分析和预测中，准确检测结构变化至关重要。新出现的分布模式往往会导致历史数据失去代表性，进而影响基于这些数据训练的模型的有效性。

1411

2天前

机器学习/深度学习数据采集TensorFlow

使用Python实现智能信用评分系统

291010

java的细水长流

2天前

存储Java容器

Java 基础语法

Java是一种面向对象的编程语言，其基础语法包括类和对象、方法、变量、控制流语句、继承和多态以及异常处理。代码需写在类中，`main()`方法是程序入口，变量用于存储数据，控制流语句控制程序执行流程，继承和多态增强代码灵活性，异常处理保证程序稳定性。掌握这些知识可帮助您编写简单的Java程序。

2766

java的细水长流

2天前

Java

Java 对象和类

在Java中，**类**（Class）和**对象**（Object）是面向对象编程的基础。类是创建对象的模板，定义了属性和方法；对象是类的实例，通过`new`关键字创建，具有类定义的属性和行为。例如，`Animal`类定义了`name`和`age`属性及`eat()`、`sleep()`方法；通过`new Animal()`创建的`myAnimal`对象即可调用这些方法。面向对象编程通过类和对象模拟现实世界的实体及其关系，实现问题的结构化解决。

2044

白不溜秋先生SXY

3天前

流计算消息中间件Kafka

问答

flink动态修改kafka数据源问题

2211

来自：实时计算 Flink版块

3天前

机器学习/深度学习数据可视化算法

图特征工程实践指南：从节点中心性到全局拓扑的多尺度特征提取

本文详细介绍了如何利用NetworkX库从图结构中提取重要特征。首先，通过定义辅助函数设置了图的可视化选项，并以Zachary网络数据集为例进行了可视化展示。接着，文章深入探讨了三类图特征：基于节点的特征（如节点度、中心性等）、基于边的特征（如最短路径、邻域重叠等）以及基于图的特征（如Graphlets、Weisfeiler-Leman特征等）。通过这些特征的提取与分析，可以全面理解网络结构，识别关键节点，分析信息流动模式，并发现潜在的隐藏模式。本文不仅展示了如何应用这些特征来揭示社交网络中的角色和联系，还强调了其在交通网络分析和生物系统研究等领域的广泛应用潜力。

271212

4天前

算法

基于GA遗传优化的TSP问题最优路线规划matlab仿真

本项目使用遗传算法（GA）解决旅行商问题（TSP），目标是在访问一系列城市后返回起点的最短路径。TSP属于NP-难问题，启发式方法尤其GA在此类问题上表现出色。项目在MATLAB 2022a中实现，通过编码、初始化种群、适应度评估、选择、交叉与变异等步骤，最终展示适应度收敛曲线及最优路径。

532929

阿里云大数据Al技术

4天前

人工智能分布式计算DataWorks

大数据&AI产品月刊【2024年8月】

大数据& AI 产品技术月刊【2024年8月】，涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容，帮助您快速了解阿里云大数据& AI 方面最新动态。

2899

WWTO

4天前

Java编译器数据处理

说说Lambda表达式底层原理？

2977

来自：大数据计算 MaxCompute 版块

WWTO

4天前

缓存运维前端开发

腾讯写码6年，我总结的技术人核心竞争力

2555

来自：大数据计算 MaxCompute 版块

WWTO

4天前

消息中间件存储负载均衡

一篇文搞定消息队列选型

2199

来自：大数据计算 MaxCompute 版块

4天前

机器学习/深度学习存储算法

Optuna发布 4.0 重大更新：多目标TPESampler自动化超参数优化速度提升显著

Optuna，广受欢迎的超参数优化框架，近日发布了其第四个主要版本。自2018年问世以来，Optuna迅速成为机器学习领域的关键工具，目前拥有10,000+ GitHub星标、每月300万+下载量、16,000+代码库使用、5,000+论文引用及18,000+ Kaggle使用。Optuna 4.0引入了OptunaHub平台，支持功能共享；正式推出Artifact Store管理生成文件；稳定支持NFS的JournalStorage实现分布式优化；显著加速多目标TPESampler，并引入新Terminator算法。

2199

4天前

机器学习/深度学习数据采集TensorFlow

使用Python实现智能股票交易策略

1400

4天前

算法数据可视化

基于SSA奇异谱分析算法的时间序列趋势线提取matlab仿真

奇异谱分析（SSA）是一种基于奇异值分解（SVD）和轨迹矩阵的非线性、非参数时间序列分析方法，适用于提取趋势、周期性和噪声成分。本项目使用MATLAB 2022a版本实现从强干扰序列中提取趋势线，并通过可视化展示了原时间序列与提取的趋势分量。代码实现了滑动窗口下的奇异值分解和分组重构，适用于非线性和非平稳时间序列分析。此方法在气候变化、金融市场和生物医学信号处理等领域有广泛应用。

361919

5天前

运维供应链前端开发

开发一个 ERP

【9月更文第5天】开发一个 ERP (Enterprise Resource Planning) 系统是一项复杂的工程，涉及到多个业务流程的集成与优化。ERP 系统旨在帮助企业整合财务、人力资源、采购、销售、库存管理和生产计划等多个部门的数据，从而提高运营效率和决策质量。本文将带你一起体验从零开始开发一个简单的 ERP 系统，并通过示例代码来说明关键组件的设计与实现。

3433

灵杰开发者

5天前

人工智能Cloud NativeApache

Flink Forward Asia 2024 议题征集令｜探索实时计算新边界

Flink Forward Asia 2024 将于11月29日至30日在上海举行，现公开征集议题。作为Apache Flink社区的重要年度活动，大会旨在汇集行业最佳实践和技术动态。议题覆盖流式湖仓、流批一体、Al大模型、生产实践等方向，并特别关注 Apache Paimon 和 Flink CDC 等社区项目。所有议题将由专业委员会筛选，确保高质量内容。欢迎开发者及数据专业人士提交议题或参与报名，共享技术盛宴。

6368

来自：实时计算 Flink 版块

html的七十二变

5天前

弹性计算负载均衡关系型数据库

阿里云产品近期优惠

阿里云提供多种售卖模式，包括按量付费、按量付费+资源包/节省计划及包年包月。权益中心为不同客户提供丰富优惠：飞天免费试用计划、99实例/计划、初创企业上云补贴及高校师生专属优惠。具体方案详询阿里云官网权益中心。各类优惠活动的具体条件与折扣力度各异，用户可根据自身需求在阿里云权益中心查看并领取相应权益。

3399

5天前

自然语言处理数据可视化API

优化采样参数提升大语言模型响应质量：深入分析温度、top_p、top_k和min_p的随机解码策略

本文详细解析了大语言模型（LLM）的采样策略及其关键参数，如温度和top_p。LLM基于输入提示生成下一个标记的概率分布，通过采样策略选择标记并附回输入，形成循环。文章介绍了对数概率（logprobs）、贪婪解码、温度参数调整、top-k与top-p采样等概念，并探讨了min-p采样这一新方法。通过调整这些参数，可以优化LLM输出的质量和创造性。最后，文章提供了实验性尝试的建议，帮助读者在特定任务中找到最佳参数配置。本文使用VLLM作为推理引擎，展示了Phi-3.5-mini-instruct模型的应用实例。

2466

5天前

机器学习/深度学习数据采集TensorFlow

使用Python实现智能金融市场预测

1200

5天前

Web App开发数据采集存储

WebDriver与Chrome DevTools Protocol：如何在浏览器自动化中提升效率

本文探讨了如何利用Chrome DevTools Protocol (CDP) 与 Selenium WebDriver 提升浏览器自动化效率，结合代理IP技术高效采集微博数据。通过CDP，开发者可直接操作浏览器底层功能，如网络拦截、性能分析等，增强控制精度。示例代码展示了如何设置代理IP、cookie及user-agent来模拟真实用户行为，提高数据抓取成功率与稳定性。适用于需要频繁抓取互联网数据的应用场景。

3133

6天前

算法

基于GA遗传优化的离散交通网络双层规划模型设计matlab仿真

该程序基于GA遗传优化设计了离散交通网络的双层规划模型，以路段收费情况的优化为核心，并通过一氧化碳排放量评估环境影响。在MATLAB2022a版本中进行了验证，显示了系统总出行时间和区域排放最小化的过程。上层模型采用多目标优化策略，下层则确保总阻抗最小，实现整体最优解。

3033

灵杰开发者

6天前

消息中间件canal数据采集

Flink CDC 在货拉拉的落地与实践

陈政羽在Apache Asia Community Over Code 2024上分享了《货拉拉在Flink CDC生产实践落地》。文章介绍了货拉拉业务背景、技术选型及其在实时数据采集中的挑战与解决方案，详细阐述了Flink CDC的技术优势及在稳定性、兼容性等方面的应用成果。通过实际案例展示了Flink CDC在提升数据采集效率、降低延迟等方面的显著成效，并展望了未来发展方向。

3171414

来自：实时计算 Flink 版块

6天前

前端开发JavaScript关系型数据库

如何开发一个ERP系统：从零开始构建

【9月更文第4天】企业资源计划（ERP）系统是现代企业管理不可或缺的一部分，它集成了公司的关键业务流程，并提供了统一的数据管理平台。本文将探讨如何从零开始构建一个简单的ERP系统，并提供一些基本的代码示例来演示关键组件的开发过程。

6833

6天前

存储缓存PyTorch

使用PyTorch从零构建Llama 3

本文将详细指导如何从零开始构建完整的Llama 3模型架构，并在自定义数据集上执行训练和推理。

2011

笨笨小乌龟

6天前

存储消息中间件算法

深入解析OpenStack Cinder：块存储服务详解

本文介绍了OpenStack及其块存储服务Cinder。OpenStack是一个开源云计算管理平台，提供基础设施即服务（IaaS），核心服务包括计算、网络、存储等。Cinder主要用于为虚拟机提供持久性块存储，具备多种功能，如卷操作、备份、快照及与实例的交互等。此外，还详细介绍了Cinder的工作流程、命令行操作及不同存储插件的使用。

2688

6天前

数据采集测试技术API

在BrowserStack上进行自动化爬虫测试的终极指南

随着互联网的发展，数据价值日益凸显，爬虫技术成为提取网页信息的关键工具。然而，不同环境下的测试与运行挑战重重，特别是在多浏览器、多平台上保证爬虫的稳定性和兼容性尤为困难。BrowserStack作为领先的跨浏览器测试平台，提供了强大的工具和服务。本文将详细介绍如何在BrowserStack上进行自动化爬虫测试，并结合代理IP技术提升爬虫的隐蔽性和成功率。通过具体步骤和案例分析，展示如何利用Selenium、自定义用户代理和Cookie设置来应对反爬虫机制。本指南旨在为开发者提供实用模板，帮助其在多变的测试环境中构建高效的爬虫系统。

2111

6天前

机器学习/深度学习供应链TensorFlow

使用Python实现智能供应链风险预测

1811

游客4nwlpzeuodt5e

6天前

SQL

有序行转列

本文介绍了配送订单表的基本结构与相关SQL查询方法。配送订单表记录了骑手配送的物品类型、送达时间、顾客ID等信息。通过SQL查询可实现按送达时间对顾客ID进行排序，并展示了两种方法：一是使用`collect_list`和`collect_set`函数（存在不确定性），二是将时间和顾客ID拼接后排序再拆分，确保结果有序。此外，还提供了创建表和插入数据的示例，并推荐了更多关于行转列和列转行的相关资料。

1547879

游客4nwlpzeuodt5e

6天前

SQL数据处理

简单行转列

本文介绍了基于配送订单表的数据处理方法，包括使用 `collect_list`、`collect_set` 和 `sort_array` 函数实现行转列操作。通过 SQL 查询，实现了骑手 ID 和配送品类的统计，并对数据进行了去重和排序处理。此外，还提供了相关函数的详细说明和示例，以及数据准备的 SQL 语句。最后推荐了更多关于行转列和列转行的相关文章。

1588081

蝙蝠侠it

6天前

搜索推荐算法数据挖掘

搜索排名频繁波动，如何做到SEO可控？

在数字营销领域，搜索排名的波动如同海浪般难以捉摸。本文深入剖析波动背后的逻辑，分享应对策略。首先，理解搜索引擎算法更新的重要性，紧跟变化调整优化策略；其次，强调内容质量和稳健的外链建设；再者，通过数据分析和用户体验优化，结合多元化渠道提升品牌曝光度；最后，保持持续学习和灵活应变的心态，实现网站排名稳步提升与品牌价值最大化。

4244

来自：智能搜索推荐版块

html的七十二变

7天前

机器学习/深度学习数据可视化大数据

阿里云大数据的应用示例

阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具，涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学，帮助学员掌握数据可视化、报表设计及机器学习分析技能，提升数据驱动决策能力。Quick BI简化复杂数据分析，DataV打造震撼可视化大屏，PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士，为期两天，结合面授与实验，助力企业加速数字化转型。完成课程后，学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)

381111

winx_19970108018

7天前

JSON供应链API

1688 商品采集数据，1688 商品详情数据接口

1688开放平台提供的商品详情数据接口，允许第三方开发者获取平台上商品的详细信息，助力企业实现精准市场分析、优化供应链管理和个性化客户服务。开发者需注册账号并申请权限，通过HTTP请求调用接口，获取JSON格式的数据，涵盖商品基本信息、图片、属性及店铺信息。使用时需注意权限管理、调用频率限制及数据异常处理，遵循平台规定，确保合规使用。如需详细了解，可参考官方文档或联系技术支持。

2511

扬流

7天前

SQL存储NoSQL

阿里云 EMR StarRocks 在七猫的应用和实践

本文整理自七猫资深大数据架构师蒋乾老师在《阿里云 x StarRocks：极速湖仓第二季—上海站》的分享。

8922

来自：开源大数据平台 E-MapReduce 版块

7天前

机器学习/深度学习数据采集TensorFlow

使用Python实现智能仓储管理系统

1644

7天前

算法

基于SIR模型的疫情发展趋势预测算法matlab仿真

该程序基于SIR模型预测疫情发展趋势，通过MATLAB 2022a版实现病例增长拟合分析，比较疫情防控力度。使用SIR微分方程模型拟合疫情发展过程，优化参数并求解微分方程组以预测易感者（S）、感染者（I）和移除者（R）的数量变化。![]该模型将总人群分为S、I、R三部分，通过解析或数值求解微分方程组预测疫情趋势。

1933

7天前

数据采集存储JavaScript

如何使用Cheerio与jsdom解析复杂的HTML结构进行数据提取

在现代网页开发中，复杂的HTML结构给爬虫技术带来挑战。传统的解析库难以应对，而Cheerio和jsdom在Node.js环境下提供了强大工具。本文探讨如何在复杂HTML结构中精确提取数据，结合代理IP、cookie、user-agent设置及多线程技术，提升数据采集的效率和准确性。通过具体示例代码，展示如何使用Cheerio和jsdom解析HTML，并进行数据归类和统计。这种方法适用于处理大量分类数据的爬虫任务，帮助开发者轻松实现高效的数据提取。

2222

7天前

机器学习/深度学习数据采集存储

一文读懂蒙特卡洛算法：从概率模拟到机器学习模型优化的全方位解析

蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考，与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解，因命名灵感源自蒙特卡洛赌场。如今，蒙特卡洛方法广泛应用于机器学习领域，尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间，蒙特卡洛方法能够高效地找到优质组合，适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用，并对比了其与网格搜索方法的性能。

7311

7天前

监控数据可视化API

Elasticsearch 的实时监控与告警

【9月更文第3天】随着数据量的不断增加和业务复杂度的提升，对数据系统的实时监控和告警变得至关重要。Elasticsearch 作为一个高性能的搜索和分析引擎，提供了丰富的工具和插件来帮助用户实现实时监控和自动化告警。本文将详细介绍如何配置 Elasticsearch 以实现实时数据监控，并自动触发告警机制。

3033

7天前

存储搜索推荐数据建模

Elasticsearch 的数据建模与索引设计

【9月更文第3天】Elasticsearch 是一个基于 Lucene 的搜索引擎，广泛应用于全文检索、数据分析等领域。为了确保 Elasticsearch 的高效运行，合理的数据建模和索引设计至关重要。本文将探讨如何为不同的应用场景设计高效的索引结构，并分享一些数据建模的最佳实践。

2322

7天前

机器学习/深度学习存储数据采集