量子位

《量子位》官方网易号

【#爆火ChatTTS说中文太地道了# 】开源TTS工具ChatTTS一夜爆火，随便写一句话，AI就能念得声情并茂，还会中英文混读、克隆声音等等，简直细思极恐！

行业密探

量子位

《量子位》官方网易号

#首个智慧城市大模型UrbanGPT# 时空预测技术，迎来ChatGPT时刻。时空预测致力于捕捉城市生活的动态变化，并预测其未来走向，它不仅关注交通和人流的流动，还涵盖了犯罪趋势等多个维度。目前，深度时空预测技术在生成精确的时空模型方面，依赖于大量训练数据的支撑，这在城市数据不足的情况下显得尤为困难。港大、百度联合团队借鉴大型语言模型的思想，提出了一种新型的时空大型语言模型UbanGPT。该模型在多种城市应用场景中展现了出色的普适性。通过结合时空依赖编码器和指令微调方法，该模型增强了对时间和空间复杂关系的理解，即使在数据稀缺的条件下也能提供更精确的预测。通过一系列广泛的实验，UrbanGPT在多个城市相关的任务上展现了其卓越的性能，并证明了其在零样本学习领域的强大潜力。首个智慧城市大模型UrbanGPT，全面开源开放｜港大&百度

行业密探

量子位

《量子位》官方网易号

#六位一线AI工程师摸爬滚打一年心得# 六位一线AI工程师和创业者，把在大模型应用开发上摸爬滚打一整年的心得，全！分！享！了！（奇怪的六一儿童节大礼包出现了）这篇干货长文，一时间成为开发者社区热议的话题。有网友评价为，大模型领域少有的“有操作性”的实用见解，非常值得一读。这6位作者来自不同背景，比如有大厂工程师，也有独立开发者，还有咨询顾问。但他们的共同之处，是过去一年里一直在大模型之上构建真实应用程序，而不只是炫酷的Demo演示，他们认为：“现在正是非机器学习工程师或科学家，也能把AI构建到产品中的时候。”在他们的一系列分享中，网友热议的亮点包括但不限于：- 何时用长上下文、何时RAG、何时微调模型- 多样化输出不止提高温度，改变提示词中示例的顺序也影响结果- 长上下文不会让RAG过时- “实习生测试”：如果大学生能根据提示词完成任务，说明比较完善了- 每个大模型都有自己的偏好，Claude更喜欢XML格式，GPT系列更喜欢Markdown和JSON- 如果靠提示词已完成了90%的任务，微调可能就不值得投资- 大模型当裁判评估结果可能起作用，但不是万能的……总之，无论是大厂工程师、创业者还是参加个人开发者，都值得一看。六位一线AI工程师总结爆火！大模型应用摸爬滚打一年心得公开，网友：全程高能

行业密探

量子位

《量子位》官方网易号

#ControlNet作者搞起大模型# ControlNet作者新项目，居然也搞起大模型和Agent了。当然还是和AI绘画相关：解决大伙不会写提示词的痛点。现在只需一句超简单的提示词说明意图，Agent就会自己开始“构图”：a funny cartoon batman fights joker（一幅有趣的卡通蝙蝠侠与小丑战斗的图画）这就是ControlNet作者Lvmin Zhang的新玩具Omost。Omost这个名字有双层含义：发音与英文单词almost（几乎）相似，意味着每次使用Omost后，用户所需的图像几乎就完成了；“O”代表“omni”（全能的），“most”表示希望最大限度地利用它。这个新项目让网友直呼：也太强了！放大翻译成中文来看，用户简短的提示词会被拆解扩展，从图像全局描述到局部每个元素的都会详细说明，直观地指定图像中各个元素的位置和大小。之后，特定图像生成器根据LLM描绘的“蓝图”创建最终的图像。而且，已经完成的图像整体布局可以保留，想修改画面中的某个元素，也只需一句提示词。原版是这样婶儿的：generate an image of the fierce battle of warriors and the dragon（生成勇士与龙的激烈战斗的图像）然后把龙变成恐龙。目前，Omost用来生成代码的LLM有基于Llama3和Phi3变体的三种模型，Lvmin Zhang还放出了Demo大伙儿可以试玩。网友们第一时间也纷纷上手尝试。不禁感慨Lvmin Zhang的项目都很鹅妹子嘤。ControlNet作者搞起大模型：让天下没有难写的生图提示词，一句话变构图小作文

行业密探

量子位

《量子位》官方网易号

#无需3D数据训练3D生成模型# 无需采集3D数据，也能训练出高质量的3D自动驾驶场景生成模型。这是来自香港中文大学、香港科技大学和华为诺亚方舟实验室的最新研究成果——针对自动驾驶街景的可控3D场景生成方法“MagicDrive3D”。此前，采用常见的2D自动驾驶数据集来生成3D街景的方法不是没有，但受采集角度所限，生成结果的可控性和几何一致性无法同时满足。而现在，MagicDrive3D通过结合可控生成与场景重建解决了这一限制。不仅支持多条件控制，还突破了原始数据的局限，即使在原始图像不一致的情况下，也能建立出连贯的高质量模型。无需3D数据也能训练，港科&港中文联手华为推出3D自动驾驶场景生成模型

行业密探

量子位

《量子位》官方网易号

马斯克杨立昆连着互喷了三天，全网围观图灵奖大佬接受“最严格面试”……#杨立昆喷马斯克不懂科研#

行业密探

量子位

《量子位》官方网易号

#阿里即将开源更强模型# Qwen1.5 来了，Qwen2还会远吗还在上个月，阿里推出了国内开源模型中参数规模最大的 Qwen1.5-110B 模型。根据官方公布的评测结果，Qwen1.5-110B略超过Llama-3-70B和Mixtral-8×22B。而阿里最新发布预告，即将开源更强大的模型。据了解，Qwen1.5系列是阿里开源的一系列大语言模型，它是 Qwen2 的 beta 版本。几天前，通义千问团队NLP研究员Binyuan Hui就透露了Qwen2即将发布的消息。且让我们坐等官宣~

行业密探

量子位

《量子位》官方网易号

#免费从任意URL读取PDF# Jina AI 推出了免费工具 Reader ，支持从任意 URL 读取 PDF 并解析成文本。该工具兼容大多数 PDF 文件，即使文件含有大量图片也能实现快速解析。只需在PDF的URL前添加【r.jina.ai 】，即可获得已解析好的文本供下游 LLMs 使用。这意味着以后无需再下载 PDF 上传给机器人。工具# 示例：

行业密探

量子位

《量子位》官方网易号

#Suno3.5版本向所有人开放# Suno 的最新3.5版本模型已经向所有人开放。这个版本的改进包括:1. 可以制作4分钟的歌曲2. 创建最长2分钟的歌曲扩展3. 显著改进的歌曲结构工具

行业密探

量子位

《量子位》官方网易号

#在长视频中精准找出物体# Le ChatOn Vision 是 Mistral 黑客马拉松上提出的视觉检索增强生成系统。允许用户通过聊天界面查询和理解视频。创始团队在比赛前一天拍摄了一段场地视频，然后现场演示如何快速找到视频中的相关物体。据了解，其方法主要有3个步骤：- 视频数据集: 收集并分割成单独帧。- 字幕处理: 使用视觉大语言模型(VLLM)对帧进行描述。- 用户查询: 使用RAG管道来搜索和分析上一步存储的场景描述。团队在研究中面临的一个挑战是：描述场景时缺乏定量细节。其解决方案是引入分割模型，使用高斯滤波器提高分割准确性。GitHub：

行业密探

量子位

《量子位》官方网易号

#在Windows95中体验平行宇宙# microcosm 是 Mistral 黑客马拉松上的一个虚拟世界项目。该项目允许用户通过一个类似 Windows95 的计算机接入这个世界的互联网服务。这个世界包含了新闻事件、百科全书、股票市场和大量的 Twitter 用户。在模拟世界中，Twitter 用户对公司的看法会影响公司的股价。人们讨论相关的新闻话题。百科全书有与那个世界相关的条目。总之，模拟的每个部分都会影响其他部分，逻辑上是一致的。项目介绍主页：GitHub：

行业密探

量子位

《量子位》官方网易号

#清华天眸芯登Nature封面# 清华类脑计算研究中心施路平团队新成果，登上最新一期Nature封面。团队研发出世界首款类脑互补视觉芯片——“天眸芯”。“天眸芯”实现了一种基于视觉原语的互补双通路类脑视觉感知新范式，模仿了人类视觉系统特征。性能上，“天眸芯”能够以每秒10000帧的高速、10bit的高精度、130dB的高动态范围进行视觉信息采集，并大幅减少带宽需求。将“天眸芯”集成到自动驾驶系统中，即使面对突然闪光干扰、隧道等高动态范围场景、异常物体移动等复杂情况，配合互补多通路算法，系统也能实现精准认知和快速响应。这回是真开“眸”了～清华“天眸芯”登Nature封面！全球首款类脑互补视觉芯片，施路平团队最新成果

行业密探

量子位

《量子位》官方网易号

#将论文自动转成讲解视频# 在 Mistral AI 举办的黑客马拉松上，入围的一个团队展示了如何将论文转成讲解视频。配有图表、文字解释和语音讲解，可用于论文宣讲以及在 YouTube 发布。

行业密探

量子位

《量子位》官方网易号

#OpenAI重新瞄准机器人赛道# 据 Forbes 爆料，OpenAI 正在重组于2020年解散的机器人团队。该公司正在招聘研究工程师，以组建一个新的团队，目前已经存在约两个月。OpenAI 尚未公开详细介绍其机器人计划，但在最近的招聘启事中提到，新员工将成为“这个全新团队的首批成员之一”。据悉， OpenAI 成立之初就曾投身于机器人领域。其联合创始人 Wojciech Zaremba 领导的团队最初寻求构建一个 “通用机器人”。2019 年，OpenAI 研究人员发表了一篇论文，描述了他们如何训练一对神经网络使用单一的机械手臂解决魔方问题，认为这是向训练机器人系统执行各种日常任务的基础步骤。然而，由于缺乏训练数据，OpenAI 在 2020 年 10 月放弃了其机器人计划。在过去的一年里，OpenAI 的内部创业基金已经投资了几家试图开发人形机器人的公司，包括 Figure AI、1X Technologies 和 Physical Intelligence。OpenAI 的副总裁 Peter Welinder 表示——我们始终计划重返机器人领域，与Figure AI的合作为我们指明了一条道路，即探索在高性能多模态模型驱动下，人形机器人能够取得的卓越成就。据了解，OpenAI 的目标是与其他公司合作而非竞争，这些机器人制造商将整合OpenAI的技术。

行业密探