微博

电脑版
提示:原网页已由神马搜索转码, 内容由weibo.com提供.

歸藏的AI工具箱

歸藏的AI工具箱

互联网科技博主
From Pixels to Prose 一个包含 1600 万标注的图像数据集。#ai画图#

图片标注用的Gemini 1.0 Pro Vision。

对有害内容进行了严格过滤,提供了诸如水印检测和美学评分等数据。

数据集地址:O网页链接​​​​
利用大型语言模型实现视觉压缩#ai#

论文提出了一种名为VoCo-LLaMA的新方法,可以利用大语言模型自身的能力来压缩图像中的视觉信息。

它在视觉指令调优阶段引入了特殊的VoCo压缩 token,通过注意力蒸馏的方式,将语言模型对视觉 token的理解迁移到对VoCo token的理解中。

这样做可以在尽量减少信息损失 ​​​​...展开全文c
今天 11:04来自 微博网页版已编辑
Ilya 新公司 SSI 没公布的一些深度背景信息:#ai#

- Ilya 拒绝透财务支持者的名字,也拒绝透露筹集了多少资金。

- 新公司将通过在AI系统中融入工程突破来实现安全,而不是依赖临时的保护措施。

- Sutskever有两位合伙创始人。一个是投资者Daniel Gross,曾任Apple Inc.的AI负责人。...展开全文c
Genspark AI 搜索可以搜推特可太强了。#ai#

我这个名字迷惑性很强,直接搜大概率所有搜索都不行,所以加了个定语。

他处理的不错,比我对自己的概括要准确。 ​​​​
Lex Fridman 对 Perplexity CEO 的访谈。#ai#

讨论了AI的历史与未来、网络搜索和互联网的发展。还有很多关于如何创办和运营公司的建议。

视频:O网页链接​​​​
尝试了一下Lumina-T2X 图像生成模型,给了我很大的惊喜。#ai画图#

模型的美学表现和图像质量跟 MJ V6 只差一点点了,考虑到这是个开源模型,更加难能可贵了。

目前主要问题就是 Windows 没装 flash_attn 生成太慢。

测试图片和提示词在视频里。...展开全文c
Comfy Sigma Portable 一个为了方便初学者使用 PixArt Sigma 的 ComfyUI 整合包。

解压即用,使用了SD3 的 T5 XXL 模型,PixArt Sigma FP16 版本,可以在8GB显卡上运行。#ai画图#

下载地址:O网页链接​​​​
推荐一篇内容《如何建设人工智能数据中心》#ai#

随着 AI 技术的发展,尤其是LLM如 GPT-4 的训练,对计算能力的需求急剧增加。

文章介绍了数据中心的基本结构和运作原理,包括它们的规模、功耗、冷却系统以及如何提高能效。

-------内容要点--------...展开全文c
谷歌昨晚推出了 Gemini 1.5 Flash 和 1.5 Pro 的上下文缓存功能。#ai##llm#

避免了每次请求都向 LLM 输入同样的提示词和上下文。

大幅降低使用模型时的 Token 消耗和费用。

推荐使用上下文缓存的场景:...展开全文c
Stability AI 一鲸落万物生了。#ai画图#

ComfyUI 作者、StableSwarmUI作者、ComfyUI-Manager作者等 ComfyUI 核心贡献者一起成立了Comfy Org。

会一起进行 ComfyUI 项目的维护,核心使命是推进人工智能工具并使之民主化。

未来会继续快速支持开源模型,提高 Github PR 回复速度,改善节点开发者的体 ​​​​...展开全文c
测试了一下,Hedra 这个文字转说话视频的能力真的非常好。#ai视频#

感觉现在 AI 视频生成的基建基本完成了,接下来大家需要卷自动化程度了。

Hedra 的 Character-1 可以通过文本和图片生成说话和唱歌视频,目前最长时间 60 秒,可以免费体验。

这里体验:O网页链接L歸藏的AI工具箱的微博视频​​​​
Demo 不算产品,用户真正可用的才叫产品。#ai#

只给 Demo 不给产品甚至连发布时间都没有的一律按新建文件夹的诈骗处理。

Arc CEO 说这个夏天剩下的时间他都不会发推了。

“最近整个行业都很怪,感觉大家都在宣布新东西,但却没有真正发布。...展开全文c
Midjourney 开启了一个研究#ai画图#

他们希望通过用户属性调研,以及用户对应的图片喜好,探索美的起源

他们想知道,当都觉得某物美丽时,以及各自看到美的不同之处时,这些是如何发生的

这种调研非常有意义,而且只有他们现在可以做...展开全文c
ElevenLabs 的 V2A 视频自动配音现在就可以使用。#ai视频#

用一个昨天的视频片段试了一下,感觉第一段和第四段都不错,跟场景很契合。

体验地址:O网页链接L歸藏的AI工具箱的微博视频​​​​
微软开源的一个文本编码器Glyph-ByT5-v2。#ai画图#

支持使用十多种语言生成图片。

还搭配了一个使用这个文本编码器的 SDXL 模型,可以直接生成中文海报和内容。

从演示来看排版都挺好的。...展开全文c

正在加载中,请稍候...