最新 最热

告别尴尬证件照!一款新兴AI证件照制作工具:HivisionIDPhoto!

在数字化时代,证件照制作不仅仅是摄影师的专属工作,借助 AI 技术,普通用户也能轻松制作标准的证件照。

2024-08-30
1

745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100

8月28日消息,由传奇芯片架构师Jim Keller领导的AI芯片新创公司Tenstorrent在近日的Hot Chips 2024活动上详细介绍了其新一代基于RISC-V架构的BlackHole系列AI处理器,性能高达745 TOPS,尽管芯片集成的内存容量和带宽低于...

2024-08-30
1

VIVO提出泛化性更强的SAM(附源码下载)

由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应用中也遇到了限制,这促使研究者寻找一种在不损害其固有泛化能力前提下对其进行性能提升的策略...

2024-08-30
1

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

2024-08-30
1

TPAMI 2024 | 真是天才!浙江大学提出跨尺度、长距离注意力Transformer,胜任多项视觉任务!

虽然不同尺度的特征在视觉输入中具有感知重要性,但现有的视觉Transformer尚未显式利用这些特征。为此,我们首先提出了一种跨尺度视觉Transformer,即CrossFormer。它引入了跨尺度嵌入层(CEL)和长短距离注意力(LSDA)。一方面,CE...

2024-08-30
1

开源公告|自动驾驶仿真软件 TAD Sim 发布

TAD Sim是腾讯以建立更加安全和高效的自动驾驶测试工具为目标,为智能驾驶系统研发和验证而量身定做的跨平台分布式仿真系统。

2024-08-30
1

ViLReF:一种汉语视觉语言视网膜基础模型 !

随着眼科医学训练数据的可用性,视网膜基础模型近年来受到很大关注,并在临床应用中广泛使用。视网膜图像及其相应的诊断报告是两种常见的、巨大的数据模式,已用于训练视网膜基础模型。与自然图像相比,视网膜图像之间的差异...

2024-08-30
1

中科大 & 腾讯微信提出 EE-MLLM,一种数据高效和计算高效的多模大型语言模型!

近年来,由于在各种自然语言任务上的惊人表现,大型语言模型(LLM)受到了广泛关注。然而,实际场景往往涉及不仅仅是语言模态,因此将LLM扩展到多模态LLM至关重要。拓展的关键在于进行模态对齐,即学习将剩余模态以相同语义映射到...

2024-08-30
1

微信公众号接入AI:通义千问、kimi、豆包

"通义千问"是阿里巴巴集团推出的大型语言模型,致力于成为人们的工作、学习、生活助手。功能包括多轮对话、文案创作、逻辑推理、多模态理解、多语言支持,能够跟人类进行多轮的交互,也融入了多模态的知识理解,且有文案创...

2024-08-30
1

人人都是AI玩家

当很多大人都还在思考AI世界是什么样子时,10后的青少年已经在关心如何能够“玩”AI了。

2024-08-29
1