Select Language

AI社区

人工智能论文

神经网络

13篇论文

自然语言理解

8篇论文

强化学习

23篇论文

大模型

71篇论文

本文介绍了一个名为StoryBench的新型多任务基准测试集,用于可靠地评估未来的文本到视频生成模型。该基准测试集包括三个难度递增的视频生成任务:动作执行(Action Execution),在此任务中,下一个动作必须从一个条件视频开始生成;故事延续(Story Continuation),在此任务中,...

论文作者

本文探讨了单目3D目标检测的最新进展,这使得基于低成本相机传感器的3D多目标跟踪任务成为可能。我们发现,不同时间帧上物体的运动线索对于3D多目标跟踪至关重要,这在现有的单目方法中尚未得到充分探索。因此,本文提出了一种单目3D MOT的运动感知框架MoMA-M3T,该框架主要由三个...

论文作者

Xinyan Zhao,Zehao Huang,Yihong Chen

研究机构

来自香港科技大学,华中科技大学,加州大学洛杉矶分校

本文介绍了一种名为GRIP的基于学习的方法,用于捕捉和建模人体与物体的真实互动,包括手指的微小运动,对于计算机图形学、计算机视觉和混合现实应用非常重要。与以往注重捕捉和建模人体和物体运动的工作不同,GRIP将人体和物体的三维运动作为输入,然后在物体互动之前、期间和之后...

论文作者

Hasson, Lepetit, and Wolf

本文研究了少样本物理感知的关节网格生成问题。通过观察仅包含少量示例的关节对象数据集,我们希望学习一个模型,可以生成具有高视觉保真度和物理有效性的多样化网格。以往的网格生成模型要么难以从仅有的少量示例中描述多样化的数据空间,要么无法确保其样本的物理有效性。针对上...

论文作者

Xueyi Liu、Bin Wang、He Wang和Li Yi

我们解决了直接在真实世界中学习复杂、普遍行为的问题。我们提出了一种方法,使机器人只使用少量来自许多不同环境的真实世界交互轨迹,就能有效地学习操作技能。受计算机视觉和自然语言领域大规模数据集学习成功的启发,我们认为,为了有效学习,机器人必须能够利用互联网规模的人...

论文作者

主要作者Russell Mendonca、Shikhar Bahl、Deepak Pathak

研究机构

康奈尔大学、麻省理工学院和加州大学伯克利分校

这篇论文介绍了一种叫做NeRF的方法,可以用来高保真地重建物体和大规模场景的三维模型。然而,NeRF需要准确的相机参数作为输入,否则渲染结果会模糊不清。通常使用SfM方法来估计外参和内参作为NeRF的预处理步骤,但这些技术很少能得到完美的估计。因此,之前的研究提出了联合优化...

论文作者

Keunhong Park,Ben Mildenhall,Jonathan T. Barron,Ricardo Martin-Brualla

研究机构

Google和华盛顿大学

这篇文章探讨了在时间序列领域中使用大量离群值检测器,但是从商业角度来看,并非所有的离群值都是感兴趣的异常。现有的异常检测解决方案局限于特定的离群值检测器,限制了其适用于更广泛的异常检测用例。网络KPI(关键绩效指标)往往表现出随机行为,产生统计离群值,其中大部分...

论文作者

Ebenezer R. H. P. Isaac和Akshat Sharma

研究机构

印度理工学院和Ericsson

大型语言模型在电信行业的即将影响:Ali Maatouk, Nicola Piovesan, Fadhel Ayed, Antonio De Domenico, Merouane Debbah撰写的这篇文章中,大型语言模型(LLMs)已经成为一股革命性的力量,不仅在自然语言处理(NLP)的传统领域之外,而且在许多领域都有着深远的影响,并引起了前...

论文作者

Ali Maatouk、Nicola Piovesan、Fadhel Ayed、Antonio De Domenico、Merouane Debbah

研究机构

法国电信、意大利国家研究委员会、突尼斯电信、意大利国家研究委员会和法国国家科学研究中心

在过去的几年中,深度学习已经在包括计算机视觉、语音识别和自然语言处理在内的各个领域中展现出了其强大的能力。受其卓越的成功启发,研究人员一直致力于将深度学习技术应用于推荐系统。神经协同过滤(NCF)和神经矩阵分解(NeuMF)通过具有学习复杂和数据驱动函数能力的神经架构...

论文作者

Wen Liang、Zeng Fan、Youzhi Liang和Jianguo Jia

研究机构

中国科学院自动化研究所

自动评估机器翻译(MT)是推动MT系统快速迭代开发的关键工具。虽然在估计单一标量质量得分方面取得了相当大的进展,但当前的度量标准缺乏更详细的方案所具备的注释单个错误的信息,例如多维质量度量(MQM)。在本文中,我们提出了AutoMQM,一种提示技术,它利用大型语言模型(LLM...

论文作者

Patrick Fernandes、Daniel Deutsch、Mara Finkelstein、Parker Riley、André F. T. Martins、Graham Neubig、Ankush Garg、Jonathan H. Clark、Markus Freitag和Orhan Firat

研究机构

谷歌、卡内基梅隆大学、微软、麻省理工学院

DiffSED:使用去噪扩散的声音事件检测Swapnil Bhosale,Sauradip Nag,Diptesh Kanojia,Jiankang Deng,Xiatian Zhu声音事件检测(SED)旨在预测感兴趣事件的时间边界和它们的类别标签,给定一个无限制的音频样本。所有现有方法都采用判别式学习视角,采用分割和分类(即帧级别)...

论文作者

Swapnil Bhosale、Sauradip Nag、Diptesh Kanojia、Jiankang Deng和Xiatian Zhu

研究机构

香港中文大学、印度理工学院和腾讯

本文的题目是《基于大型语言模型的神经风格作者鉴定分析》,作者是Tharindu Kumarage和Huan Liu。大型语言模型(LLMs)如GPT-4、PaLM和Llama显著推动了AI生成文本的发展。随着对它们潜在滥用的担忧日益上升,迫切需要进行AI生成文本取证。神经风格作者鉴定是一项取证工作,旨在追...

论文作者

Tharindu Kumarage和Huan Liu

研究机构

亚利桑那州立大学

本文介绍了一种使用单次测量偏转法(PMD)的新方法,提高了眼动追踪的精度和速度。与现有的反射技术相比,该方法可以在单个相机帧内获取角膜和巩膜的密集三维表面信息,从而获得大于3300倍的反射表面点(闪光点)的改进。实验结果表明,该方法的准确性得到了显著提高,实验评估的...

论文作者

Jiazhang Wang、Tianfu Wang、Bingjie Xu、Oliver Cossairt和Florian Willomitzer

研究机构

美国西北大学、德国慕尼黑工业大学、美国西北大学和奥地利格拉茨大学

本文提出了一种新的任务无关模型UNIMASK-M,能够有效地解决人体运动合成中的各种挑战,如预测未来运动或在已知关键姿势的条件下填充中间姿势。我们的模型采用统一的架构,通过将人体姿势分解为身体部位来利用人体运动中存在的时空关系。此外,我们将各种姿态条件的运动合成任务重...

论文作者

Esteve Valls Mascaro、Hyemin Ahn和Dongheui Lee

研究机构

西班牙巴塞罗那大学、韩国高等科学技术研究院和韩国浦项工科大学

本文介绍了“波函数坍缩”(WFC)算法在程序化内容生成中的广泛应用,包括纹理、物体和场景。然而,当前的WFC算法和相关研究由于约束冲突和时间复杂度成本等问题,缺乏生成商业化大规模或无限内容的能力。本文提出了一种名为嵌套WFC(N-WFC)的算法框架来降低时间复杂度。为了避免...

论文作者

Nie Yuhe、Shaoming Zheng、Zhan Zhuang和Xuan Song

研究机构

中国科学技术大学

本文介绍了 $\textbf{Platypus}$,一种经过精细调整和合并的大型语言模型 (LLMs) 家族,它在 HuggingFace 的 Open LLM Leaderboard 上表现最佳,是本文发布时的第一名。作者们提供了他们筛选出的数据集 $\textbf{Open-Platypus}$,它是其他开放数据集的子集,已经向公众发布。作者...

论文作者

Ariel N. Lee、Cole J. Hunter和Nataniel Ruiz

研究机构

卡内基梅隆大学、斯坦福大学和加州大学伯克利分校

本文介绍了一种利用代码进行指令调整的方法,以提高大型语言模型(LLMs)在自然语言任务中的性能。作者们利用 Git 提交的自然结构,将代码更改与人类指令配对,使用代码进行指令调整。他们编译了 CommitPack,其中包含 350 种编程语言的 4TB Git 提交。作者们在 16B 参数的 StarCo...

论文作者

Niklas Muennighoff、Qian Liu、Armel Zebaze、Qinkai Zheng、Binyuan Hui、Terry Yue Zhuo、Swayam Singh、Xiangru Tang、Leandro von Werra和Shayne Longpre

研究机构

加拿大滑铁卢大学、加拿大多伦多大学、加拿大不列颠哥伦比亚大学和瑞士洛桑联邦理工学院

最近,基于音频文本提示的生成式语音模型的发展使得高质量的零样本文本到语音变得可能。然而,现有的模型在处理涉及输入语音转换和处理在恶劣声学条件下捕获的音频等多样化的音频文本语音生成任务方面仍存在局限性。本文介绍了SpeechX,这是一个多功能语音生成模型,能够进行零样...

论文作者

Xiaofei Wang、Manthan Thakker、Zhuo Chen、Naoyuki Kanda、Sefik Emre Eskimez、Sanyuan Chen、Min Tang、Shujie Liu、Jinyu Li和Takuya Yoshioka

最近的实证证据表明,基于Transformer的上下文学习在使用前缀语言模型(prefixLM)时表现更佳。在前缀语言模型中,上下文样本可以相互关注,而因果语言模型(causalLM)则使用自回归注意力,禁止上下文样本关注未来样本。虽然这个结果很直观,但从理论角度来看还没有得到解释。本...

论文作者

Nan Ding、Tomer Levinboim、Jialin Wu、Sebastian Goodman和Radu Soricut

研究机构

Google和UC San Diego

本文探讨了神经放射场(NeRF)在工业领域的应用,包括计算机辅助设计(CAD)、有限元分析(FEA)、扫描和机器人技术等。然而,目前用于工业三维模型的方法成本高昂,且需要人工输入以获得准确的三维模型。为了解决这些问题,NeRF应运而生,它是一种基于提供的训练二维图像学习三维...

论文作者

Eugen Šlapak、Enric Pardo、Matúš Dopiriak、Taras Maksymyuk和Juraj Gazda