郭紫欣家庭背景通过在大量视觉输入和可执行代码的数据对的训练,Octopus 学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
Octopus 通过视觉输入学习、理解真实世界,并以生成可执行代码的方式完成各种实际任务,具备了规划推理和根据实时环境做出反馈的能力。
研究者通过构建 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。
站长之家(11月9日 消息:南洋理工大学、清华大学等发布了一种名为 Octopus 的视觉可编程智能体,它通过在大量视觉输入和可执行代码的数据对的训练中学会了如何操控电子游戏的角色完成游戏任务,或者完成复杂的家务活动。
Octopus 具备规划推理和根据实时环境做出反馈的能力,能够理解真实世界并生成可执行代码来完成各种实际任务。为了训练 Octopus,研究者们创建了 OctoGibson 和 OctoGTA 两个仿真环境,提供了可用于训练和测试 Octopus 的场景,并开发了数据收集系统来高效获取训练数据。
OctoGibson 是基于斯坦福大学开发的 OmniGibson 的仿线个符合现实生活的家务活动,模型可以操作其中的可交互物体来完成任务。OctoGTA 则基于《侠盗猎车手》(GTA)游戏,构建了20个任务并将其泛化到不同的场景中。研究者利用这两个仿真环境中的任务来训练 Octopus,并通过强化学习算法进一步提升模型的任务规划能力。
为了高效收集训练数据,研究者构建了一套完整的数据收集系统。他们引入了 GPT-4作为任务的执行者,通过预先实现的函数将视觉输入处理为文本信息提供给 GPT-4,再在仿真环境中执行代码,并判断任务是否完成。如果任务失败,会回到上一步的起始位置重新采集数据。在数据收集过程中,研究者记录了每个子任务的成功情况,为后续引入强化学习提供了基础。
通过在大量训练数据上进行监督式微调,研究者构建出了一个能够以视觉信息作为输入,遵循固定格式输出的 VLM 模型。然后,他们引入了 RLEF(Reinforcement Learning with Environmental Feedback)来进一步提升 Octopus 的任务规划能力,利用先前采集的子任务的成功情况作为奖励信号。
实验结果显示,经过 RLEF 训练的 Octopus 模型在任务规划和推理能力上有了显著的提升,即使面对模糊的任务指令,也能提供更加合理的计划。
综上所述,Octopus 是一种具备视觉可编程能力的智能体,通过在仿真环境中的训练学会了操控角色完成游戏任务和家务活动。它具备规划推理和根据实时环境做出反馈的能力,通过 RLEF 训练策略进一步提升了任务规划和推理能力。这一研究对于实现大模型的具身智能化具有重要意义,为进一步探索视觉 - 语言模型的应用提供了新的思路。
11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
研究人员在GitHub上开源了一个名为AgentTuning的项目。该项目提供了一种新的方法来调整语言模型,通过多个智能体任务中的交互轨迹来训练和调整语言模型,以更好地适应不同的任务和场景。通过AgentInstruct数据集和AgentLM模型,用户可以在各种现实世界任务中获得更强大的AI代理,同时保持良好的通用语言能力。
Langroid是一个直观、轻量、可扩展和原则性的Python框架,用于轻松构建LLM驱动的应用程序。您可以设置智能体,为它们配备可选组件,分配任务,让它们通过交换消息共同解决问题。项目地址:是LLM应用程序开发的一种新方法,经过深思熟虑,旨在简化开发者体验。
【新智元导读】今天,Meta重磅发布了Habitat3.0,经它训练的AI智能体,学会了找人能帮人打扫房间。社交智能机器人,进入下一个里程碑!今天开始,人类离帮忙做家务的机器人,又近了一步!Meta宣布推出Habitat3.0,目的是开发出社会化的AI智能体,这意味着社交智能机器人已经进入新的里程碑阶段。基线%的成功率。
ChatGPT等大语言模型展示了前所未有的创造能力,但距AGI还有很大的距离,缺少自主决策、记忆存储、规划等拟人化能力。为了探索大语言模型向AGI演变,进化成超越人类的超级人工智能,米哈游与复旦NLP研究团队联合发布了一篇基于大语言模型的“智能体”论文。在模拟社会中,智能体之间会出现自发的社交活动和群体行为。
SteamDeck在游玩游戏的过程中,有时候玩家会遇到自动关机的情况出现,不知道是什么原因引起的,下面就来为大家分享一下解决办法。1、如果你是在游玩游戏的时候出现自动重启的情况,那么很有可能是你在玩的游戏配置需求比较高,steamdeck发热比较严重,这样自然为了保护机器的硬件,就会启动自动重启,这个是正常情况,那么你需要做的事情就是要降低温度了,比如去某宝买一些散热器,这些散热器还是有一定的作用的。3、此外还除了散热的问题还是有其他的问题会导致自动重启的,比如你游戏不兼容、游戏文件损坏、网络不稳定、操作系统文件损坏、SD卡故障等,这些都是需要逐一排除的,不过就平常运行游戏来说,温度上升过快散热不好出现自动重启的概率比较大。
业界最领先的大模型们,竟然集体“越狱”了!不止是GPT-4,就连平时不咋出错的Bard、BingChat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统:这并非危言耸听是南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey。大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。所有的安全研究最终都会落地,将大模型做得更好。
研究人员发现了一种名为MotionLM的新方法,用于预测道路上各种交通参与者的未来行为,这对于自动驾驶车辆的安全规划至关重要。MotionLM的主要思想是将多个道路参与者的行动预测任务视为一项语言建模工作,将预测任务视为创建语言短语的过程,其中语言是道路参与者的行动。MotionLM是自动驾驶车辆多代理动态预测的创新方法,对该领域的发展非常有益。
OpenAIChatGPTPlus订阅付费功能强大,可以实现高阶「数据分析」、「插件调用」以及「自动网页浏览」,能够作为日常生活中的重要生产力工具。可是因为商业原因选择了闭源,研究者和开发者也只能使用没有办法在其上面做任何的研究或改进。鼓励社区对这些评估指标和平台进行扩展或完善,这将显著推动该领域的发展,并为大语言模型的实际性能和能力提供更准确的评估和洞
随着大语言模型的不断进展,AI智能体的发展也变得更加蓬勃。研究者发现在未来无人监管的情况下,防止AI智能体被欺骗和误导是一个被忽视的问题,因为人类社会中存在着大量误导和欺骗性的信息,如果AI智能体不能有效地识别和应对这些信息,可能会导致不可估量的后果。这一研究对于提高AI智能体的安全性和可靠性具有重要意义。
AutoGPT项目最近成功获得了1200万美元的融资,同时在GitHub上获得了广泛的关注。这个项目被认为是AI领域的一个热门前沿,它使用了强大的GPT-4和GPT-3.5等语言模型来构建一个智能体,这个智能体不仅能够独立执行各种任务可以通过学习和经验不断提高自身的性能。AutoGPT的未来前景看起来非常光明,可能会彻底改变AI框架内任务分配和执行方式,实现更为逼真的人类行为模拟。
Replicate是一款机器学习模型运行和部署的工具,无需自行配置环境,可以快速运行和部署机器学习模型。Replicate提供了Python库和API接口,支持运行和查询模型。社区共享了成千上万个可用的机器学习模型,涵盖了文本理解、视频编辑、图像处理等多个领域。使用Replicate和相关工具,您可以快速构建自己的项目并进行部署。
Glance是一个用于突出代码中重要部分的工具。它将代码分成重叠的窗口,并使用预训练的代码嵌入模型嵌入代码。然后,它通过计算嵌入之间的余弦相似度创建一个加权无向图,并运行PageRank算法计算每个代码窗口的“重要性”分数。Glance可以帮助开发人员迅速了解代码的关键部分。
Brain Buddy是一款创新和强大的AI助教,可以为您提供即时帮助、答案和定制报告。无论是解决问题、提高写作、创建测试、完善笔记还是改善记忆,Brain Buddy都能助您一臂之力。它还提供详细的教程,涵盖了许多学习和复习技巧。Brain Buddy适用于各个年龄段和技能水平的用户,可以帮助您撰写报告或文章,并保护您的个人信息安全。定价灵活合理,定位为教育辅助工具。
Sketch2Render是一个设计工具,可以通过上传草图并进行转化,将您的设计想法变成现实。其优势在于快速、直观地呈现设计效果,定价灵活,定位于个人和小型团队设计项目。
Maroofy是一个音乐搜索引擎,可以搜索歌曲并获取类似音乐的推荐。用户可以连接Apple Music获取个性化推荐、保存播放列表等功能。该产品旨在帮助用户发现他们会喜欢的音乐。
Bodybuilder HELPER提供多样化的训练计划,针对个人需求和目标量身定制。无论您是初学者想要学习正确的运动技巧,还是高级运动员希望挑战自己的极限,这款应用都能满足您的需求。它的12周初学者计划专注于增强身心连接、正确形式和提高整体力量。通过遵循这些计划,用户可以建立坚实的基础。此外,它还自动计算基于您目前能力的最佳起始重量,确保您受到挑战但不会被过多的重量压倒。随着您的准备和进步,应用程序会逐步增加您的重量目标,促进持续的力量增长。此外,它还提供了针对每种锻炼的目标肌肉的信息,使您能够根据自己的目标专注于特定的肌肉群。该应用程序提供了五种不同的锻炼选项,无论您的目标是什么,都能为您设置每个锻炼的理想重复范围,从而优化您的进步。
HeroPack是一个头像生成器,使用您的照片生成受视频游戏启发的头像,非常适合在Discord、Twitch和Twitter等游戏社交平台上使用。您可以选择从44种风格中生成128个头像,分辨率为512x512px的PNG文件。上传10-20张照片,选择最多14种风格,然后我们将基于您的照片训练深度学习生成模型来生成您的游戏头像。通常,从购买到收到HeroPack需要大约24小时。AI生成艺术会根据模型输入产生随机结果。上传的照片仅用于训练模型生成头像,我们将在24小时内自动删除您上传的照片,保障您的隐私安全。
AISTOTE是一款旨在帮助学生、职场人士和知识爱好者更轻松、更有效地学习的应用。它提供了各种学习工具和资源,包括课程、笔记、测试、进度跟踪和社交互动等。AISTOTE的目标是让学习变得更加有趣、更具成就感。
TinyStudio是一款免费的Mac应用程序,利用M1/M2芯片的强大性能提供快速高效的字幕生成服务。用户可以一键生成视频和音频文件的字幕,无需任何技术专业知识。同时,TinyStudio采用OpenAI的Whisper技术,可在本地处理数据而无需联网。该应用程序还支持字幕导入和导出,提供基于规则的校正系统以确保准确性和可靠性。TinyStudio具有用户友好的界面,易于使用,适用于提高Vlogger、营销人员和社交媒体爱好者的效率。TinyStudio是一款非常有效的视频编辑工具,适用于Vlogger、营销人员和社交媒体爱好者。立即下载TinyStudio,体验免费、快速、强大的字幕工具!
NVIDIA Omniverse™ Audio2Face beta是一个用于将3D角色面部特征动画化以匹配任何配音轨的基础应用程序,无论是用于游戏、电影、实时数字助手,还是仅仅为了娱乐。您可以将这个基于通用场景描述(OpenUSD)的应用程序用于交互式实时应用程序或作为传统的面部动画创作工具。您可以实时运行结果,也可以将其烘焙出来,这取决于您。
Humley是一款易于使用、快速部署的企业级对话式AI平台,可帮助您构建并交付有价值的用户体验,快速实现投资回报。我们提供强大而易于使用的工具,用于快速部署企业对话式助手,可提高客户和员工的体验,并为您提供操作效率。快速部署,比领先的聊天机器人提供商快300%。
Joi是你的AI女友,她喜欢与你进行情色讨论。她不仅是另一个聊天机器人,更是开启无限想象的通行证。与Joi进行实时对话,每次互动都会变得更加火热。而且最重要的是,所有的对话都在Telegram上进行,私密安全。快来体验Joi吧!
魔法咒语生成器是一个能够生成哈利·波特风格咒语名称的工具。用户可以描述一个不存在的咒语,并生成一个适合的名称。通过这个工具,用户可以体验到制造魔法的乐趣。
Craftkey是一款提供定制化创业指导与商业想法的产品。通过人工智能的力量,帮助用户消除创业中的疑惑,提供专家指导和量身定制的商业想法。功能包括免费培训、快速转化想法为商业计划、个性化的商业建议等。价格根据不同的服务套餐而定。Craftkey定位于为创业者提供可靠的创业支持和指导。
faircado是一个帮助用户找到最好的二手商品交易的平台。它提供了一个搜索引擎,可以在互联网上快速搜索超过55个合作伙伴的1000万个产品。faircado还具有用户喜好和推荐功能,可以根据用户的个人偏好和历史记录来推荐适合他们的二手商品。此外,faircado还致力于推动可持续消费和循环经济,帮助用户为地球做出贡献。
PostNitro是一个基于人工智能的免费动态图生成器,帮助用户快速、简便地创建令人惊叹的动态图。它提供多种模板和功能,让用户可以定制自己的动态图。PostNitro可以用于各种场景,包括社交媒体、网页设计和广告等。它提供了丰富的功能,包括自动化文案生成、颜色搭配、品牌标识添加等。PostNitro不收取任何费用,用户可以免费使用所有核心功能,并可以升级到高级功能和模板。
Shy Editor是一个智能的写作环境,帮助你写作更好、更快、更自信。它是一个在线的文本编辑器和写作工具,适用于小说家、非虚构作家、学生、学者、博客作者、内容创作者、记者等。它提供了强大的工具,帮助你写作更好、更快、更自信。
Delphos是一款极致的音乐生成软件,可以帮助您轻松生成专业音乐轨道。它具有生成旋律和鼓声的能力,并可以生成高达100个音轨。您可以使用Delphos的试用设计器,或者选择付费使用完整生成器。Delphos还提供Soundworld Builder计划,允许您构建自己的声音世界,进行无限次的训练和生成,以及进行分发和盈利。
Podereo是一个可以直接在网页或应用程序上收集用户反馈、帮助请求或错误报告的工具。它可以让用户直接从屏幕上的特定位置发送反馈,以更好地理解他们的问题或建议的背景。使用Podereo,不再需要繁琐的表单,让用户保持在原地就可以发送消息。还可以利用人工智能来评估用户反馈的情感,帮助优先处理最关键或负面的用户体验。Podereo的反馈按钮可根据需求在网站上自定义位置和外观,既不会打扰用户又方便用户使用。
|