利用vimGPT为多模态模型提供一个可操作的界面

2023-11-17 16:30:46 浏览数 (2)

vimGPT

该项目的宗旨是为多模态模型提供一个可操作的界面。以下视频中详细介绍了本项目的主要内容:

概述

越来越多的初创公司和开源项目正在探索使用LLM作为浏览互联网的方式。通过这个项目,我对是否可以只使用GPT-4V[1]的视觉能力来进行网页浏览感兴趣。这个问题在于如果不将浏览器DOM作为文本提供给模型,很难确定模型想要点击什么。Vimium[2]是一个Chrome扩展程序,可以让你只用键盘浏览网页。我觉得有趣的是,我们能否使用Vimium给模型提供一种与网页交互的方式。

设置

安装Python依赖

代码语言:javascript复制
pip install -r requirements.txt

本地下载Vimium(在运行Playwright时需手动加载扩展程序)

代码语言:javascript复制
./setup.sh

想法

请随时与我合作,我有很多想法:

•一旦发布Assistant API[3],用于自动上下文检索。Assistant API将创建一个我们可以添加消息的线程,以保留操作历史记录,但它尚不支持Vision API。•用于叠加元素的Vimium分支。基于上下文有选择地叠加元素的Vimium的专门版本可能很有用,有效地根据用户查询进行修剪。也许值得尝试不同大小的框/颜色是否有帮助。•使用更高分辨率的图像,因为低分辨率图像似乎无法正确识别。我注意到,在某个临界点以下,模型无法检测到任何内容。使用更高分辨率的图像可能会改善这一点,但需要更多的令牌。•对LLaVa[4]或CogVLM[5]进行微调,或者使用Fuyu-8B[6]。可能会更快/更便宜。CogVLM可以准确地指定像素坐标,这可能是一种很好的增强方式。•一旦发布Vision API的JSON模式,就使用它。目前,Vision API不支持JSON模式或函数调用,因此我们必须依靠更原始的提示方法。•使视觉API返回常规指令,并通过对API的JSON模式版本进行另一个调用来规范化。这是JSON模式问题的一种解决方法,但需要另一个LLM调用,这会更慢/更昂贵。•添加Whisper或其他模型进行语音转文字,以消除文本输入,使得更易访问。•使其适用于您自己的浏览器,而不是启动一个虚拟的浏览器。我想能够使用信用卡订购食物。•提供启用和不启用Vimium的框架,以防模型看不到黄色方框下的内容。•除了图像外,还将Chrome的可访问性树作为输入。这提供了可交互元素的布局,可以映射到Vimium绑定。•根据页面上下文编写更长的内容,或根据查询向用户返回信息。例如,回复电子邮件,总结新闻文章等。视觉问答。•通过添加语音模式和一个用于给定页面创建Assistant API的按键,使其成为盲人的有用工具。可以用自然语言与“代理人”交流关于页面内容的事项。

参考资料

•https://github.com/Globe-Engineer/globot•https://github.com/nat/natbot

声明

本文由山行翻译整理自:https://github.com/ishan0102/vimGPT,感兴趣的请点赞、收藏、关注。

翻译本文的目的在于笔者认为本文的一些想法在AI应用领域是比较新颖的,希望能够籍此给AI从业者们带来更多灵感。


References

[1] GPT-4V: https://openai.com/research/gpt-4v-system-card [2] Vimium: https://vimium.github.io/ [3] Assistant API: https://platform.openai.com/docs/assistants/overview [4] LLaVa: https://github.com/haotian-liu/LLaVA [5] CogVLM: https://github.com/THUDM/CogVLM [6] Fuyu-8B: https://www.adept.ai/blog/fuyu-8b

0 人点赞