利用vimGPT为多模态模型提供一个可操作的界面

vimGPT

该项目的宗旨是为多模态模型提供一个可操作的界面。以下视频中详细介绍了本项目的主要内容：

概述

越来越多的初创公司和开源项目正在探索使用LLM作为浏览互联网的方式。通过这个项目，我对是否可以只使用GPT-4V[1]的视觉能力来进行网页浏览感兴趣。这个问题在于如果不将浏览器DOM作为文本提供给模型，很难确定模型想要点击什么。Vimium[2]是一个Chrome扩展程序，可以让你只用键盘浏览网页。我觉得有趣的是，我们能否使用Vimium给模型提供一种与网页交互的方式。

设置

安装Python依赖

代码语言：javascript复制

pip install -r requirements.txt

本地下载Vimium（在运行Playwright时需手动加载扩展程序）

代码语言：javascript复制

./setup.sh

想法

请随时与我合作，我有很多想法：

•一旦发布Assistant API[3]，用于自动上下文检索。Assistant API将创建一个我们可以添加消息的线程，以保留操作历史记录，但它尚不支持Vision API。•用于叠加元素的Vimium分支。基于上下文有选择地叠加元素的Vimium的专门版本可能很有用，有效地根据用户查询进行修剪。也许值得尝试不同大小的框/颜色是否有帮助。•使用更高分辨率的图像，因为低分辨率图像似乎无法正确识别。我注意到，在某个临界点以下，模型无法检测到任何内容。使用更高分辨率的图像可能会改善这一点，但需要更多的令牌。•对LLaVa[4]或CogVLM[5]进行微调，或者使用Fuyu-8B[6]。可能会更快/更便宜。CogVLM可以准确地指定像素坐标，这可能是一种很好的增强方式。•一旦发布Vision API的JSON模式，就使用它。目前，Vision API不支持JSON模式或函数调用，因此我们必须依靠更原始的提示方法。•使视觉API返回常规指令，并通过对API的JSON模式版本进行另一个调用来规范化。这是JSON模式问题的一种解决方法，但需要另一个LLM调用，这会更慢/更昂贵。•添加Whisper或其他模型进行语音转文字，以消除文本输入，使得更易访问。•使其适用于您自己的浏览器，而不是启动一个虚拟的浏览器。我想能够使用信用卡订购食物。•提供启用和不启用Vimium的框架，以防模型看不到黄色方框下的内容。•除了图像外，还将Chrome的可访问性树作为输入。这提供了可交互元素的布局，可以映射到Vimium绑定。•根据页面上下文编写更长的内容，或根据查询向用户返回信息。例如，回复电子邮件，总结新闻文章等。视觉问答。•通过添加语音模式和一个用于给定页面创建Assistant API的按键，使其成为盲人的有用工具。可以用自然语言与“代理人”交流关于页面内容的事项。

参考资料

•https://github.com/Globe-Engineer/globot•https://github.com/nat/natbot

声明

本文由山行翻译整理自：https://github.com/ishan0102/vimGPT，感兴趣的请点赞、收藏、关注。

翻译本文的目的在于笔者认为本文的一些想法在AI应用领域是比较新颖的，希望能够籍此给AI从业者们带来更多灵感。

References

[1] GPT-4V: https://openai.com/research/gpt-4v-system-card [2] Vimium: https://vimium.github.io/ [3] Assistant API: https://platform.openai.com/docs/assistants/overview [4] LLaVa: https://github.com/haotian-liu/LLaVA [5] CogVLM: https://github.com/THUDM/CogVLM [6] Fuyu-8B: https://www.adept.ai/blog/fuyu-8b

程序翻译浏览器模型语音

0 人点赞