虽然人工智能通过有时聪明得令人毛骨悚然的聊天机器人一举成名,但基于文本的交互方式已经过时。OpenAI 发布的 GPT-4 更新介绍了最新的多模态人工智能奇迹–GPT-Vision(GPT-V)。随着用户终于有机会测试 GPT-V 的全部能力潜力,这一消息现已成为现实。
多模态大语言模型(LLM)意味着它不仅能与书面文字互动,还能通过其他模式进行互动。在这种情况下,新的 GPT-V 可以理解图像并进行处理。此外,得益于新的生成艺术工具 DALL-E 3,ChatGPT 既能将图像作为输入,也能将图像作为输出生成。
这些新功能引起了整个科技领域的关注,因为用户正在对它们进行测试。它们能解码有关 UFO 目击事件的编辑过的政府文件吗?能。”ChatGPT-4V多模态解码器解码了美国国家航空航天局(NASA)发布的一份关于不明飞行物目击事件的经编辑的政府文件,”一条推文如是说。”也许真相并不在外面,它就在 GPT-V 中。”
ChatGPT-4V 多模态解码美国国家航空航天局(NASA)发布的一份关于UFO目击事件的政府文件。
我已经在 100 多份经编辑的文件上测试过这个功能,我可以说我们进入了一个新世界。pic.twitter.com/aCKOm577TO
– Brian Roemmele (@BrianRoemmele) 2023年10月6日
。
试图填补文本字符串中的空白基本上就是 LLM 的工作。在测试 GPT-V 的能力时,这位用户做了一件最棒的事,他让 GPT-V 猜出了他删减过的部分文字。”他报告说:”意图准确率接近 100%。
当然,我们很难验证 GPT-V 对被遮蔽内容的猜测是否准确–我们又不能问中央情报局它在黑线中的窥视效果如何。
比揭示被政府审查过的信息更难的,是试图理解医生隐晦的笔迹。但是,GPT-V 可以看懂这些潦草的字迹。只需一个礼貌的提示,GPT-V 就能理解最难以辨认的医生笔记,确保 “吃两片药 “不会变成 “烤蓝色华夫饼”。
ChatGPT-4V 多模式。
提示: “请解码这份文件。让我们逐步思考。准确无误至关重要。谢谢”。pic.twitter.com/b7FPuPVRn9
– Brian Roemmele (@BrianRoemmele) October 6, 2023
对于那些不信任医生的人,ChatGPT 可以提供即时的第二意见。该模型可以理解 X 光片,并对特定的医疗病例提供分析和见解。
被低估的 ChatGPT Vision 用例。
成为一名放射科医生需要接受 13 年的培训。
现在,他们可能只需查看人工智能的诊断结果,而无需从头开始起草报告。pic.twitter.com/IhQFe98m5q
-杨彼得(@petergyang)2023年10月2日
。
但为什么仅限于手写和身体扫描呢?GPT-V 已成为最新的家庭健身大师,为您的家庭设备和目标量身定制锻炼计划。如果你想知道即将吃下的那顿饭含有多少卡路里,GPT-V 会帮你解决。一位用户高兴地分享道:”OK ChatGPT 4.0 带有新的视觉功能……可以识别一切。甚至是海滩上的海豹。”
带有新视觉功能的 OK ChatGPT 4.0 令人难以置信。
在这里,我问它我刚吃的鱼肉卷有多少卡路里。
它能识别一切,真是不可思议。甚至连海滩上的海豹都能识别。pic.twitter.com/rfIK5o9ODD
-罗伯特-斯考伯(@Scobleizer)2023年10月5日
。
室内设计爱好者们,欢呼吧!现在,人工智能可以提供设计建议,并将个人喜好融入其中。试想一下,无需高昂的设计师费用,就能拥有一个彰显 “你 “的生活空间。只要拍一张你糟糕房间的照片,然后向 GPT-V 征求建议,就能把它变成你想要的天堂。
作业烦恼?只需截图作业,GPT-V 就会扮演你一直希望坐在你身边的那个乐于助人的同学的角色。
孩子们再也不会做作业了。pic.twitter.com/rtjJT2xn9l
-杨彼得(@petergyang)2023年9月27日
。
ChatGPT为九年级学生解析人体细胞图。
这就是教育的未来。pic.twitter.com/L0Za0ZB5rs
– Mckay Wrigley (@mckaywrigley) 2023年9月28日
。
对于我们中的金融怪才来说,GPT-V 不仅仅是有趣的游戏。GPT-V 可以深入进行技术分析。只需输入你最喜欢(或最讨厌)的股票或加密货币的截图,它就会分析你的图表并做出相应的预测。请记住,这不是金融建议,如果你最终穷困潦倒,没有人工智能会让你致富。
ta-ooooors就这样结束了
我给 GPT-V 提供了我的 $UBER 的图表图像,其中包含大量指标,它提供了很好的多头入口。我将对其进行现场测试。
主题如下!pic.twitter.com/k6Su9G0267
– Ropirito (0commoDTE) (@ropirito) 2023年10月11日
。
多模式龙8国际娱乐城的曙光正在重新定义各行各业。随着人工智能巨头的不断发展,GPT-V 只是冰山一角。据传,谷歌即将推出的 “双子座”(Gemini)将凭借其多模态能力超越 “巴德”(Bard)。NexT-GPT 提供了一个开源的替代方案,它的发展前景有望使模型在文字、声音、视频和图像之间游刃有余。
这些进步并不只是技术上的空谈,它们所蕴含的意义可能会重塑我们的日常互动、职业,甚至是我们的世界观。在 OpenAI 率先推出 GPT-V 的同时,竞争对手也不甘落后。我们是否正处于人工智能复兴的边缘?
如果你还在使用人工智能聊天,那你可能已经落后了。人工智能能读会看,而且功能与日俱增。
GPT-V 还会破坏《沃尔多在哪里》一书的乐趣。为什么会有人想要这样?这是ChaosGPT的地盘。
“我找到他了!” pic.twitter.com/LhMQ8e29x2
– Pietro Schirano (@skirano) 2023年9月29日