当AI学会了自己写游戏，当我们可以同时和所有大模型对话

新闻 2023-03-11

4313 0

每天打开电脑，看着令人眼花缭乱的新信息，层出不穷的新事物，实在让人忍不住感叹 AI 领域的技术更迭速度之快。

本期文章中，真格投资团队梳理了过去两周内出现或更新的、好玩又实用的 AI 工具，总结了几家大公司的代表性新动作，还带来了 2 月热度最高的 5 篇 AI 领域学术论文的精读分享。

希望能带给你一些启发，也欢迎在评论区和我们交流你的想法～

插播一则消息：第十三期「真驿站」正在火热招募中，欢迎扫描下图二维码报名！

更多信息请戳

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

AI·观点

The Waluigi Effect｜LLM 的「逆反心理」

Waluigi 是 Super Mario 游戏中的蘑菇头，代表反动势力，那么，LLM（Large Language Model：大语言模型）为什么会成为「大反派」呢？这可能与 RLHF（Reinforcement Learning from Human Feedback：基于人类反馈对语言模型进行强化学习）相关️。

如果文中提到的符号学模拟理论（Semiotic–Simulation Theory）是正确的，那么RLHF 是解决 AI 对齐问题的不可逆不充分解决方案，同时 RLHF 还可能会增加错位的风险，即在通过越多的约束训练让 LLM 满足理想的属性 P 之后，反而更容易让其在与人的对话过程中展现出与 P 完全相反的属性。

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://www.lesswrong.com/posts/D7PumeYTDPfBTp3i7/the-waluigi-effect-mega-post

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

AI · 工具

好玩的｜For Fun

Sumplete

在几小时的 Prompt Engineering 之后，ChatGPT 独立设计并写出了这款益智游戏——来试试看，AI 自己写的游戏如何吧！

https://sumplete.com/

Lemonaid

如果生活给你一颗柠檬，那就用柠檬汁来创造音乐吧 ——输入想法，让 5000 万个 MIDI 进程帮你生成独特音乐！

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://www.genius.design/

有用的｜For Money

AI Prompt Playground by Nat Friedman

Nat Friedman 不仅经营着 GitHub，还通过 AI Grant 与 Daniel Gross 一起投资 AI 早期公司。Nat 构建了一个看起来平平无奇，甚至还有点眼熟的AI prompt playground，但最重要的是，可以在这里对几乎所有的 LLM 的 output 进行对比——强烈建议取消那些无聊的会议，玩玩它！

https://nat.dev/

Buildt

YC 支持的创业公司，用 AI 帮助理解和使用庞大的代码库。想到可以在浩如烟海的代码库瞬间定位一条相关的代码，有点浪漫是怎么回事？

https://www.buildt.ai/

与之相似的产品 Bloop - https://bloop.ai/

Meerkat

基于 LLM 的交互式数据框架，帮助技术团队以交互方式处理图像、视频、文本文档等非结构化数据。

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

http://meerkat.wiki/

Arcwise AI

一句话简介：GPT Copilot for Sheets；更通俗易懂的名字：ChatExcel～

https://arcwise.app/

与之类似的产品 PromptLoop：

https://www.promptloop.com/

ChatPDF与你的 PDF 文档展开对话吧——提问、总结、翻译，或者就是单纯聊天——实测大部分时间都是靠谱的，偶尔自由发挥编纂些美好的「白日梦」。

https://www.chatpdf.com/

与之类似的产品 Humata（名字实在吃亏）：

https://www.humata.ai/

Whimsical一直在用的小工具有了更新，融合 LLM，点击小星星，一键生成新思路。

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://whimsical.com/ai-mind-maps

OpenAI Translator

优于 DeepL、谷歌翻译的小插件，划线翻译，易用性与实用性拉满！

https://github.com/yetone/openai-translator

与之类似的还有 - Bob，从 2020 年就一直存在的小插件，融合 ChatGPT API 后性能进一步拉升：

https://bobtranslate.com/

成熟公司的新动作 | From Big

微软

Dynamics 365 Copilot- 主要针对销售和营销人员，类似于 Github 的 Copilot 让开发人员更容易编码，它旨在让销售人员更容易进行销售活动。据 Bloomberg 报道，纳德拉认为这是脱离单独的 CRM（Customer Relationship Management：客户关系管理）、ERP（Enterprise Resource Planning：企业资源计划），朝着建立 Biz App Workflow 迈出的一步。

Power Platform AI Builder- 通过 Power Virtual Agents 中的 Chatbots 和 Power Automate 中的 GPT 模型实现了 Power Platform AI 升级。Power Platform 是一组无代码解决方案，新功能在这些解决方案中嵌入了文本生成，使用户能够更智能地实现自动化流程、预测结果并提高业务效率。

微软的下一次更新是在 3 月 16 日，针对「工作空间生产力」，这可能意味着是 Office 365 的 AI 升级。

Salesforce

Salesforce 近期一连推出三个大动作：

Eistein GPT- Salesforce 称之为「The Worlds First Generative AI for CRM」，Eistein GPT 将被用于在 Salesforce 生态系统（销售、营销、客户服务、开发等）中跨功能生成内容，模型也将与 OpenAI 和其他模型集成，目前尚处于封闭测试阶段；

Gen AI Fund- 设立了 2.5 亿美元的基金，旨在投资于生成式 AI 初创公司，该基金的愿景是发展「负责任的 AI （Responsible Generative AI）」，截至目前，他们已经投资了 4 家公司：You、Anthropic、Cohere 和 Hearth；

ChatGPT for Slack- Slack 的专属 ChatGPT 应用程序已上线（需候补），正如 Slack 的 CPO Noah Weiss 所说：OpenAI + Slack，真是非常好的组合。也许这是另一种共生关系—— OpenAI 团队也在使用 Slack，并在其 Slack Workplace 发送了超过 500 万条消息；现在，Slack 将使用 OpenAI 的 ChatGPT 来总结话题、针对特定项目的问题答案，以及生成给同事的回复。

Jina AI - PromptPerfect

提示词的设计一直是中文世界 LLM 用户的痛点，尤其是在图像生成类产品，如 Midjourney 和 Stable Difffusion 的使用过程中，而 Jina 推出的 Prompt Perfect 无疑解决了这一痛点——用算法优化提示词，自动化 Prompt Engineering，用魔法打败魔法，让用户更容易地念出咒语，驯化 LLM 产品！

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://promptperfect.jina.ai

Quizlet - Q-Chat

Quizlet 的 Q-chat 不仅仅是提供信息来回答学生的问题，而是使用苏格拉底式的方法来鼓励批判性思维，并以此加深学生对学习主题的理解。用户可以学习语言，选择对所学材料进行测验，并像与真正的老师一样与机器人互动。

https://quizlet.com/blog/meet-q-chat

Snapchat - My AI

Snapchat 正在将聊天机器人带给街头的酷小孩，他们将推出一款名为 My AI 的应用内聊天机器人，它更像是一个联系人，拥有自己的头像，用户可以随时与其交谈。考虑到 Snapchat 的用户群十分年轻，这种 AI 功能的监管很重要，就目前来看，Snapchat 的预设还不错：My AI 确实有很强的行为及人格约束，例如拒绝回答家庭作业问题，在政治问题方面格外小心等等。

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://help.snapchat.com/hc/en-us/articles/13266788358932-What-is-My-AI-on-Snapchat-and-how-do-I-use-it-

Zapier - Zapbots

Zapier 集成了 ChatGPT 并推出了 Zapbots（它还拥有记忆），就目前来看，也许是构建 AI App 最简单的方式了——只需输入您希望用户提交/输入的字段，添加逻辑（例如制作食谱），一个应用程序即可上线供您与他人分享！

https://zapbots.zapier.com/

Luma Labs

基于 NeRF 将 2D 照片转为 3D 视频的软件有了重要功能更新——实时的实景 3D 渲染！

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://lumalabs.ai/

效果视频在此：

https://twitter.com/lumalabsai/status/1628832654840979457?s=12&t=HGCqSH9MlRxEMSHyuV8nKQ

Stable Diffusion - AI Render

官方 Blender 插件 - 如何真正让视觉行业的从业者更好地用上视觉模型？来一个顺手的工作流！

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

https://platform.stability.ai/docs/integrations/blender

AI·技术

AI 领域技术更迭日新月异。就学术论文来看，仅仅在过去的 2 月，Twitter 上点赞总数超 1000 次的学术论文就已经超过了 30 篇，它们的研究重点也是各不相同，从自然语言处理到机器视觉，从基础模型到模型微调，从技术本身到与社会科学的交叉点，百家争鸣，百花齐放。

这里选出了热度最高的 5 篇，与大家进行分享。

Language Is Not All You Need: Aligning Perception with Language Models

语言不是全部：对齐感知与语言模型

作者：Shaohan Huang｜Researcher @微软亚洲研究院等

微软团队提出了一个名为 Kosmos-1 的多模态大语言模型（Multimodal Large Language Model, MLLM），可以理解语言、图片等多种形态的信息，并且在不同任务中表现良好。

此模型不需要人为调整参数，可以在上下文中学习（few-shot）并遵循指令（zero-shot）。它可以感知通用模态，例如，看一张图片并描述它，回答与图片相关的问题，或者根据文字指令来识别图片中的物体；可以通过完成不同任务来进行能力测试，比如语言理解、生成、OCR-free NLP 等；与此同时，还可以从语言到多模态、从多模态到语言的跨模态转移中受益。此外，作者还介绍了一个 Raven IQ 测试数据集，用于判断多模态大语言模型的非语言推理能力。

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

In Summary

这个工作核心贡献在于将上下文学习推广到了普适的多模态场景，这意味着未来多模态领域也将摆脱任务层面的微调，走向通过指令和示例来解决各种任务的新范式。

文章链接 - https://arxiv.org/abs/2302.14045

LLaMA: Open and Efficient Foundation Language Models MetaAI「单 GPU」LLM 模型 LLaMA：开放高效的基础模型作者：Hugo Touvron｜Research Scientist @FAIR Meta AI 等

Meta AI 团队加入基础模型战争，推出了一组参数介于 7B 到 65B 的 LLaMA 模型，其中，LLaMA-13B 在大多数基准测试中表现优于 GPT-3（175B），而 LLaMA-65B 可以与表现最佳的模型 Chinchilla-70B 和 PaLM-540B 相竞争。

虽然Meta 在一开始就将模型定位为「开源的研究工具」，仅基于公开可用数据集进行训练，以便其与开源项目兼容且可重现，但其成品库还是不知怎么的就在匿名论坛 4chan 被泄露了，目前种子文件已被合并至 GitHub 的 Facebook Research 页面，并收获 8.5k+ 小星星⭐

当AI学会了自己写游戏，当我们可以同时和所有大模型对话

In Summary

超越 GPT-3 的开源替代，连预训练数据都是公开可得的——相当于告诉大家你有计算资源就可以尝试复现大模型。

文章链接 - https://arxiv.org/abs/2302.13971

Theory of Mind May Have Spontaneously Emerged in Large Language Models大语言模型可能自发地发展心智

作者：Michal Kosinski｜组织行为学助理教授 @Stanford GSB

「心智理论（Theory of Mind, ToM）」，即人类推测别人的想法和感受的能力，对于人类社交互动、沟通、同理心、自我意识和道德观念都非常重要。

Michal 让几个语言模型完成了一些经典的「错误信念任务（False Belief Task）」，这些任务通常用来测试人类的心智理论能力。结果发现，2022 年 1 月发布的 GPT-3（davinci-002）能够完成 70% 的任务，相当于 7 岁的孩子；而 2022 年 11 月发布的版本，davinci-003，则能够完成 93% 的任务，相当于 9 岁的孩子。这意味着，随着语言模型的语言技能不断提高，可能会自然而然地产生类似于人类心智理论的能力。

而 2 月 20 日，认知神经科学家 Simon Baron-Cohen 惊喜发现，GPT-3.5 又通过了一些新的 Faux Pas Recognition 测试。

In Summary

大语言模型的涌现能力是最令人着迷的，本文作者认为语言模型也可以涌现出交流时会考虑别人的感受和想法的能力——这意味着语言模型距离图灵测试更进一步。

文章链接 - https://arxiv.org/abs/2302.02083

Multimodal Chain-of-Thought Reasoning in Language Models语言模型中的多模式思维链

作者：Zhuosheng Zhang｜Intern @AmazonScience，PhD Candidate @上海交大等

本文提出了 Multimodal-CoT，在解耦合训练框架中融合视觉和语言特征来进行复杂的推理，从而得出正确的答案，解决了引发多模态 CoT 推理的关键挑战。

Multimodal-CoT 的关键在于，它可以将「基本原理生成」和「答案推理」分为两个阶段，生成有助于推断最终答案的信息性基本原理，形成有效的推理链，从而帮助我们推断答案，与之前的语言模型相比，Multimodal-CoT 的推理表现更好，甚至可以超过人类的表现。

In Summary

过去的思维链的工作局限在纯文本中，然而视觉信息对一些推理任务也是很重要的。这篇论文首次将视觉信息融入到了思维链中，在科学问答的数据集上用比 GPT-3 小两个数量级的模型打败了 GPT-3。

文章链接 - https://arxiv.org/abs/2302.00923

代码 & 模型地址：