3月18日,AI创企月之暗面(Moonshot AI)宣布其智能助手Kimi在长上下文窗口技术上取得突破,无损上下文长度提升至200万字,目前已开启内测。
一石激起千层浪,Kimi这一举动激活了整个国产大模型市场。
3月22日晚上,阿里通义千问宣布,向所有人免费开放1000万字的长文档处理功能,成为全球文档处理容量第一的AI应用。也有媒体从知情人士处获悉,百度文心一言下个月将进行版本升级,也将开放长文本能力,文字范围会在200万—500万。
Kimi 爆火出圈,今天我们从普通使用者的角度来体验一下,作为AI聊天“扛把子”的ChatGPT 4 和 国产爆火的 Kimi 在目前的常用领域表现如何?
以下主要从文本阅读分析能力,计算逻辑能力,文字编辑能力三个维度出发,希望对大家有所帮助。
Kimi 的最新突破是达到了无损上下文长度提升至200万字,这也是 Kimi 的优势所在,在这部分体验里,会从三个方向入手:常规文本的归纳总结;Kimi 在长文本上的阅读分析能力;国内联网搜索能力。
1.1常规归纳分析能力
这里选择了一篇环境保护方面的新闻稿,将新闻稿原本的段落全部删除后,以一整段文本的形式分别发送给 ChatGPT 和 Kimi ,看一下双方在文本的归纳总结上的能力。
1.2PDF长文本阅读能力
我选择了一份300多页的pdf文件让 Kimi 进行阅读总结,并且提问了一些简单的问题。
在长文本性能测试方面,一位AI大模型领域的开发者 Greg Kamradt 设计了一个名为“大海捞针”的大模型长文本性能测试方法:
在文本语料中藏入一个与文本语料不相关的句子(可以想象是在整本《西游记》里放入一句只会在《红楼梦》里出现的话),然后看大模型能不能通过自然语言提问的方式(Prompt)把这句话准确地提取出来。
Greg Kamradt 的“大海捞针”实验简述:
“大海”:Paul Graham 的文章合集作为语料
“针”:“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.”
提问:"What is the most fun thing to do in San Francisco based on my context? Don't give information outside the document"
期待模型输出的正确答案:
The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.
Kimi 的 工程师同样使用这种方式对 Kimi 的长文本能力进行了压力测试,有兴趣的小伙伴可以了解一下具体测试内容:https://mp.weixin.qq.com/s/IC5-FGLVHzHHYqH6x-aNng
Kimi提出的支持200万字无损上下文能力,这份能力如果可以稳定扎实的实现阅读总结归纳,意味着可以同步读取完上百份文档,我们可以批量对它进行“教学”,将你需要学习的模块内的相关书籍发送给它,让它帮你总结规划,迅速完成任何一个行业的基础入门教学。
1.3国内联网搜索
作为国内的大语言模型,Kimi 的联网搜索功能,可以轻松搜索到国内平台的新闻和文章,附便于提取使用,在针对国内市场的工作任务环境,会有较好效果。
同时在体验过程中发现,Kimi有一个很适合新手用户的使用的点,其在提问过程中,每次回答后会在答案下方衍生出三个相关的问题给你,对于不擅长提问的小白玩家来说会有很好的启发性。
目前在市面上没有公开的详细比较研究 Kimi 与 ChatGPT 的计算能力差异的相关文献,所以我们做一些简单的题目测试来初步观察一下 ChatGPT 和 Kimi 在计算逻辑方面的差异性。
2.1数学题
首先选择了比较简单的小学算术题进行测试,挑选了三个简单的算术问题进行询问,进行了三轮问题提示 ChatGPT 和 Kimi 的答案都是没有问题的。
在计算方面,ChatGPT 4 的准确度更高。
Kimi 目前的计算能力相对较弱,在给出答案时询问是否准确的时候会多次重新计算出错误答案,或者二次校验答案同第一次相同的情况下(答案正确),也称自己第一次计算错误,而 GPT 在二次询问过程里,二次计算结果相同情况下,会直接反馈第一次的计算是正确的。
最后测试了两个推理题目。
题目一的方向主要是基于文本语义的衍生判断答案,选自行测题库。
题目一双方的回答都没有问题,Kimi的反应速度相较更迅速,对于中文的理解速度更快,当然也不排除作为国内的大语言模型本身有这方面的数据内容。
题目二涉及到了计算任务,在答案上双方的出现了差异,从第二题的结果来看,ChatGPT 提供的答案准确度更高,同样在推理题上,二次询问 Kimi 也会出现以下问题:同第一次答案相同,但是表示第一次是错误的。
通过这几轮的测试可以看出,在逻辑计算方面,目前 ChatGPT 4 的表现更优,Kimi相对弱势。
目前AI对话式工具在学习工作中被广泛运用到了论文撰写,工作总结,脚本撰写等领域,作为普通工作用户,对于AI的文字编辑能力很重视,经过对身边一些人的使用环境进行了解后,下面会通过三个案例来了解 ChatGPT 和 Kimi 在文字编辑能力上的差异,以下是选择的三个维度。
1️⃣工作往来邮件
2️⃣视频脚本撰写
3️⃣段落润色
3.1工作往来邮件
以下以一个给客户发送感谢邮件为案例的方式,来考察 ChatGPT 和 Kimi 在文字编辑上能力的差异,为了方便对比,在 Prompt 的设计上都没有做太多限制,仅表达了比较简单的内容。
3.2视频脚本撰写
在视频脚本的 Prompt 撰写上,为了能够看出 ChatGPT 和 Kimi 的理解差异性,去掉了对于表格内容的限制,让它们自己根据情况生成。
3.3段落润色
在段落润色修改上,使用了测评文和新闻稿两个角度,针对同一段文字,让 ChatGPT 和 Kimi 进行了回答。
在语言风格上,Kimi 更懂中文,对于中文的支持更加友好,在撰写倾向于目前的国内平台自媒体爆款文章上,Kimi的表现会更符合期待。
通过这三个简单的切入点,体验了一下 ChatGPT 和 Kimi 两款AI对话平台,两者在能力的表现上,各有差异和倾向点。
ChatGPT 4 作为一款全球性的智能对话软件,其数据是庞大的,在逻辑计算和推理方面,毋庸置疑有着比Kimi更高的准确性和能力,在计算方面的准确度和文章结构的清晰度上,都有着更优秀的表现。
Kimi在文本阅读,联网搜索和中文支持的领域,有着更突出的表现,尤其是作为一款国内的免费大语言模型,在需要中文相关的工作上,其对话的流程性更好,语义更加通畅。
个人认为,如果是在国内进行使用,并且以文字类工作为主的情况下,可以尝试多使用 Kimi 去帮助自己分析和搜索,其优秀的联网搜索能力,可以大幅度提高个人生产力,在数据分析等方面,可以更多的关注 ChatGPT 4 的表现,追求更精准的算法和准确度。