关于大模型RAG、多语言speech+大模型的想法

2024-2-22

2022年chatgpt 发布，全球轰动，尽管它有非常多的优点，但是它还是有很多的局限性，比如说内容的时效性、真实性、知识的局限性、数据的安全性等等，尤其是在一些专业领域的问题chatgpt是无法完成的，而RAG检索增强生成的出现，让这个问题得以突破，我们可以构建自己的知识库，向大模型提一个问题，RAG从各种专业数据中进行检索相关信息，然后将检索的问题和信息再注入到大模型中，给出答案。这样的技术让我们在很多行业中可以很好的推广大模型RAG，比如在文旅行业，游客能通过RAG实现景点、博物馆内容的对话交流。在生产行业可以对各种制造流程工艺给出严谨的指导意见。在政府、营业厅等办事单位给出合理的办事流程等。但是现在面临的问题，各种人工智能大模型平台在chatgpt问世后如雨后春笋般的出现，其质量参差不齐，行业也缺乏相应的监管和约束，长此以往对行业口碑影响巨大，我们亟待加快产业布局，展开与各行业知名头部的合作，打造自有品牌，提升影响力。

曾经人们因为语言的不通，发明了普通话、约定了官方的交流语言，用一种声音让信息变得通畅，而现在多语言大模型的出现，可以实现“你讲你的，我听我的”，让语言不再成为沟通的障碍。
2023年Mate发布了多语言大模型，可以识别 4000 多种口语并生成 1100 多种语音，这一技术的问世又引起行业的巨大轰动。
多语种混合语音识别系统由来已久，它最大的问题是错误率，往往因为各语言不同的文化差异而造成翻译表达不正确的乌龙事件，而大模型的加入让错误率大幅度的下降，基于此技术研发的产品将有更好的游客体验，例如在一个景区，一个小语种国家游客来旅游，一般是很难请到自己国家语言的翻译，而我们的技术加入应用在讲解机上，那将给游客带来极大的方便，包括随着国家一带一路政策的持续推广，我们一带一路小语种国家的交流也越发频繁，而多语言peech+大模型在推动交流上将起到重大的作用，且我们也可以开发系列的网站和软件在海外进行推广，例如教各个国家的人学习中文

作者：猫叔

链接：http://www.octsz.com/%e5%85%b3%e4%ba%8e%e5%a4%a7%e6%a8%a1%e5%9e%8brag%e3%80%81%e5%a4%9a%e8%af%ad%e8%a8%80speech%e5%a4%a7%e6%a8%a1%e5%9e%8b%e7%9a%84%e6%83%b3%e6%b3%95/

文章版权归作者所有，未经允许请勿转载。

THE END