easy.ai —— 突破AI多模态极限的插件助手

Administrator 字数: 12371 阅读耗时: 30 分钟 2024/11/08 2024/11/15 博客独享热度: 109 评论: 0

项目由 卡内基梅隆大学博士后，温浩珉博士 指导。我负责前后端全栈开发工作，预计将于月底上线发布
持续更新中

easy.ai是一款强大的多模态智能插件，集文字、文件、图片、音频和视频等处理于一体，支持跨平台使用，并提供高度可定制的体验，旨在提升用户的办公效率。easy.ai基于Langgraph开发的multiple-agent系统作为处理中枢，拓展了AI多模态功能，弥补了ChatGPT在聊天中，无法生成并处理音频、无法生成并处理视频、无法访问特定链接、知识库更新缓慢等缺点，并集成了文生数字人、实时语音交互等高级功能。同时easy.ai在多代理系统的支持下，能够一次性处理复杂请求，如在线搜索中国国宝，绘图，并以此生成视频等。

easy.ai和其他AI相比到底有什么不同？和传统Kimi等厂商不同，只能处理文本之间的交流（包括语音交互，也可以理解为文本的理解）。和传统的各服务集成不同，easy.ai支持在聊天过程中调用你所需要的各种功能，而无需切换到文生图、文生视频等特定的页面生成内容。同时，easy.ia支持实时联网查询你所需要的信息，而大部分的厂商AI并不能做到实时的搜索，而更多的是基于已有知识库进行理解。

easy.ai还具有什么核心竞争力？easy.ai具备动态拓展能力，什么意思呢，整个项目在不更改任何数据结构的情况下，随时整合市面上的各种服务。对于用户来说，可以做到无感的更新，并且能够体验到其他领先的服务。

目前已经支持的功能：

序号	输入	输出	备注	Function参数
1	文本	文本	OpenAI-完成	无
2	文本	图片	KlingAI-完成	1、prompt—描述多个图像,每个描述使用分号;间隔
3	文本	音频	OpenAI TTS-完成	1、prompt—描述音频。2、voiceName—合适的open ai 文字转语音 API 对应的语言代码，如 alloy,echo,fable,onyx,nova,shimmer
4	文本	FrankFu音频	11labs-完成	1、prompt
5	文本	视频	KlingAI-完成	1、prompt—视频描述。
6	图片	提取图片文字	Azure ocr图片识别—完成。	1、imageUrl—图片链接
7	图片	描述图片内容	Azure 图片参数提取 + OpenAI润色描述—完成	1、imageUrl-图片链接.2、用户prompt
7	图片	图片	remove.bg-完成。场景：去除图片中的背景	1、imageUrl-图片链接
8	图片	视频	KlingAI-完成	1、imageUrl-图片链接。2、用户prompt
9	音频	文本	OpenAI STT-完成。场景：提取音频中的文字	1、audioUrl—音频的URL
10	音频	音频	OpenAI-SST\翻译\TTS—完成。场景：换声音、翻译	1、audioUrl-音频的URL。2、voice—指定的语音。3、language—目标语言
11	联网搜索	搜索信息	tavily-完成	1、prompt
12	数据提取	数据提取	tavily-完成	1、prompt

其余待拓展功能：

序号	输入	输出
1	图片	文件（word/excel/pdf）
2	图片	音频
3	图片	视频
4	文件（word/excel/pdf）	文本
5	文件（word/excel/pdf）	图片
6	文件（word/excel/pdf）	文件（word/excel/pdf）
7	文件（word/excel/pdf）	音频
8	文件（word/excel/pdf）	视频
9	音频	图片
10	音频	文件（word/excel/pdf）
11	音频	视频
12	视频	文本
13	视频	图片
14	视频	文件（word/excel/pdf）
15	视频	音频
16	视频	视频