使用 Open AI 的 ChatGPTWhisperPython 和 Gradio 创建智能语音助手 | Python项目
Posted OooKK_24
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用 Open AI 的 ChatGPTWhisperPython 和 Gradio 创建智能语音助手 | Python项目相关的知识,希望对你有一定的参考价值。
最近chatGPT大火,我也来蹭蹭热度(不是)
既然chatGPT是所谓的聊天机器人,那就不能只通过手动输入文字来和它聊天。那么,如果将语音转化为文字,然后将文字作为输入传给chatGPT,岂不是就可以成为一个语音助手。
于是,就有了今天这个博客。事先声明,本文涉及到技术的部分完全来源于youtube的一位博主!
项目github地址:https://github.com/terry3041/pyChatGPT
Google Colab地址:https://github.com/bhattbhavesh91/voi...
感兴趣的小伙伴可以自行查阅。
下面,我们就一起来简单分析下如何实现一个简易的智能语音助手:
基础架构:
核心原理其实很简单:首先将用户输入的音频通过Whisper转化为文字,然后将文字作为输入传入ChatGPT(这里可以直接调用其接口),最后得到来自chatGPT的回答。
下面让我们看下如何具体实现:
我们直接打开原作者的Google Colab笔记本:
里面分为五个模块:
Installation:导入相关库
Imports:导入相关python包
Defining Variables:相关参数配置
Transcribe Function:核心功能实现
Gradio Interface:基于Gradio实现前端界面
真正需要我们自己填写的只有Defining Variables这部分
我们需要在"secret_token"填写注册成为ChatGPT用户后获取的token
具体注册步骤:https://zblogs.top/how-to-register-openai-chatgpt-in-china/#openai-supported-areas
获取session token :(详细步骤原博主的github库里有)
填好session token后,在Google Colab上依次运行各模块,最后生成的语音助手如下:
感兴趣的小伙伴可以自行尝试!
一些别的思路:
可以外接一个Led显示屏,将结果以自己喜欢的方式打印出ChatGPT回答的结果;
可以将本项目的输出结果转为语音,使其成为一个高级的Siri/小度(可能需要封装为apk或者ios app)
关于人工智能的思考:
就目前来看,ChatGPT的智能程度远远不够,它甚至都不能通过“图灵测试”的标准解释。
不过,这个AI模型的出现,确实让人耳目一新,至少,它能让普通用户,切实地体会到与AI聊天的乐趣。
随着算力不断提升和数据集的扩展,相信在不久的将来,我们真的可以亲眼鉴证一个真正的人工智能的诞生!
以上是关于使用 Open AI 的 ChatGPTWhisperPython 和 Gradio 创建智能语音助手 | Python项目的主要内容,如果未能解决你的问题,请参考以下文章
目标检测比赛---Google AI Open Images - Object Detection Track
OPEN AI角色插件通道开放接入支持各种细分领域对话场角色景模型一键接入AI 智能
ChatGPT4通道开放接入基于OPEN AI 平台你的任何APP 可一键接入AI 智能
OPEN AI接入MidJourney 画图支持GPT4中文智能优化效果惊艳
人工智能AI代码:AIXCodeCompletionHelper一个集成了 Open AI 人工智能写代码的 Jetbrains IDE 插件(支持 Golang,IDEA等)