科幻成真!AI只凭音频生成逼真语音;用Python生成LaTeX数学公式;正则表达式提效宝库;NeurIPS教程;前沿论文 | ShowMeAI资讯日报

Posted ShowMeAI

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了科幻成真!AI只凭音频生成逼真语音;用Python生成LaTeX数学公式;正则表达式提效宝库;NeurIPS教程;前沿论文 | ShowMeAI资讯日报相关的知识,希望对你有一定的参考价值。

👀日报合辑 | 📆电子月刊 | 🔔公众号下载资料 | 🍩@韩信子

📢 只听音频!就可以生成逼真的语音和钢琴音乐

https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html

作者在『AudioLM: a Language Modeling Approach to Audio Generation』提出了一种新的音频生成框架,通过只听音频来学习生成逼真的语音和钢琴音乐。本文则介绍了 AudioLM 这种用于音频生成的语言建模方法,以提供长期连贯性和高音频质量。

语音生成实验表明,AudioLM 不仅可以在没有任何文本的情况下生成句法和语义上连贯的语音,而且该模型产生的延续几乎与人类的真实语音无法区分。此外,AudioLM 远远超出了语音范围,可以对钢琴音乐等任意音频信号进行建模。这鼓励未来扩展到其他类型的音频(例如多语言语音、和弦音乐和音频事件),以及将 AudioLM 集成到编码器-解码器框架中,以执行条件任务(例如文本到语音或语音到语音翻译)。

工具&框架

🚧 『Fyrox』Rust写的3D/2D游戏引擎

https://github.com/FyroxEngine/Fyrox

Fyrox是一个功能丰富、可生产的、通用的2D/3D游戏引擎,用Rust编写,带有场景编辑器,它的前身为 rg3d。

🚧 『latexify_py』用Python生成LaTeX数学公式(基于规则)

https://github.com/google/latexify_py

latexify_py 是一个Python工具库,用于生成LaTeX数学公式,它是基于规则实现的。

🚧 『TensorStore』大型多维数组读写库

https://github.com/google/tensorstore

https://google.github.io/tensorstore/

TensorStore 是 Google 开放的一个用于有效读写大型多维数组的库,可以为读写多种阵列格式提供统一的API(包括zarr、N5和Neuroglancer),支持多种存储驱动,支持高并发。

🚧 『MonitorControl』 Mac外显亮度控制器

https://github.com/MonitorControl/MonitorControl

MonitorControl 是一个 Mac 外显亮度控制器,可以调整显示器的亮度、音量和对比度,支持自定义键盘快捷键,拥有简单、不显眼的用户界面,完全免费、支持自动更新,提供无忧无虑的体验等。

🚧 『Cozy Auto Texture』用Stable Diffusion自动生成纹理的Blender扩展

https://github.com/torrinworx/Cozy-Auto-Texture

Cozy Auto Texture 将 Stable Diffusion AI 的复杂性与 Blender 的简单 GUI 连接起来,是在 Blender 中开始创建AI绘图/纹理的最简单和最直接的方法。Cozy Auto Texture 插件设置简单,开放源代码,下载过程简单,用户界面简单而直观。

博文&分享

👍 『Fast Methods for Partial Differential and Integral Equations』 MIT 18.336J · 偏微分方程和积分方程的快速方法课程

https://github.com/mitmath/18336

https://math.mit.edu/~cperezar/18.336.html

本课程广泛涵盖了求解大规模偏微分和积分方程的现代数值方法。本学期的课程重点是傅里叶和现代多项式谱方法、边界积分方程以及流体动力学和电磁学的应用。

  • Introduction to fast methods, PDEs, IEs(快速方法、PDE、IE简介
  • Fast Fourier transforms(快速傅里叶变换
  • PDE discretization and preconditioning(PDE离散化和预处理
  • Finite differences and fast Poisson solvers in 1D(一维有限差分和快速泊松求解器
  • Fast finite difference solvers in multiple dimensions(多维快速有限差分求解器
  • Domain decomposition methods(领域分解方法
  • Introduction to spectral methods(光谱法简介
  • Fourier spectral methods(傅里叶光谱法
  • Polynomial interpolation(多项式插值
  • Chebyshev collocation methods(切比雪夫搭配方法
  • Dense Chebyshev spectral methods(密集切比雪夫谱法
  • Sparse Chebyshev spectral methods(稀疏切比雪夫谱法
  • Multidimensional sparse methods(多维稀疏方法
  • Sparse methods for curvilinear domains(曲线域的稀疏方法
  • Introduction to low-rank methods(低秩方法介绍
  • Approximating low-rank interactions(近似低秩交互
  • Fast multipole methods and boundary integral equations(快速多极方法和边界积分方程
  • Discretizing boundary integral equations(离散边界积分方程
  • Advanced boundary integral equations(高级边界积分方程

👍 『Foundational Robustness of Foundation Models』基础模型的基础鲁棒性 (NeurIPS 2022 tutorial)

https://github.com/sayakpaul/robustness-foundation-models

https://sites.google.com/view/neurips2022-frfm-turotial/

基础模型采用深度学习方法,对大规模未标记数据进行预训练,并通过特定任务监督进行微调,正在成为机器学习的主流技术。尽管在学习通用表示、小样本/零样本泛化方面表现优异,但由于使用了过多的数据,基础模型在鲁棒性和隐私方面面临着前所未有的挑战和。

本教程提供了一个类似于 Coursera 的在线教程,包含综合讲座、交互式 Jupyter/Colab 实时编码演示,以及关于基础模型可信度的小组讨论。

  • Basics in foundation models and robustness(基础模型和鲁棒性基础
  • Deep dive on foundation models for computer vision(深入了解计算机视觉的基础模型
  • Deep dive on foundation models for code(深入了解代码的基础模型
  • Hands-on code walkthrough(动手代码演练

数据&资源

🔥 『re for humans』让 Python 正则表达式更人性化的资源列表

https://github.com/mikaelho/python-human-regex

re是 Python 标准库中一个强大的字符串匹配工具。但是正则表达式的使用有点麻烦,以至于使用频率受到限制。作者翻阅了大量 GitHub 上正则表达式的优化项目,整理成为当前的 Lis,辅助学习和写正则表达式,或者快速生成正则表达式。

研究&论文

可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。

科研进展

  • 2022.09.22 『去模糊化』 Diffusion Posterior Sampling for General Noisy Inverse Problems
  • 2022.09.30 『计算机视觉』 MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features
  • 2022.09.26 『强化学习』 Training Efficient Controllers via Analytic Policy Gradient

⚡ 论文:Diffusion Posterior Sampling for General Noisy Inverse Problems

论文时间:29 Sep 2022

领域任务:Deblurring,去模糊化

论文地址:https://arxiv.org/abs/2209.14687

代码实现:https://github.com/dps2022/diffusion-posterior-sampling

论文作者:Hyungjin Chung, Jeongsol Kim, Michael T. McCann, Marc L. Klasky, Jong Chul Ye

论文简介:Diffusion models have been recently studied as powerful generative inverse problem solvers, owing to their high quality reconstructions and the ease of combining existing iterative solvers./扩散模型最近被研究为强大的生成性逆向问题求解器,因为它们的高质量重建和易于结合现有的迭代求解器。

论文摘要:最近,人们将扩散模型作为强大的生成式反问题求解器来研究,这是因为它们具有高质量的重建和易于结合现有的迭代求解器。然而,大多数工作集中在解决无噪音环境下的简单线性逆向问题,这大大低于现实世界问题的复杂性。在这项工作中,我们通过后验采样的拉普拉斯近似,扩展了扩散求解器以有效地处理一般的噪声(非)线性逆问题。有趣的是,由此产生的后验采样方案是扩散采样的混合版本,具有流形约束梯度,没有严格的测量一致性投影步骤,与以前的研究相比,在噪声环境下产生了更理想的生成路径。我们的方法表明,扩散模型可以纳入各种测量噪声统计,如高斯和泊松,也可以有效地处理嘈杂的非线性反问题,如傅里叶相位检索和非均匀去模糊。

⚡ 论文:MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features

论文时间:30 Sep 2022

领域任务计算机视觉

论文地址:https://arxiv.org/abs/2209.15159

代码实现:https://github.com/microndla/mobilevitv3

论文作者:Shakti N. Wadekar, Abhishek Chaurasia

论文简介:We propose changes to the fusion block that are simple and effective to create MobileViTv3-block, which addresses the scaling and simplifies the learning task./我们对融合块提出了简单有效的改变,以创建MobileViTv3-块,解决了缩放问题,简化了学习任务。

论文摘要:MobileViT(MobileViTv1)结合了卷积神经网络(CNN)和视觉transformers(ViT),为移动视觉任务创建轻量级模型。尽管主要的MobileViTv1-block有助于实现具有竞争力的最先进的结果,但MobileViTv1-block内部的融合块却带来了扩展上的挑战,并有一个复杂的学习任务。我们对融合块提出了简单而有效的修改,以创建MobileViTv3-block,它解决了扩展问题并简化了学习任务。我们提出的MobileViTv3-block用于创建MobileViTv3-XXS、XS和S模型,在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上表现优于MobileViTv1。在ImageNet-1K上,MobileViTv3-XXS和MobileViTv3-XS分别比MobileViTv1-XXS和MobileViTv1-XS高出2%和1.9%。最近发表的MobileViTv2架构去掉了融合块,使用线性复杂度变换器,表现比MobileViTv1更好。 我们将我们提出的融合块添加到MobileViTv2中,创建MobileViTv3-0.5、0.75和1.0模型。与MobileViTv2相比,这些新模型在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上给出了更好的准确性。MobileViTv3-0.5和MobileViTv3-0.75在ImageNet-1K数据集上比MobileViTv2-0.5和MobileViTv2-0.75分别高出2.1%和1.0%。对于分割任务,与MobileViTv2-1.0相比,MobileViTv3-1.0在ADE20K数据集和PascalVOC2012数据集上分别取得了2.07%和1.1%的mIOU。我们的代码和训练好的模型可以在以下网站上找到:https://github.com/micronDLA/MobileViTv3

⚡ 论文:Training Efficient Controllers via Analytic Policy Gradient

论文时间:26 Sep 2022

领域任务强化学习机器人

论文地址:https://arxiv.org/abs/2209.13052

代码实现:https://github.com/lis-epfl/apg_trajectory_tracking

论文作者:Nina Wiedemann, Valentin Wüest, Antonio Loquercio, Matthias Müller, Dario Floreano, Davide Scaramuzza

论文简介:Conversely, learning-based offline optimization approaches, such as Reinforcement Learning (RL), allow fast and efficient execution on the robot but hardly match the accuracy of MPC in trajectory tracking tasks./相反,基于学习的离线优化方法,如强化学习(RL),允许在机器人上快速有效地执行,但在轨迹跟踪任务中很难与MPC的准确性相匹配。

论文摘要:机器人系统的控制设计很复杂,经常需要解决一个优化问题来准确地跟踪轨迹。像模型预测控制(MPC)这样的在线优化方法已被证明可以实现很好的跟踪性能,但需要很高的计算能力。相反,基于学习的离线优化方法,如强化学习(RL),允许在机器人上快速有效地执行,但在轨迹跟踪任务中很难达到MPC的精度。在计算能力有限的系统中,如航空器,一个在执行时高效的精确控制器是必不可少的。我们提出了一种分析性策略梯度(APG)方法来解决这个问题。APG通过对跟踪误差进行梯度下降的离线训练,利用了可微调模拟器的可用性。我们通过课程学习来解决APG经常出现的训练不稳定问题,并在一个广泛使用的控制基准–CartPole,以及两个常见的空中机器人–四旋翼和固定翼无人机上进行实验。我们提出的方法在跟踪误差方面优于基于模型和无模型的RL方法。同时,它实现了与MPC相似的性能,而所需的计算时间却少了一个数量级以上。我们的工作提供了关于APG作为一种有前途的机器人控制方法的潜力的见解。为了促进对APG的探索,我们开源了我们的代码,并将其放在 https://github.com/lis-epfl/apg_trajectory_tracking

我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!

◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。

◉ 点击 电子月刊,快速浏览月度合辑。

◉ 点击 这里 ,回复关键字 日报 免费获取AI电子月刊与论文 / 电子书等资料包。

使用腾讯语音合成技术生成有声书

  背景:不知是否在博客园看到的腾讯云平台广告,被AI接口几个项目吸引住了,其中有个   语音合成  接口在这里安利一下,还挺好玩。这个接口提供将一段文字转换成语音的功能,支持中文、英文,遗憾的是暂时无法通过自己的声音进行训练,推出自己独有声音的音频文件:) 不过总体来说,还是相当不错啦,附件中是我用这个接口转换的样例音频文件。

DEMO实测,代码案例简单概述:

首先,调用接口肯定得申请appkey,secrect等一堆东西,在这里申请

申请,完成后会获得公共请求参数必须的信息,然后接口调用分为直接http请求与使用官方版本的sdk调用2种方式,建议使用sdk调用的方式,避免还得自己加sign。sdk调用的方式很简单,测试demo如下:

 @Test
    public void testAi() throws TencentCloudSDKException, IOException, UnsupportedAudioFileException, LineUnavailableException {
        Credential cred = new Credential("你的ID", "你的key");

        AaiClient aaiClient = new AaiClient(cred, "ap-beijing");
        TextToVoiceRequest request = new TextToVoiceRequest();
        request.setProjectId(10144947);
        request.setModelType(1);
        request.setPrimaryLanguage(1);
//        request.setSampleRate();
        request.setSessionId("testsessionid");
        request.setSpeed(1F);
        request.setText("你好啊,你爱我么");
        request.setVoiceType(1);
        request.setVolume(1F);
        TextToVoiceResponse textToVoiceResponse = aaiClient.TextToVoice(request);
        String audio = textToVoiceResponse.getAudio();

        if (!StringUtils.isEmpty(audio)) {
            System.out.println(audio);


            BASE64Decoder decoder = new BASE64Decoder();
            try {
                byte[] data = decoder.decodeBuffer(audio);
                OutputStream out = new FileOutputStream("d://test1.wav");
                out.write(data);
                out.flush();
                out.close();
            } catch (Exception ex) {

            }
        }
    }

本人喜欢在喜马拉雅上听书,也听小说。看到有很多连普通话都不甚标准的作者有了大量的粉丝,还有打赏。在此我有了一个大胆的想法,在不涉及版权问题的前提下,我是否可以上传一大堆小说的音频内容,以量取胜,。实际测试中发现腾讯语音合成接口默认只支持300个字符,且生成的音频文件为BASE64的String字符串,需要进行拼接转换。拼接转换部分源码如下:

 @Scheduled(fixedDelay = 1000 * 60 * 60)
    public void toVoice() {
        String textFilePath="D://work/mywork/txt/孙子兵法/计篇.txt";
        String outputPath="D://work/mywork/voice/孙子兵法/计篇.wav";
        try {
            File output=new File(outputPath);
            logger.info("开始获取文件内文本数据");
            List<String> stringArray = fileManService.getStringArray(textFilePath, 100);
            if (stringArray != null) {
                List<String> voiceWaves=new ArrayList<String>();
                for(String tmpText :stringArray)
                {
                    voiceWaves.add(voiceManService.getWavString(tmpText));
                }
                WavBaseStringMergeUtil wavBaseStringMergeUtil=new WavBaseStringMergeUtil();
                File file=new File(outputPath);
                wavBaseStringMergeUtil.mergeWav(voiceWaves,file);
                logger.info("完成");
            } else {
                logger.info("获取到的文本内容为空");
            }

        } catch (Exception e) {
            logger.error("转换出现异常", e);
        }
    }

 至此,基本可以满足咱们转换小说的需要啦!!!今天也上传了第一套专辑《孙子兵法》 到喜马拉雅试试水,大家有感兴趣的可以去听一下语音合成的效果,如果给您带来帮助请不要吝惜动下手指 帮忙点赞哟!

代码、文字文本交流可以私信也可以评论中留言,

想听书的再也不用担心每书可听了,有想听书的朋友可以私信我有版权的文本内容,帮你转换哦。走路、吃饭、开车,想听就听……

以上是关于科幻成真!AI只凭音频生成逼真语音;用Python生成LaTeX数学公式;正则表达式提效宝库;NeurIPS教程;前沿论文 | ShowMeAI资讯日报的主要内容,如果未能解决你的问题,请参考以下文章

Azure Neural TTS能让AI语音自然逼真到什么程度?

浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!

使用腾讯语音合成技术生成有声书

AI 语音对话技术

语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet...

百度ai 基于node 语音识别 音频文件类型转换