科幻成真!AI只凭音频生成逼真语音;用Python生成LaTeX数学公式;正则表达式提效宝库;NeurIPS教程;前沿论文 | ShowMeAI资讯日报
Posted ShowMeAI
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了科幻成真!AI只凭音频生成逼真语音;用Python生成LaTeX数学公式;正则表达式提效宝库;NeurIPS教程;前沿论文 | ShowMeAI资讯日报相关的知识,希望对你有一定的参考价值。
📢 只听音频!就可以生成逼真的语音和钢琴音乐
https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html
作者在『AudioLM: a Language Modeling Approach to Audio Generation』提出了一种新的音频生成框架,通过只听音频来学习生成逼真的语音和钢琴音乐。本文则介绍了 AudioLM 这种用于音频生成的语言建模方法,以提供长期连贯性和高音频质量。
语音生成实验表明,AudioLM 不仅可以在没有任何文本的情况下生成句法和语义上连贯的语音,而且该模型产生的延续几乎与人类的真实语音无法区分。此外,AudioLM 远远超出了语音范围,可以对钢琴音乐等任意音频信号进行建模。这鼓励未来扩展到其他类型的音频(例如多语言语音、和弦音乐和音频事件),以及将 AudioLM 集成到编码器-解码器框架中,以执行条件任务(例如文本到语音或语音到语音翻译)。
工具&框架
🚧 『Fyrox』Rust写的3D/2D游戏引擎
https://github.com/FyroxEngine/Fyrox
Fyrox是一个功能丰富、可生产的、通用的2D/3D游戏引擎,用Rust编写,带有场景编辑器,它的前身为 rg3d。
🚧 『latexify_py』用Python生成LaTeX数学公式(基于规则)
https://github.com/google/latexify_py
latexify_py 是一个Python工具库,用于生成LaTeX数学公式,它是基于规则实现的。
🚧 『TensorStore』大型多维数组读写库
https://github.com/google/tensorstore
https://google.github.io/tensorstore/
TensorStore 是 Google 开放的一个用于有效读写大型多维数组的库,可以为读写多种阵列格式提供统一的API(包括zarr、N5和Neuroglancer),支持多种存储驱动,支持高并发。
🚧 『MonitorControl』 Mac外显亮度控制器
https://github.com/MonitorControl/MonitorControl
MonitorControl 是一个 Mac 外显亮度控制器,可以调整显示器的亮度、音量和对比度,支持自定义键盘快捷键,拥有简单、不显眼的用户界面,完全免费、支持自动更新,提供无忧无虑的体验等。
🚧 『Cozy Auto Texture』用Stable Diffusion自动生成纹理的Blender扩展
https://github.com/torrinworx/Cozy-Auto-Texture
Cozy Auto Texture 将 Stable Diffusion AI 的复杂性与 Blender 的简单 GUI 连接起来,是在 Blender 中开始创建AI绘图/纹理的最简单和最直接的方法。Cozy Auto Texture 插件设置简单,开放源代码,下载过程简单,用户界面简单而直观。
博文&分享
👍 『Fast Methods for Partial Differential and Integral Equations』 MIT 18.336J · 偏微分方程和积分方程的快速方法课程
https://github.com/mitmath/18336
https://math.mit.edu/~cperezar/18.336.html
本课程广泛涵盖了求解大规模偏微分和积分方程的现代数值方法。本学期的课程重点是傅里叶和现代多项式谱方法、边界积分方程以及流体动力学和电磁学的应用。
- Introduction to fast methods, PDEs, IEs(快速方法、PDE、IE简介)
- Fast Fourier transforms(快速傅里叶变换)
- PDE discretization and preconditioning(PDE离散化和预处理)
- Finite differences and fast Poisson solvers in 1D(一维有限差分和快速泊松求解器)
- Fast finite difference solvers in multiple dimensions(多维快速有限差分求解器)
- Domain decomposition methods(领域分解方法)
- Introduction to spectral methods(光谱法简介)
- Fourier spectral methods(傅里叶光谱法)
- Polynomial interpolation(多项式插值)
- Chebyshev collocation methods(切比雪夫搭配方法)
- Dense Chebyshev spectral methods(密集切比雪夫谱法)
- Sparse Chebyshev spectral methods(稀疏切比雪夫谱法)
- Multidimensional sparse methods(多维稀疏方法)
- Sparse methods for curvilinear domains(曲线域的稀疏方法)
- Introduction to low-rank methods(低秩方法介绍)
- Approximating low-rank interactions(近似低秩交互)
- Fast multipole methods and boundary integral equations(快速多极方法和边界积分方程)
- Discretizing boundary integral equations(离散边界积分方程)
- Advanced boundary integral equations(高级边界积分方程)
👍 『Foundational Robustness of Foundation Models』基础模型的基础鲁棒性 (NeurIPS 2022 tutorial)
https://github.com/sayakpaul/robustness-foundation-models
https://sites.google.com/view/neurips2022-frfm-turotial/
基础模型采用深度学习方法,对大规模未标记数据进行预训练,并通过特定任务监督进行微调,正在成为机器学习的主流技术。尽管在学习通用表示、小样本/零样本泛化方面表现优异,但由于使用了过多的数据,基础模型在鲁棒性和隐私方面面临着前所未有的挑战和。
本教程提供了一个类似于 Coursera 的在线教程,包含综合讲座、交互式 Jupyter/Colab 实时编码演示,以及关于基础模型可信度的小组讨论。
- Basics in foundation models and robustness(基础模型和鲁棒性基础)
- Deep dive on foundation models for computer vision(深入了解计算机视觉的基础模型)
- Deep dive on foundation models for code(深入了解代码的基础模型)
- Hands-on code walkthrough(动手代码演练)
数据&资源
🔥 『re for humans』让 Python 正则表达式更人性化的资源列表
https://github.com/mikaelho/python-human-regex
re
是 Python 标准库中一个强大的字符串匹配工具。但是正则表达式的使用有点麻烦,以至于使用频率受到限制。作者翻阅了大量 GitHub 上正则表达式的优化项目,整理成为当前的 Lis,辅助学习和写正则表达式,或者快速生成正则表达式。
研究&论文
可以点击 这里 回复关键字 日报,免费获取整理好的论文合辑。
科研进展
- 2022.09.22 『去模糊化』 Diffusion Posterior Sampling for General Noisy Inverse Problems
- 2022.09.30 『计算机视觉』 MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features
- 2022.09.26 『强化学习』 Training Efficient Controllers via Analytic Policy Gradient
⚡ 论文:Diffusion Posterior Sampling for General Noisy Inverse Problems
论文时间:29 Sep 2022
领域任务:Deblurring,去模糊化
论文地址:https://arxiv.org/abs/2209.14687
代码实现:https://github.com/dps2022/diffusion-posterior-sampling
论文作者:Hyungjin Chung, Jeongsol Kim, Michael T. McCann, Marc L. Klasky, Jong Chul Ye
论文简介:Diffusion models have been recently studied as powerful generative inverse problem solvers, owing to their high quality reconstructions and the ease of combining existing iterative solvers./扩散模型最近被研究为强大的生成性逆向问题求解器,因为它们的高质量重建和易于结合现有的迭代求解器。
论文摘要:最近,人们将扩散模型作为强大的生成式反问题求解器来研究,这是因为它们具有高质量的重建和易于结合现有的迭代求解器。然而,大多数工作集中在解决无噪音环境下的简单线性逆向问题,这大大低于现实世界问题的复杂性。在这项工作中,我们通过后验采样的拉普拉斯近似,扩展了扩散求解器以有效地处理一般的噪声(非)线性逆问题。有趣的是,由此产生的后验采样方案是扩散采样的混合版本,具有流形约束梯度,没有严格的测量一致性投影步骤,与以前的研究相比,在噪声环境下产生了更理想的生成路径。我们的方法表明,扩散模型可以纳入各种测量噪声统计,如高斯和泊松,也可以有效地处理嘈杂的非线性反问题,如傅里叶相位检索和非均匀去模糊。
⚡ 论文:MobileViTv3: Mobile-Friendly Vision Transformer with Simple and Effective Fusion of Local, Global and Input Features
论文时间:30 Sep 2022
领域任务:计算机视觉
论文地址:https://arxiv.org/abs/2209.15159
代码实现:https://github.com/microndla/mobilevitv3
论文作者:Shakti N. Wadekar, Abhishek Chaurasia
论文简介:We propose changes to the fusion block that are simple and effective to create MobileViTv3-block, which addresses the scaling and simplifies the learning task./我们对融合块提出了简单有效的改变,以创建MobileViTv3-块,解决了缩放问题,简化了学习任务。
论文摘要:MobileViT(MobileViTv1)结合了卷积神经网络(CNN)和视觉transformers(ViT),为移动视觉任务创建轻量级模型。尽管主要的MobileViTv1-block有助于实现具有竞争力的最先进的结果,但MobileViTv1-block内部的融合块却带来了扩展上的挑战,并有一个复杂的学习任务。我们对融合块提出了简单而有效的修改,以创建MobileViTv3-block,它解决了扩展问题并简化了学习任务。我们提出的MobileViTv3-block用于创建MobileViTv3-XXS、XS和S模型,在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上表现优于MobileViTv1。在ImageNet-1K上,MobileViTv3-XXS和MobileViTv3-XS分别比MobileViTv1-XXS和MobileViTv1-XS高出2%和1.9%。最近发表的MobileViTv2架构去掉了融合块,使用线性复杂度变换器,表现比MobileViTv1更好。 我们将我们提出的融合块添加到MobileViTv2中,创建MobileViTv3-0.5、0.75和1.0模型。与MobileViTv2相比,这些新模型在ImageNet-1k、ADE20K、COCO和PascalVOC2012数据集上给出了更好的准确性。MobileViTv3-0.5和MobileViTv3-0.75在ImageNet-1K数据集上比MobileViTv2-0.5和MobileViTv2-0.75分别高出2.1%和1.0%。对于分割任务,与MobileViTv2-1.0相比,MobileViTv3-1.0在ADE20K数据集和PascalVOC2012数据集上分别取得了2.07%和1.1%的mIOU。我们的代码和训练好的模型可以在以下网站上找到:https://github.com/micronDLA/MobileViTv3
⚡ 论文:Training Efficient Controllers via Analytic Policy Gradient
论文时间:26 Sep 2022
领域任务:强化学习,机器人
论文地址:https://arxiv.org/abs/2209.13052
代码实现:https://github.com/lis-epfl/apg_trajectory_tracking
论文作者:Nina Wiedemann, Valentin Wüest, Antonio Loquercio, Matthias Müller, Dario Floreano, Davide Scaramuzza
论文简介:Conversely, learning-based offline optimization approaches, such as Reinforcement Learning (RL), allow fast and efficient execution on the robot but hardly match the accuracy of MPC in trajectory tracking tasks./相反,基于学习的离线优化方法,如强化学习(RL),允许在机器人上快速有效地执行,但在轨迹跟踪任务中很难与MPC的准确性相匹配。
论文摘要:机器人系统的控制设计很复杂,经常需要解决一个优化问题来准确地跟踪轨迹。像模型预测控制(MPC)这样的在线优化方法已被证明可以实现很好的跟踪性能,但需要很高的计算能力。相反,基于学习的离线优化方法,如强化学习(RL),允许在机器人上快速有效地执行,但在轨迹跟踪任务中很难达到MPC的精度。在计算能力有限的系统中,如航空器,一个在执行时高效的精确控制器是必不可少的。我们提出了一种分析性策略梯度(APG)方法来解决这个问题。APG通过对跟踪误差进行梯度下降的离线训练,利用了可微调模拟器的可用性。我们通过课程学习来解决APG经常出现的训练不稳定问题,并在一个广泛使用的控制基准–CartPole,以及两个常见的空中机器人–四旋翼和固定翼无人机上进行实验。我们提出的方法在跟踪误差方面优于基于模型和无模型的RL方法。同时,它实现了与MPC相似的性能,而所需的计算时间却少了一个数量级以上。我们的工作提供了关于APG作为一种有前途的机器人控制方法的潜力的见解。为了促进对APG的探索,我们开源了我们的代码,并将其放在 https://github.com/lis-epfl/apg_trajectory_tracking
我们是 ShowMeAI,致力于传播AI优质内容,分享行业解决方案,用知识加速每一次技术成长!
◉ 点击 日报合辑,在公众号内订阅话题 #ShowMeAI资讯日报,可接收每日最新推送。
◉ 点击 电子月刊,快速浏览月度合辑。
◉ 点击 这里 ,回复关键字 日报 免费获取AI电子月刊与论文 / 电子书等资料包。
使用腾讯语音合成技术生成有声书
背景:不知是否在博客园看到的腾讯云平台广告,被AI接口几个项目吸引住了,其中有个 语音合成 接口在这里安利一下,还挺好玩。这个接口提供将一段文字转换成语音的功能,支持中文、英文,遗憾的是暂时无法通过自己的声音进行训练,推出自己独有声音的音频文件:) 不过总体来说,还是相当不错啦,附件中是我用这个接口转换的样例音频文件。
DEMO实测,代码案例简单概述:
首先,调用接口肯定得申请appkey,secrect等一堆东西,在这里申请
申请,完成后会获得公共请求参数必须的信息,然后接口调用分为直接http请求与使用官方版本的sdk调用2种方式,建议使用sdk调用的方式,避免还得自己加sign。sdk调用的方式很简单,测试demo如下:
@Test public void testAi() throws TencentCloudSDKException, IOException, UnsupportedAudioFileException, LineUnavailableException { Credential cred = new Credential("你的ID", "你的key"); AaiClient aaiClient = new AaiClient(cred, "ap-beijing"); TextToVoiceRequest request = new TextToVoiceRequest(); request.setProjectId(10144947); request.setModelType(1); request.setPrimaryLanguage(1); // request.setSampleRate(); request.setSessionId("testsessionid"); request.setSpeed(1F); request.setText("你好啊,你爱我么"); request.setVoiceType(1); request.setVolume(1F); TextToVoiceResponse textToVoiceResponse = aaiClient.TextToVoice(request); String audio = textToVoiceResponse.getAudio(); if (!StringUtils.isEmpty(audio)) { System.out.println(audio); BASE64Decoder decoder = new BASE64Decoder(); try { byte[] data = decoder.decodeBuffer(audio); OutputStream out = new FileOutputStream("d://test1.wav"); out.write(data); out.flush(); out.close(); } catch (Exception ex) { } } }
本人喜欢在喜马拉雅上听书,也听小说。看到有很多连普通话都不甚标准的作者有了大量的粉丝,还有打赏。在此我有了一个大胆的想法,在不涉及版权问题的前提下,我是否可以上传一大堆小说的音频内容,以量取胜,。实际测试中发现腾讯语音合成接口默认只支持300个字符,且生成的音频文件为BASE64的String字符串,需要进行拼接转换。拼接转换部分源码如下:
@Scheduled(fixedDelay = 1000 * 60 * 60) public void toVoice() { String textFilePath="D://work/mywork/txt/孙子兵法/计篇.txt"; String outputPath="D://work/mywork/voice/孙子兵法/计篇.wav"; try { File output=new File(outputPath); logger.info("开始获取文件内文本数据"); List<String> stringArray = fileManService.getStringArray(textFilePath, 100); if (stringArray != null) { List<String> voiceWaves=new ArrayList<String>(); for(String tmpText :stringArray) { voiceWaves.add(voiceManService.getWavString(tmpText)); } WavBaseStringMergeUtil wavBaseStringMergeUtil=new WavBaseStringMergeUtil(); File file=new File(outputPath); wavBaseStringMergeUtil.mergeWav(voiceWaves,file); logger.info("完成"); } else { logger.info("获取到的文本内容为空"); } } catch (Exception e) { logger.error("转换出现异常", e); } }
至此,基本可以满足咱们转换小说的需要啦!!!今天也上传了第一套专辑《孙子兵法》 到喜马拉雅试试水,大家有感兴趣的可以去听一下语音合成的效果,如果给您带来帮助请不要吝惜动下手指 帮忙点赞哟!
代码、文字文本交流可以私信也可以评论中留言,
想听书的再也不用担心每书可听了,有想听书的朋友可以私信我有版权的文本内容,帮你转换哦。走路、吃饭、开车,想听就听……
以上是关于科幻成真!AI只凭音频生成逼真语音;用Python生成LaTeX数学公式;正则表达式提效宝库;NeurIPS教程;前沿论文 | ShowMeAI资讯日报的主要内容,如果未能解决你的问题,请参考以下文章
Azure Neural TTS能让AI语音自然逼真到什么程度?
浙大北大联合火山语音推出新模型Make-An-Audio,一键生成大片音效so easy!