开源周刊第一期
Posted yooubei
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了开源周刊第一期相关的知识,希望对你有一定的参考价值。
Codon : 让 Python 拥有 C/C++ 一样的速度
为了解决python运行速度,麻省理工学院的计算机科学家出手了,他们共同研发了一种名为 Codon 的 Python 编译器,可以将 Python 代码转化为本地机器代码,而不会对运行时的性能产生影响。
"在单线程上,比 Python 的典型速度提高了 10-100 倍或更多,"Codon repo写道,"Codon 的性能通常与 C/C++ 的性能相当(有时甚至更好)。"
github地址:
Rspack : 一个 Rust 写的打包构建工具,功能和用法上对齐 webpack
字节跳动刚刚开源 Rspack,一个 Rust 写的打包构建工具,功能和用法上对齐 webpack.
启动速度极快: 基于 Rust 实现,构建速度极快,带给你极致的开发体验。
闪电般的 HMR: 内置增量编译机制,HMR 速度极快,完全胜任大型项目的开发
兼容 webpack 生态: 针对 webpack 的架构和生态进行兼容,无需从头搭建生态。
github地址:
VSlide : 一款基于网页的数据可视化工具应运而生
VSlide,一款基于网页的数据可视化工具应运而生,旨在让普通用户便捷地创作支持交互式数据可视化图表的演示文稿。零代码制作交互式图表,点击式操作,推拽式布局,不需要任何基础,使用文档详细。
github地址:
OpenChatKit : 前OpenAI研究员共同打造,ChatGPT开源平替
ChatGPT的开源平替来了,源代码、模型权重和训练数据集全部公开,OpenChatKit一共包含200亿参数,在EleutherAI的GPT-NeoX-20B(GPT-3开源替代品)上进行了微调,还可以连接其它API或数据源进行检索等等。
GitHub刚刚上线,就已经获得了800+标星。
github地址:
ChatWeb : 可以爬取任意网页并提取正文,生成概要
基本类似于现有的chatPDF,自动化客服AI等项目的原理。
-
- 爬取网页
-
- 提取正文
-
- 对于每一段落,使用gpt3.5的embeddingAPI生成向量
-
- 每一段落的向量和全文向量做计算,生成概要
-
- 将向量和文本对应关系存入向量数据库
-
- 对于用户输入,生成向量
-
- 使用向量数据库进行最近邻搜索,返回最相似的文本列表
-
- 使用gpt3.5的chatAPI,设计prompt,使其基于最相似的文本列表进行回答
就是先把大量文本中提取相关内容,再进行回答,最终可以达到类似突破token限制的效果
github地址:
DrissionPage : 一个基于 python 的网页自动化工具,既能控制浏览器,也能收发数据包
基于python的网页自动化工具。既能控制浏览器,也能收发数据包。可兼顾浏览器自动化的便利性和requests的高效率。功能强大,内置无数人性化设计和便捷功能。语法简洁而优雅,代码量少.
github地址:
DataX :阿里开源一款数据同步工具 DataX,稳定又高效,好用到爆!
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS, databend 等各种异构数据源之间高效的数据同步功能
github地址:
ModelScope :一个“模型即服务”(MaaS)平台,旨在汇集来自AI社区的最先进的机器学习模型,并简化在实际应用中使用AI模型的流程
ModelScope开源了数百个(当前700+)模型,涵盖自然语言处理、计算机视觉、语音、多模态、科学计算等,其中包含数百个SOTA模型。用户可以进入ModelScope网站(modelscope.cn)的模型中心零门槛在线体验,或者Notebook方式体验模型。
github地址:
PhySO :能直接从数据中找到隐藏的规律,而且一步到位,直接给出对应公式
PhySO背后的技术被叫做“深度符号回归”,使用循环神经网络(RNN)+强化学习实现。首先将前一个符号和上下文信息输入给RNN,预测出后一个符号的概率分布,重复此步骤,可以生成出大量表达式。同时将物理条件作为先验知识纳入学习过程中,避免AI搞出没有实际含义的公式,可以大大减少搜索空间。
再引入强化学习,让AI学会生成与原始数据拟合最好的公式。除了物理学者直呼Amazing之外,还有其他学科研究者赶来探讨,能不能把同款方法迁移到他们的领域。
github地址:
lama:可以利用AI技术,无损擦除任意物体,可离线在线使用
LaMa是一个AI消除模型,在训练时(256x256)没有见过的更高分辨率(~2k)上,表现出惊人的泛化能力,并且即使在具有挑战性的场景下,例如周期结构的补全,也能达到优异的性能。
https://magicstudio.com/zh/magiceraser这个网站是一个利用了LAMA模型,无损擦除照片中的人物、物品的在线工具。用户只需要上传照片,标记要去除的部分,然后下载处理后的照片。这个网站免费使用,不需要注册或登录。这个网站也有一个iOS应用程序,叫做Magic Eraser Background Editor,可以提供更高分辨率的编辑和其他功能。这个网站的效果非常惊艳,可以很好地修复被擦除部分的背景。
github地址:
以上是关于开源周刊第一期的主要内容,如果未能解决你的问题,请参考以下文章