数据框,面向
时代

2亿+
累计下载量
3.4万+
Github 星标
开始使用
Data swooshes
Polars 是一个用于数据处理的开源库,以其在单机上最快的数据处理解决方案之一而闻名。它拥有结构良好、类型化的 API,既富有表现力又易于使用。
Polars Cloud

Polars 云目前处于封闭测试阶段

Polars 云目前仅对部分精选机构开放。该平台管理计算基础设施,让您能够专注于编写查询,同时无缝扩展到单机之外。

我们邀请具备以下特征的机构申请参与封闭测试

  • 基于 AWS 或本地部署
  • 典型数据处理作业可分区至 1TB
  • 实际批处理用例

优势

快速 01 快速

Polars 从零开始构建,性能至上。其多线程查询引擎使用 Rust 编写,旨在实现高效并行化。其矢量化和列式处理实现了缓存一致性算法,并在现代处理器上提供高性能。

易于使用 02 易于使用

如果您熟悉数据整理,那么使用 Polars 会感到得心应手。其表达式直观易懂,让您能够编写出既可读又高性能的代码。

开源 03 开源

Polars 过去是,将来也永远是开源的。在活跃的开发者社区驱动下,我们鼓励所有人添加新功能和贡献代码。Polars 在 MIT 许可证下免费使用。

由开发者为开发者打造,性能提升高达 50 倍

为何使用 Polars

Polars 在独立 TPC-H 基准测试的衍生版本中,与其他多种解决方案进行了基准测试。此基准测试旨在复现实际中常用的数据整理操作。由于其并行执行引擎、高效算法以及 SIMD(单指令多数据)矢量化技术的应用,Polars 轻松超越其他解决方案。与 pandas 相比,它能实现超过 30 倍的性能提升。

了解更多 →

基准测试在 c3-highmem-22 上进行,比例因子为 10,包括 I/O。查询是开源的

Performance illustration

快速安装

使用您标准的包管理器即可轻松安装 Polars。选择您的编程语言,即可开始!

pip install polars
[dependencies]
polars = { version = "x", features = ["lazy", ...]}
const pl = require('nodejs-polars');

使用 Polars 的领先企业

Optiver Netflix Check G-Research Appian Showmax Microsoft UCSF

“Polars 彻底改变了我的数据分析方式,在我的配置中完全取代了 pandas。它提供了巨大的性能提升,轻松处理数百万行的数据框,使我们能够专注于编写更简洁、更清晰的代码。这种效率显著缩短了迭代时间,从而改善了交易决策。至于速度?Polars 不仅仅是快,简直是风驰电掣。”

Matt Whitehead

Optiver 量化研究员

“从 pandas 迁移到 Polars 意外地容易。对我们来说,结果不言自明。Polars 不仅解决了我们最初的问题,还开启了新的可能性。我们很高兴能在未来的数据工程项目中使用 Polars。”

Paul Duvenage

Check 高级数据工程师

“Polars 相较于 Pandas 的速度提升非常显著。我通常喜欢编写我知道运行速度快的代码。”

Casey H.

G-Research 机器学习工程师

Support 1
Support 2
Support 3
Support 4
Support 5
Support 6
Support 7
Support 8
Support 9
Support 10
Support 11
Support 12
Support 13
Support 14
Support 15
Support 16

支持

支持所有常见数据格式

Polars 支持读写所有常见数据格式。这使您能够轻松地将 Polars 与您现有的数据栈集成。

  • 文本:CSV 和 JSON
  • 二进制:Parquet、Delta Lake、AVRO 和 Excel
  • IPC:Feather、Arrow
  • 数据库:MySQL、Postgres、SQL Server、Sqlite、Redshift 和 Oracle
  • 云存储:S3、Azure Blob 和 Azure File

Polars 如何
让您的工作更轻松

01

易于
使用

以您期望的方式编写查询。Polars 将使用其查询优化器来确定最有效的执行方式。

02

极致并行

更快地完成您的查询!Polars 通过在可用 CPU 核心之间分配工作负载,充分利用您机器的性能,无需任何额外配置或序列化开销。

03

Apache
Arrow

Polars 利用 Apache Arrow 内存模型,让您能够轻松与数据领域现有工具集成。它支持零拷贝数据共享,实现高效协作。

04

贴近
硬件

Polars 从零开始编写,设计贴近机器,不依赖外部库。这使得对整个生态系统(API、内存和执行)拥有完全控制。

05


Rust 编写

Polars 的核心使用 Rust 编写,Rust 是世界上发展最快的编程语言之一。Rust 能够实现高性能并对内存进行精细控制。

06

内存
外处理

想要处理比您内存更大的大型数据集?我们的流式 API 允许您高效处理结果,无需将所有数据保留在内存中。

1
2
4
3
5
6
7
8
9
10
11
12