Python Statistics Reference

This reference guide covers key Python libraries for statistics, with descriptions, examples, and links to official documentation. It's focused on statistical tools and overlaps with data analysis. Items listed below:

Core / Must-Know Libraries

Pandas

Description: Data manipulation and analysis library (DataFrames for tables, aggregation, filtering). Link: Pandas Reference

PyPI Link | Official Docs

NumPy

Description: Numerical computing library (arrays, math/stats functions). Link: NumPy Reference

PyPI Link | Official Docs

Matplotlib

Description: Low-level plotting library for visualizations. Link: Matplotlib Reference

PyPI Link | Official Docs

Seaborn

Description: High-level statistical plotting on top of Matplotlib. Link: Seaborn Reference

PyPI Link | Official Docs

SciPy

Description: Statistical functions, hypothesis tests, distributions. Link: SciPy Reference

PyPI Link | Official Docs

Medium Relevance Libraries

Statsmodels

Description: Regression, time series, statistical tests.

PyPI Link | Official Docs

Plotly

Description: Interactive plots (zoom/hover).

PyPI Link | Official Docs

Polars

Description: Faster DataFrame alternative to Pandas.

PyPI Link | Official Docs

Dask

Description: Parallel computing for large datasets.

PyPI Link | Official Docs

PyArrow

Description: Fast columnar data format (used by Pandas).

PyPI Link | Official Docs

Specialized / Niche Libraries

Great Tables

Description: Nicer table formatting.

PyPI Link | Official Docs

siuba

Description: dplyr-like syntax for Pandas.

PyPI Link | Official Docs

Feature-engine

Description: Feature engineering for ML.

PyPI Link | Official Docs

scikit-learn (preprocessing)

Description: ML preprocessing (scaling, encoding).

PyPI Link | Official Docs

PySpark

Description: Big data processing with Spark.

PyPI Link | Official Docs

Return to Home