查看原文
其他

klib,一个加速数据清洗的神器!

开源前哨
2024-08-24
转自:Python数据科学
klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何DataFrame上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。

klib可视化数据

-klib.cat_plot(df)  # 展示分类特征数量和频率
-klib.corr_mat(df)  # 相关性矩阵
-klib.corr_plot(df)  # 热力图,适用于展示相关性
-klib.corr_interactive_plot(df, split="neg").show()  # 交互式相关性图表
-klib.dist_plot(df)  # 每个数值特征的分布
-klib.missingval_plot(df)  # 缺失值信息图

例如,cat_plot,

import klib
import plotly
import pandas as pd

df = pd.read_csv("./NFL_DATASET.csv").iloc[:, 10:]
df_cleaned = klib.data_cleaning(df) #清洗
klib.cat_plot(df_cleaned.iloc[:, 10:28], figsize=(2415)) #cat_plot可视化

例如,展示缺省值,

klib.missingval_plot(df_cleaned)

再例如,corr_interactive_plot基于plotly构建交互式相关性图表,

klib.corr_interactive_plot(df, annot=False, figsize=(20,17))

klib清洗数据

主要包含如下函数,

-klib.data_cleaning(df)  # 执行数据清洗(删除重复项和空行/列,调整数据类型等)
-klib.clean_column_names(df)  # 清理和标准化列名,也在 data_cleaning() 中调用
-klib.convert_datatypes(df)  # 将现有数据转换为更高效的数据类型,也在 data_cleaning() 中调用
-klib.drop_missing(df)  # 删除缺失值,也在 data_cleaning() 中调用
-klib.mv_col_handling(df)  # 基于信息内容删除缺失值比率高的特征
-klib.pool_duplicate_subsets(df)  # 基于最小信息损失汇总具有重复项的列子集

不一一举例,开源地址👉https://github.com/akanz1/klib

推荐阅读  点击标题可跳转

1、VSCode 放弃 Python 3.7

2、Julia 1.10正式发布,高性能动态高级编程语言

3、14K Stars项目作者辞职,全职从事开源项目

继续滑动看下一个
开源前哨
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存