type
status
date
slug
summary
tags
category
icon
password
一段实习时用到的部分Python数处理操作
tips:
df 为数据框字段名即列名xxx 是任意值
- jupyter noteboook 忽略警告
- 保留xx不为空的行
- 两个字段名进行拼接
- 所有字段元素都一样才删除重复行,默认保留第一个
- 某个字段一样就删除重复行
- 选择DataFrame
df
中xx
列中所有重复值的行
- 删除列xx1,xx2
- 数据框df1和df2的横向合并,内连接
- 查看元素的唯一值
- 上下文管理器
loc
是基于标签(label-based selection)的选择方法,它允许你通过行和列的标签来选择数据。
iloc
是基于索引(index-based selection)的选择方法,它允许你通过行和列的整数位置来选择数据。例如,如果你想选择第一行和第二列的数据,那么你可以使用iloc
来实现。iloc
的用法如下:
- 分组求均值
- 使用
groupby()
函数进行分组时,分组列会成为新的索引,而原始的整数索引会被移除。通过调用reset_index()
方法,你可以将分组列恢复为普通的列,并重新生成整数索引。该操作在需要保留分组列作为普通列时非常有用。
- 给字段名重新命名
- 按
xx
分组,对每个分组内的每天每平方租金进行排序,并找出中位数
- 将数据框某一列元素转成str类型
- 对数据框某一列缺失元素进行' '填补
- 将数据框某一列元素转成list
- 将list 转成数据框
- 对数据框某一列每个元素进行函数操作
- 将'xx'列的元素转换成小写
- 连接sql数据库
- 连接pgsql
- 连接mongdb
- 连接Redis
- 将某一列转为数值型
- 设置某列为索引,使用inplace=True 在原df中进行修改
- 作者:Bayesianovich
- 链接:https://ml.bayesianovich.top//article/python_data_processing
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。