pandas过滤nan_python pandas 过滤某列特殊字符求助

① pandas python nan行怎么删除

df.dropna()

② python 在pandas中的 NaN 怎么样在计算时当 0 与邻列相加

Pandas基于两种数据类型：series与dataframe。
一个series是一个一维的数据类型，其中每一个元素都有一个标签。如果你阅读过这个系列的关于Numpy的文章，你就可以发现series类似于Numpy中元素带标签的数组。
其中，标签可以是数字或者字符串。
一个dataframe是一个二维的表结构。
Pandas的dataframe可以存储许多种不同的数据类型，并且每一个坐标轴都有自己的标签，可以把它想象成一个series的字典项。

③ python pandas处理excel两列之和，碰到一个单元格为空就不求和了，怎么解决(详见截图)

表格文件里看起来是空的地方，有时候可能并不是空的，也许会存在一个空格字符。最保险的办法，先用正则将空格匹配出来，然后全部替换为NULL，再在用pandas读取的时候指定（na_values='NULL'）就是将NULL认为是nan处理，接下来就可以用dropna()或者fillna()来处理了。

④ pandas 怎么处理表格中的空值

Pandas是Python下一个开源数据分析的库，它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作。
1. 基本使用：创建DataFrame. DataFrame是一张二维的表，大家可以把它想象成一张Excel表单或者Sql表。Excel 2007及其以后的版本的最大行数是1048576，最大列数是16384，超过这个规模的数据Excel就会弹出个框框“此文本包含多行文本，无法放置在一个工作表中”。Pandas处理上千万的数据是易如反掌的sh事情，同时随后我们也将看到它比SQL有更强的表达能力，可以做很多复杂的操作，要写的code也更少。
说了一大堆它的好处，要实际感触还得动手码代码。首要的任务就是创建一个DataFrame，它有几种创建方式：
（1）列表，序列(pandas.Series), numpy.ndarray的字典
二维numpy.ndarray
别的DataFrame
结构化的记录(structured arrays)
（2）其中，二维ndarray创建DataFrame，代码敲得最少：
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 4))
df
0 1 2 3
0 0.927474 0.127571 1.655908 0.570818
1 -0.425084 -0.382933 0.468073 -0.862898
2 -1.602712 -0.225793 -0.688641 1.167477
3 -1.771992 -0.692575 -0.693494 -1.063697
4 -0.456724 0.371165 1.883742 -0.344189
5 1.024734 0.647224 1.134449 0.266797
6 1.247507 0.114464 2.271932 -0.682767
7 -0.190627 -0.096997 -0.204778 -0.440155
8 -0.471289 -1.025644 -0.741181 -1.707240
9 -0.172242 0.702187 -1.138795 -0.112005
（3）通过describe方法，可以对df中的数据有个大概的了解：
df.describe()
0 1 2 3
count 10.000000 10.000000 10.000000 10.000000
mean -0.189096 -0.046133 0.394722 -0.320786
std 1.027134 0.557420 1.258019 0.837497
min -1.771992 -1.025644 -1.138795 -1.707240
25% -0.467648 -0.343648 -0.692281 -0.817865
50% -0.307856 0.008734 0.131648 -0.392172
75% 0.652545 0.310266 1.525543 0.172096
max 1.247507 0.702187 2.271932 1.167477
2. 改变cell。
3. group by。
4. 读写文件。

⑤ pandas 的数据带有空格怎么处理

1 2 3 4 5 6 7 8 9 10 11 12 13 14 In [3]: import pandas as pd In [4]: a = pd.Series([1,2,3]) In [5]: b = pd.Series([2,3,4]) In [6]: c = pd.DataFrame([a,b]) In [7]: c Out[7]: 0 1 2 0 1 2 3 1 2 3 4 不过pandas直接用列表生成datafram...

⑥ pandas怎么过滤超过某一范围的数据

应该是vlookup的典型使用, 用来检索现有列表信息, 通过客户名称检索该客户的其他信息.假如A-C列是原始信息, 在E列进行查询然后在F列显示相应的信息E1输入三元 F1输入函数: =vlookup(E1,A:C,2) 得到的就是对应三元的B列的信息

⑦ python pandas 过滤某列特殊字符求助

改成r="\W"试试

⑧ python中利用pandas怎么处理缺省值

null/None/NaN
null经常出现在数据库中
None是Python中的缺失值，类型是NoneType
NaN也是python中的缺失值，意思是不是一个数字，类型是float
在pandas和Numpy中会将None替换为NaN，而导入数据库中的时候则需要把NaN替换成None
找出空值
isnull()
notnull()
添加空值
numeric容器会把None转换为NaN
In [20]: s = pd.Series([1, 2, 3])

In [21]: s.loc[0] = None

In [22]: s
Out[22]:
0 NaN
1 2.0
2 3.0
dtype: float641234567891012345678910

object容器会储存None
In [23]: s = pd.Series(["a", "b", "c"])

In [24]: s.loc[0] = None

In [25]: s.loc[1] = np.nan

In [26]: s
Out[26]:
0 None
1 NaN
2 c
dtype:

空值计算
arithmetic operations(数学计算)
NaN运算的结果是NaN
statistics and computational methods(统计计算)
NaN会被当成空置
GroupBy
在分组中会忽略空值
清洗空值
填充空值
fillna
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
参数
value : scalar, dict, Series, or DataFrame
method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None(bfill使用后面的值填充,ffill相反）
axis : {0 or ‘index’, 1 or ‘columns’}
inplace : boolean, default False
limit : int, default None
downcast : dict, default is None
返回值
filled : DataFrame
Interpolation
replace
删除空值行或列
DataFrame.dropna(axis=0, how=’any’, thresh=None, subset=None, inplace=False)
参数
axis : {0 or ‘index’, 1 or ‘columns’}, or tuple/list thereof
how : {‘any’, ‘all’}
thresh : int, default None
subset : array-like
inplace : boolean, default False
返回
dropped : DataFrame

⑨ python 怎么修改pandas的某个cell的值

数据缺失
数据缺失在大部分数据分析应用中都很常见，Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据，他只是一个便于被检测出来的数据而已。
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")
print(string_data.isnull())12345671234567

Python内置的None值也会被当作NA处理
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")

string_data[0]=None
print(string_data.isnull())123456789123456789

处理NA的方法有四种：dropna,fillna,isnull,notnull
is(not)null，这一对方法对对象做出元素级的应用，然后返回一个布尔型数组，一般可用于布尔型索引。
dropna，对于一个Series，dropna返回一个仅含非空数据和索引值的Series。
问题在于DataFrame的处理方式，因为一旦drop的话，至少要丢掉一行（列）。这里解决方法与前面类似，还是通过一个额外的参数：dropna(axis=0,how=’any’,thresh=None)，how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型，eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外，还可以使用字典，这样可以实现对不同列填充不同的值。
过滤数据：
对于一个Series，dropna返回一个仅含非空数据和索引值的Series：
from pandas import Series,DataFrame
from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())123456123456

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据，可以用thresh参数实现此目的：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))

不想滤除缺失的数据，而是通过其他方式填补“空洞”，fillna是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))

若是通过一个字典调用fillna，就可以实现对不同列填充不同的值。
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))

可以利用fillna实现许多别的功能，比如可以传入Series的平均值或中位数：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))

123456789123456789

检测和过滤异常值
异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组：
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))
print(data.describe())

print("\n....找出某一列中绝对值大小超过3的项...\n")
col=data[3]
print(col[np.abs(col) > 3] )

print("\n....找出全部绝对值超过3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )

移除重复数据
DataFrame的plicated方法返回一个布尔型Series，表示各行是否是重复行。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.plicated())123456789123456789

与此相关的还有一个drop_plicated方法，它用于返回一个移除了重复行的DataFrame：
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_plicates())123456789123456789

上面的两个方法会默认判断全部列，也可以指定部分列进行重复项判断，假设还有一列值，而只希望根据k1列过滤重复项。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1']))1234567891012345678910

plicates和drop_plicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个：
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1','k2'],take_last=True))1234567891012345678910

⑩ pandas怎么根据一个数据框中的值过滤另一个数据框

选中A表的C6到C23 复制选中B表的C6 点击选择性粘贴中的粘贴链接(粘贴按钮旁边的小三角形)

导航:首页 > 净水问答 > pandas过滤nan

pandas过滤nan

与pandas过滤nan相关的资料