numpy.where怎么用

发布时间：2021-12-15 15:17:10 作者：小新
来源：亿速云阅读：411

# numpy.where怎么用

`numpy.where`是NumPy库中用于条件筛选和数组操作的强大函数。它能够根据指定条件返回数组中满足条件的元素索引，或进行条件替换操作。本文将详细介绍`numpy.where`的语法、常见用法和实际应用场景。

## 一、基本语法

```python
numpy.where(condition[, x, y])

参数说明： - condition：布尔型数组或条件表达式 - x（可选）：当条件为True时选取的值 - y（可选）：当条件为False时选取的值

返回值： - 如果只提供condition，返回满足条件的元素索引（元组形式） - 如果提供x和y，返回与condition同形状的数组

二、三种典型用法

1. 仅传入condition参数（返回索引）

import numpy as np

arr = np.array([1, 2, 3, 4, 5])
indices = np.where(arr > 3)
print(indices)  # 输出：(array([3, 4], dtype=int64),)

对于多维数组：

arr_2d = np.array([[1, 2], [3, 4]])
rows, cols = np.where(arr_2d > 2)
print(rows)  # 输出：[1 1]
print(cols)  # 输出：[0 1]

2. 传入condition和x,y参数（条件替换）

arr = np.array([1, 2, 3, 4, 5])
result = np.where(arr > 3, '符合', '不符合')
print(result)
# 输出：['不符合' '不符合' '不符合' '符合' '符合']

3. 复杂条件组合

arr = np.random.randn(10)  # 生成10个随机数
result = np.where((arr > 0.5) | (arr < -0.5), '极端值', '正常值')
print(result)

三、实际应用案例

案例1：数据清洗

# 将数组中的NaN值替换为0
data = np.array([1, np.nan, 3, np.nan, 5])
cleaned = np.where(np.isnan(data), 0, data)
print(cleaned)  # 输出：[1. 0. 3. 0. 5.]

案例2：图像处理

# 二值化处理：大于阈值的设为255，小于的设为0
image = np.random.randint(0, 256, (100, 100))  # 模拟灰度图像
threshold = 128
binary = np.where(image > threshold, 255, 0)

案例3：条件计算

# 对正数取平方根，负数取绝对值
values = np.array([-4, -1, 0, 1, 4])
processed = np.where(values > 0, np.sqrt(values), np.abs(values))
print(processed)  # 输出：[4. 1. 0. 1. 2.]

四、性能优化技巧

避免不必要的计算：x和y参数在传入前会被完全计算，即使不会被使用

   # 不推荐写法（y会被提前计算）
   result = np.where(condition, expensive_func1(), expensive_func2())
   
   # 推荐写法（使用lambda延迟计算）
   result = np.where(condition, lambda: expensive_func1(), lambda: expensive_func2())

优先使用NumPy内置函数：

   # 比循环或列表推导式快得多
   arr = np.random.rand(1000000)
   %timeit np.where(arr > 0.5)

多维数组使用axis参数：

   arr_2d = np.random.randn(3, 3)
   # 找出每行最大值的位置
   max_indices = np.where(arr_2d == arr_2d.max(axis=1, keepdims=True))

五、常见问题解答

Q1: where和布尔索引有什么区别？

布尔索引返回的是满足条件的元素值，而np.where(condition)返回的是索引位置：

arr = np.array([1, 2, 3, 4])
bool_arr = arr > 2
print(arr[bool_arr])  # 输出：[3 4]
print(np.where(bool_arr))  # 输出：(array([2, 3], dtype=int64),)

Q2: 如何实现多条件筛选？

使用位运算符组合条件：

condition = (arr > 2) & (arr < 5)  # 必须使用括号
condition = (arr < 0) | (arr > 10)  # 或条件

Q3: 为什么返回的是元组？

因为NumPy需要支持多维数组，每个维度对应元组中的一个数组：

arr_2d = np.array([[1, 2], [3, 4]])
print(np.where(arr_2d > 2))  # 输出：(array([1, 1], dtype=int64), array([0, 1], dtype=int64))

六、扩展应用

1. 与np.select结合使用

conditions = [arr < 0, (arr >= 0) & (arr < 5), arr >= 5]
choices = ['负值', '小正值', '大正值']
result = np.select(conditions, choices)

2. 动态条件生成

# 根据另一数组生成条件
arr1 = np.array([1, 2, 3])
arr2 = np.array([3, 2, 1])
result = np.where(arr1 > arr2, arr1, arr2)

3. Pandas DataFrame中的使用

import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
df['C'] = np.where(df['A'] > 1, 'Y', 'N')

总结

numpy.where是处理条件逻辑的核心函数，掌握它可以： 1. 高效地进行数组条件筛选 2. 实现向量化的条件替换 3. 避免Python循环带来的性能损失

记住关键点： - 仅传入condition时返回索引 - 传入x,y时实现条件替换 - 条件表达式支持广播机制 - 性能优于Python原生条件判断

通过本文的示例和解释，您应该已经掌握了numpy.where的核心用法。在实际数据分析和科学计算中，灵活运用这个函数可以显著提高代码效率和可读性。 “`