告别Python中的循环，欢迎向量化！

循环对我们来说是自然而然的，我们在几乎所有的编程语言中都会学习循环。所以，默认情况下，我们在遇到重复操作时就开始实现循环。但是，当我们处理大量的迭代（百万/十亿行）时，使用循环就成了一个罪行。你可能会陷入数小时的困境，后来才意识到它不会工作。这就是在Python中实现向量化变得非常重要的地方。

什么是向量化？

向量化是在数据集上实现（NumPy）数组操作的技术。在后台，它一次性对数组或系列的所有元素应用操作（与‘for’循环不同，‘for’循环一次处理一行）。

在这篇博客中，我们将查看一些可以轻松用向量化替换Python循环的用例。这将帮助你节省时间，提高编码技巧。

用例1：求和首先，我们将查看一个基本的示例，了解如何使用循环和Python中的向量化求和。

使用循环：

import time
start = time.time()

# 迭代求和
total = 0
# 迭代150万个数字
for item in range(0, 1500000):
    total = total + item

print('sum is:' + str(total))
end = time.time()

print(end - start)

#1124999250000
#0.14 秒

使用向量化：

import numpy as np

start = time.time()

# 向量化求和 - 使用numpy进行向量化
# np.arange 创建从0到1499999的数字序列
print(np.sum(np.arange(1500000)))

end = time.time()

print(end - start)

##1124999250000
##0.008 秒

向量化的执行时间比使用range函数的迭代少了大约18倍。在使用Pandas DataFrame时，这种差异将变得更为明显。

用例2：对DataFrame执行数学运算
在数据科学中，开发人员在使用Pandas DataFrame时，常常使用循环来通过数学运算创建新的派生列。

在以下示例中，我们可以看到如何轻松地用向量化替换循环来实现这些用例。

创建DataFrame：

DataFrame是以行和列形式呈现的表格数据。

我们将创建一个包含500万行和4列的pandas DataFrame，其中填充了0到50之间的随机值。

import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0, 50, size=(5000000, 4)), columns=('a','b','c','d'))
df.shape
# (5000000, 5)
df.head()

我们将创建一个新列‘ratio’，以找到列‘d’和‘c’的比率。

使用循环：

import time 
start = time.time()

# 使用iterrows遍历DataFrame
for idx, row in df.iterrows():
    # 创建一个新列
    df.at[idx,'ratio'] = 100 * (row["d"] / row["c"])  
end = time.time()
print(end - start)
### 109 秒

使用向量化：

start = time.time()
df["ratio"] = 100 * (df["d"] / df["c"])

end = time.time()
print(end - start)
### 0.12 秒

我们可以看到DataFrame的显著改进，向量化操作的时间几乎比Python中的循环快了1000倍。

用例3：对DataFrame执行if-else语句
我们实现了很多需要使用‘If-else’逻辑的操作。我们可以轻松地用Python中的向量化操作替换这些逻辑。

让我们通过以下示例更好地理解它（我们将使用在用例2中创建的DataFrame）：

假设我们想基于列‘a’上的一些条件创建一个新列‘e’。

使用循环：

import time 
start = time.time()

# 使用iterrows遍历DataFrame
for idx, row in df.iterrows():
    if row.a == 0:
        df.at[idx,'e'] = row.d    
    elif (row.a <= 25) & (row.a > 0):
        df.at[idx,'e'] = (row.b)-(row.c)    
    else:
        df.at[idx,'e'] = row.b + row.c

end = time.time()

print(end - start)
### 时间：177 秒

使用向量化：

# 使用向量化

start = time.time()
df['e'] = df['b'] + df['c']
df.loc[df['a'] <= 25, 'e'] = df['b'] - df['c']
df.loc[df['a'] == 0, 'e'] = df['d']
end = time.time()
print(end - start)
## 0.28007707595825195 秒

向量化操作的时间比Python中带有if-else语句的循环快了600倍。

用例4（高级）：解决机器学习/深度学习网络
深度学习需要我们解决多个复杂的方程，而且是对数百万和数十亿行。在Python中运行循环以解决这些方程非常慢，向量化是最佳解决方案。

例如，为了计算上述多元线性回归方程中y的值，我们可以用向量化替换循环，该方程有数百万行。

创建数据：

import numpy as np
# 设置m的初始值
m = np.random.rand(1,5)

# 为500万行输入值
x = np.random.rand(5000000,5)

使用循环：

import numpy as np
m = np.random.rand(1,5)
x = np.random.rand(5000000,5)
total = 0
tic = time.process_time()

for i in range(0,5000000):
    total = 0
    for j in range(0,5):
        total = total + x[i][j]*m[0][j]

toc = time.process_time()
print ("Computation time = " + str((toc - tic)) + "seconds")

####计算时间 = 28.228 秒

使用向量化：

tic = time.process_time()

# 点积
np.dot(x,m.T) 

toc = time.process_time()
print ("Computation time = " + str((toc - tic)) + "seconds")

####计算时间 = 0.107 秒

np.dot在后台实现了向量化的矩阵乘法。它比Python中的循环快了165倍。

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

告别Python中的循环，欢迎向量化！

专题展示

关注公众号，获取最新动态

告别Python中的循环，欢迎向量化！

猜你喜欢

专题展示

关注公众号，获取最新动态