Desempenho

A biblioteca Numpy é escrita parcialmente em Python, mas a maioria das partes que requerem computação rápida com otimização de uso da memória são escritas em C ou C++.

Os vetores e matrizes nativos do Python alocam e armazenam memória aos pedaços, à medida que novos dados são incluidos (no final) ou inseridos (em alguma posição).

Os vetores e matrizes Numpy são armazenadas em um local contínuo na memória (vários kilobytes (Kb), megabytes (Mb) ou mesmo gigabytes (Gb) de memória contínua), diferente das listas nativas do Python (que alocam memória item por item na lista), para que os processos possam acessá-las e manipulá-las com muita eficiência.

Esse comportamento é chamado de localidade de referência (cache locality ou locality of reference), em ciência da computação é um conceito de desempenho de memória, em que o endereço desejado de um ponteiro é calculado a partir do início da memória até a posição do deslocamento (offset) correspondente ao índice desejado.

Assim, para acessar um ítem desejado, o endereço é calculado diretamente através do deslocamento do índice desejado, enquanto que com as listas nativas do Python o endereço é calculado da localização do item desejado a partir do índice desejado para encontrar o endereço do valor do item desejado.

Esta é a principal razão pela qual o Numpy é mais rápido que as listas. Também é otimizado para trabalhar com as mais recentes arquiteturas de CPU.

A prova de desempenho consiste em um conjunto de rotinas com decoradores de tempo e memória utilizados com operações de listas.

Rotinas de desempenho

Declaramos a função timing_decorator do decorador "@timing_decorator" usado para medir o tempo de execução de funções.

Declaramos a função exec_func_vetor para ser utilizada para ser usado com o decorador "@timing_decorator" para medir o tempo de execução e com o decorador "@profile" para medir o tempo de execução de uma função, recebendo os argumentos de entrada func_rec_vetor e N, sendo func a função externa de manipulação da lista e N o seu tamanho.

Declaramos a função imprimir_desempenho para imprimir o resultado final, com o número de itens, o tamanho, o tempo de execução e o resultado com os cinco primeiros e últimos itens da lista.

A função preencher_vetor_list_laco_append(). carrega a lista nativa usando a iteração de laço for e a função append() da lista.

Função que preenche a lista nativa até o valor passado como argumento usando a função range.

2.1 - Testes

Criaremos as listas nativa e numpy usando as funções preencher_vetor_list_range) e preencher_vetor_numpy_arange, com diferentes valores de N variando desde 300 mil itens até 10 milhões, para comparação de desempenho em termos de tempo e de memória.

Tipo "vetor_list_range" com 1.000.000 de itens

O tipo "vetor_list_range" carrega o vetor nativo usando a função range e a função append da lista.

vetor_list_1 = exec_func_vetor(preencher_vetor_list_range,1_000_000)
vetor_ndarray_1 = exec_func_vetor(preencher_vetor_numpy_arange,1_000_000)

imprimimos os resultados.

imprimir_desempenho(vetor_list_1)
imprimir_desempenho(vetor_ndarray_1)

0.0134 s | 1000000 itens | 7.63 Mb | [1, 2, 3, ..., 999998, 999999, 1000000]
0.0020 s | 1000000 itens | 3.81 Mb | [1, 2, 3, ..., 999998, 999999, 1000000]

Tipo "vetor_list_range" com 10.000.000 de itens

Com valores de um a dez milhões.

vetor_list_2 = exec_func_vetor(preencher_vetor_list_range,10_000_000)
vetor_ndarray_2 = exec_func_vetor(preencher_vetor_numpy_arange,10_000_000)

imprimimos os resultados.

imprimir_desempenho(vetor_list_2)
imprimir_desempenho(vetor_ndarray_2)

0.1987 s | 10000000 itens | 76.29 Mb | [1, 2, 3, ..., 9999998, 9999999, 10000000]
0.0138 s | 10000000 itens | 38.15 Mb | [1, 2, 3, ..., 9999998, 9999999, 10000000]

Tipo "vetor_list_range" com 100.000.000 de itens

Com valores de um a cinquenta milhões.

vetor_list_3 = exec_func_vetor(preencher_vetor_list_range,100_000_000)
vetor_ndarray_3 = exec_func_vetor(preencher_vetor_numpy_arange,100_000_000)

imprimimos os resultados.

imprimir_desempenho(vetor_list_3)
imprimir_desempenho(vetor_ndarray_3)

1.9028 s | 100000000 itens | 762.94 Mb | [1, 2, 3, ..., 99999998, 99999999, 100000000]
0.1386 s | 100000000 itens | 381.47 Mb | [1, 2, 3, ..., 99999998, 99999999, 100000000]

2.2 - Limitação do Numpy

Carregamento da lista numpy com iteração for com range e append:

def preencher_lista_numpy_laco_append(N):
    lista = np.array([], dtype=np.int64)
    for i in range(1, N):
        # insere o valor i na última posição 
        lista = np.append(lista, i)
    return lista

lista_resultante = preencher_lista_numpy_laco_append(300_000)

Tempo decorrido para preencher_lista_numpy_laco_append(): 113.04 segundos

Carregamento da lista nativa com iteração for usando as funções range e insert:

def preencher_vetor_nativo_laco_insert(N):
    lista = np.array([], dtype=np.int64)
    for i in range(N):
        # insere o valor i na posição i 
        lista = np.insert(lista, i, i+1)
    return lista

lista_resultante = preencher_vetor_nativo_laco_insert(300_000)

Tempo decorrido para preencher_vetor_nativo_laco_insert(): 119.01 segundos

O processo de alto desempenho para o carregamento de uma lista numpy com valores inteiros de 0 a N é criar-se uma lista vazia e inserir os valores na lista em um laço com atribuição do valor na posição do índice.

def preencher_vetor_ndarray_empty(N):
    lista = np.empty(N)
    for i in range(1,N+1):
        lista[i-1] = i
    return lista

vetor_ndarray_4 = exec_func_vetor(preencher_vetor_ndarray_empty,300_000)

imprimir_desempenho(vetor_ndarray_4)

0.4101 s | 300000 itens | 2.29 Mb | [1.0, 2.0, 3.0, ..., 299998.0, 299999.0, 300000.0]

2 - Desempenho de Tempo e Memória do Numpy

Rotinas de desempenho

2.1 - Testes

Tipo "vetor_list_range" com 1.000.000 de itens

Tipo "vetor_list_range" com 10.000.000 de itens

Tipo "vetor_list_range" com 100.000.000 de itens

2.2 - Limitação do Numpy