MATRIZES QUASE-NEWTON ESPARSAS PARA ... - Optimize - UFRJ

MATRIZES QUASE-NEWTON ESPARSAS PARA PROBLEMAS DE 

OTIMIZAÇÃO NÃO LINEAR DE GRANDE PORTE 

Evandro da Silveira Goulart 

TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS 

PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE 

FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS 

NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS 

EM ENGENHARIA MECÂNICA. 

Aprovada por: 

________________________________________________ 

Prof. José Herskovits Norman, D.Ing. 

________________________________________________ 

Prof. Francisco José da Cunha Pires Soeiro, Ph.D. 

________________________________________________ 

Prof. Susana Scheimberg de Makler, D.Sc. 

________________________________________________ 

Prof. Anatoli Leontiev, Ph.D. 

________________________________________________ 

Prof. Hélcio Rangel Barreto Orlande, Ph.D. 

RIO DE JANEIRO, RJ – BRASIL 

AGOSTO DE 2005

GOULART, EVANDRO DA SILVEIRA 

Matrizes Quase-Newton Esparsas para 

Problemas de Otimização Não-Linear de 

Grande Porte [Rio de Janeiro] 2005 

VIII, 100 p. 29,7 cm (COPPE/UFRJ, D.Sc., 

Engenharia Mecânica, 2005) 

Tese - Universidade Federal do Rio de 

Janeiro, COPPE. 

1. Otimização 

2. Programação Não Linear 

3. Matrizes Quase-Newton 

I. COPPE/UFRJ II. Título (série) 

ii

iii 

À minha mãe Ilza da Silveira Goulart.

Agradecimentos 

Ao professor Herskovits, pela orientação e pelo apoio, fundamentais para a 

realização deste trabalho. 

Aos colegas do laboratório Optimize (ainda estou devendo um churrasco). 

À minha namorada Ana Paula sempre ao meu lado. 

À minha família que sempre me apoiou. João Patrício, Vicente, Neida, Fátima, 

Mariana, Antônio e Isabela. 

ano). 

À amiga Carmen Nilda por suas idéias mirabolantes (eu pretendo ir à praia este 

Ao CNPq pelo suporte financeiro. 

iv

Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários 

para a obtenção do grau de Doutor em Ciências (D. Sc.) 

MATRIZES QUASE-NEWTON ESPARSAS PARA PROBLEMAS DE 

OTIMIZAÇÃO NÃO-LINEAR DE GRANDE PORTE 

Orientador: José Herskovits Norman 

Programa: Engenharia Mecânica 


Agosto /2005 

Os métodos Quase-Newton em problemas não-lineares de otimização geram 

uma aproximação da derivada segunda da função objetivo, nos casos sem restrições, e 

da derivada segunda do lagrangeano, nos casos com restrições. As técnicas Quase- 

Newton usualmente geram matrizes definidas positivas. Em problemas de otimização de 

grande porte, torna-se inviável a utilização do método de atualização Quase-Newton na 

sua forma clássica, pois este exige o armazenamento de uma matriz cheia e um grande 

número de operações computacionais. As principais técnicas na literatura que ampliam 

a atualização Quase-Newton para problemas grandes são o Método de Memória 

Limitada e o Método de Atualização Esparsa. Em certos problemas de otimização, as 

derivadas das restrições são esparsas, tornando interessante a utilização de uma 

atualização Quase-Newton esparsa. Apresenta-se uma nova técnica de atualização 

Quase-Newton esparsa através da minimização de uma função baseada na norma 

quadrada de Frobenuis que obedece a condição secante e gera uma matriz definida 

positiva. Esta atualização aumenta a esparsidade dos sistemas internos do FAIPA 

ampliando a eficiência de solvers esparsos durante a resolução de problemas de grande 

porte. Resultados numéricos mostram a boa performance dessa nova técnica associada 

ao FAIPA. 

v

Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the 

requirements for the degree of Doctor of Science (D. Sc.) 

SPARSE QUASI-NEWTON MATRICES FOR LARGE-SCALE PROBLEMS 

IN NON-LINEAR OPTIMIZATION 

Advisor: José Herskovits Norman 

Department: Mechanical Engineering 


August /2005 

Quasi-Newton methods for nonlinear optimization construct a matrix that is an 

approximation of the second derivative of the function, in the unconstrained case, and of 

the second derivative of the Lagrangian when constraints are considered. Usually, the 

quasi-Newton matrix must be positive definite. Classic quasi-Newton updating rules get 

full matrices, requiring a very large storage area and a great number of computations, 

when the number of variables is large. Several techniques were developed to modify 

and extend updating quasi-Newton rules in several ways, to make them suitable for 

large problems, for instance, the Limited Memory and the Sparse Quasi-Newton 

Updates. The Limited Memory method avoids the storage of the quasi-Newton matrix. 

However, for several optimization problems, the constraints Jacobian is sparse, making 

interesting the use of sparse quasi-Newton matrices. We present a new updating 

technique to obtain positive definite sparse quasi-Newton matrices that minimize a 

function based on a squared Frobenius norm. This update increases the sparsity of the 

internal systems of FAIPA and allows the use of linear systems solvers for sparse 

matrices improving the efficiency for very large-scale problems. We present numerical 

results that show a good performance of this new technique when associated with the 

internal sparse solver in FAIPA. 

vi

vii 

ÍNDICE 

1 – Introdução e Objetivos 1 

1.1 – Considerações Gerais 1 

1.1 – Organização dos Capítulos 3 

2 – FAIPA: Algoritmo de Pontos Interiores por Arcos Viáveis 7 


2.2 – Algoritmo do FAIPA 13 

2.3 – Sistemas Simétricos no FAIPA 16 

2.4 – Esparsidade dos Sistemas Internos do FAIPA 17 

3 – Técnicas Quase-Newton para Problemas de Grandes Porte 20 

3.1 – Introdução 20 

3.2 – Introdução aos Métodos Quase-Newton 20 

3.2.1 – Método Quase-Newton do tipo DFP 21 

3.2.2 – Método Quase-Newton do tipo BFGS 23 

3.3 – Métodos de Atualização da Matriz Quase-Newton em Problemas Grandes 24 

3.3.1 – Método de Memória Limitada 24 

3.3.1.1 – Produto Bk v 

28 

t 

3.3.1.2 – Produto B v 

u k 

3.3.2 – Método de Atualização Esparsa 30 

3.3.2.1 – Atualização Esparsa de Toint (1977) 31 

3.3.2.2 – Atualização Esparsa de Fletcher (1996) 36 

4 – Técnica de Atualização Quase-Newton Diagonal 39 


4.2 – Técnica de Atualização Diagonal 39 

4.3 – Resolução do Problema 45 

29

5 – Métodos Diretos para Solução de Sistemas Lineares Esparsos 48 


5.2 – Método Direto 49 

5.3 – Método Direto para Sistemas Esparsos 50 

5.4 – Esquemas de Armazenamento de Matrizes Esparsas 54 

5.5 – Rotina MA27 (HSL) 57 

5.6 – Rotina MA28 (HSL) 59 

5.7 – Rotina SSTSTRF/S (CRAY SV1) 60 

5.8 – Rotina SGETRF/S (LAPACK) 61 

6 – Resultados Numéricos 62 


6.2 – CUTEr 63 

6.3 – Resultados Numéricos – Interface FAIPA_CUTEr 66 

6.4 – Apresentação do Problema HS43_NF 69 

6.5 – Comparação entre diferentes solvers internos ao FAIPA 70 

6.6 – FAIPA Quase-Newton Esparso 72 

6.7 – Problema HS43_NF para auxiliar na comparação entre as técnicas de Atualização 

Diagonal, BFGS e Memória Limitada 

82 

6.8 – Problemas CUTEr para auxiliar na comparação entre as técnicas de Atualização 

Diagonal e Memória Limitada 

7 – Conclusões e Propostas 93 


8 – Referências Bibliográficas 96 

viii 

84

CAPÍTULO 1 

1.1– Considerações Gerais 

Introdução e Objetivos 

A Otimização trata do problema da busca da melhor alocação de um conjunto 

limitado de recursos, escolhendo a alternativa que maximize o lucro ou minimize o 

custo, dentre todas aquelas que satisfazem um conjunto específico de restrições. 

A otimização pode ser aplicada em numerosas áreas de conhecimento, incluindo: 

gestão de cadeias de suprimento (planejamento, produção, distribuição); transporte 

(roteiros, gestão de frotas e tripulação); indústria petroquímica (aquisição de materiais, 

projeto e operação de refinarias, distribuição); aplicações militares (logística, alocação 

de pessoal, operações de guerra); finanças (operação de carteiras, gestão de recursos 

financeiros); otimização do projeto de estruturas, veículos terrestres, marítimos e 

aeroespaciais, equipamentos para diversas indústrias de processamento em geral [10]. 

A busca de melhores soluções é um dos grandes objetivos da Engenharia. Desta 

forma, a Engenharia tem, cada vez mais, investido na área de otimização para que seja 

possível aplicar esta ferramenta em problemas de grande porte. Logo há um grande 

interesse em se desenvolver algoritmos de otimização eficientes e robustos [32]. 

O presente trabalho terá como base o FAIPA (Feasible Arc Interior Point 

Algorithm), desenvolvido por HERSKOVITS [24][25][26][27]. Este algoritmo é um 

método de Pontos Interiores e Arcos Viáveis que resolve o problema geral de 

otimização não-linear, fazendo iterações nas variáveis de projeto e nos multiplicadores 

de Lagrange para resolver as condições de otimalidade de Karush-Kuhn-Tucker. 

1

Em cada iteração o FAIPA resolve três sistemas lineares internos com a mesma 

matriz de coeficientes. Nestes sistemas está incluída a derivada segunda da função 

Lagrangiana, H ( x, 

λ, 

µ ) , ou uma aproximação Quase-Newton ( B ) da mesma. 

O FAIPA tem se mostrado confiável e eficiente na solução de problemas de 

médio e pequeno porte. Estas características o qualificam para servir como base em 

nossos estudos, cujo objetivo é resolver problemas do tamanho requerido pelas 

aplicações modernas. O FAIPA vem sendo utilizado em indústrias de primeira linha 

assim como em universidades e centros de pesquisa [27]. 

Em linhas gerais, este trabalho tem como objetivo principal o desenvolvimento 

teórico e computacional de técnicas para programação não-linear, baseadas no FAIPA, 

para a solução de problemas de grande porte, aproveitando a esparsidade dos sistemas 

internos ao FAIPA. 

Uma questão que será amplamente abordada diz respeito à atualização da matriz 

B no Método Quase-Newton, o qual substitui o cálculo da Hessiana do lagrangeano em 

problemas com restrições. Os algoritmos modernos exigem que a matriz B seja definida 

positiva, para garantir convergência. 

Em problemas com muitas variáveis torna-se inviável a utilização desse método 

na sua forma clássica (DFP ou BFGS, por exemplo), pois este exige o armazenamento e 

manipulação de uma matriz cheia, de dimensão igual ao número de variáveis. Existem 

várias técnicas na literatura que ampliam a atualização Quase-Newton para problemas 

grandes. Serão abordadas algumas das principais técnicas: o Método de Memória 

Limitada e o Método de Atualização Esparsa. 

O Método de Memória Limitada foi desenvolvido inicialmente para problemas 

sem restrições e posteriormente estendido para problemas com restrições de caixa. O 

FAIPA apresenta uma adaptação para empregar essa técnica em problemas com 

quaisquer tipos de restrições não-lineares [16]. 

Técnicas de atualização esparsas Quase-Newton presentes nos artigos de TOINT 

[37][38][39] e FLETCHER [13][14], foram utilizadas como referência na concepção de 

uma nova técnica esparsa. 

No fim dos anos 70, Toint propôs uma técnica de atualização esparsa para 

problemas de grande porte. A técnica Quase-Newton de Toint além de não produzir 

uma matriz definida positiva, exige o armazenamento dessa matriz a cada iteração [35]. 

2

Nos anos 90, Fletcher publicou uma técnica esparsa que não exige o 

armazenamento da matriz a cada iteração, pois as informações necessárias para a 

atualização são guardadas do mesmo modo que no Método de Memória Limitada. No 

entanto, essa técnica além de não gerar matrizes definidas positivas [14], não apresenta 

bons resultados numéricos na resolução de problemas de grande porte [35]. 

No presente trabalho propõe-se uma nova técnica que aproveita o conceito de 

memória limitada para armazenar informações do problema durante as iterações e obter 

uma matriz B diagonal definida positiva com um reduzido custo computacional. 

Essa nova técnica de atualização aumenta a esparsidade dos sistemas lineares 

internos do FAIPA, permitindo um melhor aproveitamento de solvers que consideram a 

esparsidade de matrizes visando a redução do custo computacional. 

Comparou-se o novo método de atualização esparsa e o método de memória 

limitada juntamente com o FAIPA. 

A solução de problemas de grande porte implica na solução de sistemas lineares 

internos ao FAIPA com elevado número de equações. Para resolver tais problemas 

integraram-se ao FAIPA técnicas como a utilizada na rotina MA27, desenvolvida pelo 

CSE Group [21], utilizada para resolver sistemas de equações lineares simétricos e 

esparsos. Essa rotina utiliza o Método Direto baseado numa variante da eliminação 

gaussiana para sistemas esparsos [7]. Já foram resolvidos sistemas, junto ao FAIPA, 

com 20.000 equações. 

Um melhor aproveitamento desses recursos pode ser obtido mediante a 

utilização de técnicas de computação de alto desempenho. Uma das alternativas é a 

implementação da rotina SSTSTRF/S escrita na linguagem Fortran que resolve sistemas 

lineares com estrutura simétrica esparsa através do método direto em ambiente de 

computação paralela e vetorial. Ela foi desenvolvida para o ambiente do sistema 

operacional UNICOS [4] do computador CRAY SV1, disponível através do Núcleo de 

Atendimento em Computação de Alto Desempenho (NACAD-COPPE/UFRJ). Essa 

rotina auxiliou na obtenção de resultados importantes com o FAIPA em ambiente de 

computação de alto desempenho. 

Embora nosso objetivo esteja focado na solução de sistemas esparsos, a Técnica 

de Memória Limitada junto ao FAIPA requer o uso de solvers para sistemas densos. 

Nesse sentido, para um melhor desempenho da Técnica de Memória Limitada com o 

3

FAIPA, foi necessária a implementação do solver para sistemas densos não simétricos 

SGETRF/S pertencente ao conjunto de rotinas do LAPACK. 

Para testar as novas idéias adicionadas no algoritmo FAIPA, utilizou-se uma 

ferramenta computacional chamada CUTEr (Constrained and Unconstrained Testing 

Environment revisited) que apresenta uma coleção de problemas testes amplamente 

utilizados na literatura [17]. O CUTEr é uma ferramenta que auxilia no projeto e 

desenvolvimento de softwares em otimização. 

Para utilizar essa ferramenta são necessárias duas etapas: a decodificação e 

criação da interface. A plataforma de decodificação CUTEr é disponível para sistemas 

operacionais UNIX e LINUX. No presente trabalho utilizou-se o sistema operacional 

LINUX durante a etapa de decodificação. A interface é um conjunto de rotinas escritas 

em FORTRAN 77 e FORTRAN 90 que fornecem os dados referentes aos problemas 

testes e devem ser adaptadas ao algoritmo de otimização (no nosso caso o FAIPA). 

1.2 – Organização dos capítulos 

O trabalho que segue está organizado em capítulos da seguinte forma: 

Capítulo 2 – FAIPA: Algoritmo de Pontos Interiores e de Arcos Viáveis: 

Está descrito o algoritmo FAIPA, base deste trabalho, e as alterações no FAIPA 

Esparso. Essa alterações fazem parte da implementação de solvers que aproveitam a 

esparsidade dos sistemas lineares no intuito de resolver problemas de grande porte. 

Capítulo 3 – Técnicas Quase-Newton para Problemas de Grande Porte: 

Inicialmente descreve-se o principal método Quase-Newton: o BFGS. Em seguida 

são apresentadas algumas técnicas já existentes para solucionar o problema de 

atualização da matriz Quase-Newton em problemas de grande porte, tais como o 

Método de Memória Limitada e Método de Atualização Esparsa. 

Nesse capítulo estão descritas as técnicas esparsas dos artigos de Toint e Fletcher 

que foram utilizados como referência na concepção de uma nova técnica esparsa. 

4

No entanto, o objetivo principal deste capítulo é mostrar como está inserida, nesse 

contexto, uma nova técnica numérica para este tipo de atualização que aproveita a 

esparsidade na busca de um melhor rendimento computacional em problemas 

considerados de grande porte, além de gerar matrizes atualizadas simétricas positivas 

definidas. 

Capítulo 4 – Técnica de Atualização Quase-Newton Diagonal: 

Detalhamento da nova técnica de atualização Quase-Newton diagonal. Com essa 

atualização obtêm-se matrizes positivas definidas que apresentam um padrão esparso 

que permite melhorar o desempenho do FAIPA na resolução de problemas com um 

grande número de variáveis e de restrições. 

Capítulo 5 – Técnicas para Solução de Sistemas de Equações Através de 

Métodos Diretos: 

São apresentados os fundamentos do método de resolução de sistemas esparsos de 

equações lineares utilizado na rotina MA27, MA28 e na rotina SSTSTRF/S, sendo esta 

última desenvolvida para o ambiente computacional do computador CRAY SV1. 

No entanto, para um melhor desempenho da Técnica de Memória Limitada junto ao 

FAIPA, foi necessário a implementação de um solver para sistemas densos. Optou-se 

pelo solver SGETRF/S pertencente ao conjunto de rotinas do LAPACK. 

Capítulo 6 – Testes Numéricos: 

Nesse capítulo, inicialmente descreveu-se a ferramenta CUTEr utilizada para 

auxiliar na realização de testes numéricos com o FAIPA e apresentou-se o problema 

HS43_NF que também auxiliou na tarefa de realizar testes numéricos. 

Em seguida, usando o problema HS43_NF, realizaram-se testes para verificação 

do desempenho das rotinas MA27 e MA28 quando implementadas no FAIPA. 

Logo depois estão os resultados da Nova Técnica de Atualização Quase-Newton 

Esparsa. Comparou-se esta técnica com as atualizações BFGS e de Memória Limitada. 

5

Mostraremos os gráficos com as iterações do FAIPA quando este usou cada uma das 

técnicas. 

Por fim, para a obtenção de resultados com problemas maiores através da 

interface CUTEr ou com o problema HS43_NF, utilizou-se um computador AMD Atlon 

1800 MHz com 1.5Gb de Memória RAM e, principalmente, o computador CRAY SV1 

com 12 processadores e 16Gb de memória RAM para comparar o desempenho da 

Técnica Esparsa Diagonal com a de Memória Limitada junto ao FAIPA. 

Capítulo 7 – Conclusões e Propostas 

Este capítulo apresenta as conclusões sobre os resultados obtidos no Capítulo 6 

quando foram comparadas várias técnicas de atualização da matriz Quase-Newton (B), 

quando associadas ao FAIPA. 

Capítulo 8 – Referências Bibliográficas 

6

7 

CAPÍTULO 2 

FAIPA: Algoritmo de Pontos Interiores por 

Arcos Viáveis. 

2.1 – Considerações Gerais 

O algoritmo de pontos interiores por arcos viáveis (FAIPA) é uma técnica nova 

para otimização com restrições de desigualdade e restrições de igualdade. FAIPA requer 

um ponto inicial no interior das restrições de desigualdades e gera uma seqüência de 

pontos interiores. Quando o problema tem somente restrições de desigualdade a função 

objetivo é reduzida em cada iteração. Uma função auxiliar é empregada quando existem 

também restrições de igualdade. 

O fato de fornecer pontos interiores, até mesmo quando as restrições são nãolineares, 

torna o FAIPA uma ferramenta eficiente para projetos de otimização em 

engenharia. 

Considere o problema de programação não linear com restrições de igualdade e 

desigualdade: 

⎧ minimize 

x ⎪ 

⎨ sujeito a 

⎪ 

⎪ 

e 

⎩ 

n 

f ( x), 

x ∈ℜ 

g ( x) 

h ( x) 

i 

i 

≤ 

= 

0; 

0; 

i = 1,..., 

m 

i = 1,..., 

p 

(2.1)

onde: 

n 

x∈ ℜ são as variáveis do projeto, f (x) 

∈ℜ 

é a função objetivo, 

as restrições de desigualdade e 

Denotaremos 

∇ g x) 

ℜ 

h x ℜ 

nxm 

( ∈ e 

p 

( ) ∈ são as restrições de igualdade. 

∇ h x) 

ℜ 

8 

g x ℜ 

m 

( ) ∈ são 

nxp 

( ∈ as matrizes dos gradientes de g e h, 

m 

p 

respectivamente, e chamaremos de λ ∈ℜ 

e µ ∈ℜ 

os vetores com os multiplicadores 

de Lagrange. 

Em (2.2) temos o Lagrangeano do problema (2.1) e em (2.3) temos a Hessiana 

do Lagrangeano. 

Define-se 

t 

t 

l( 

x, 

λ , µ ) = f ( x) 

+ λ g( 

x) 

+ µ h( 

x) 

(2.2) 

m 

∑ 

2 

2 

2 

L( 

x, 

λ , µ ) = ∇ f ( x) 

+ λ ∇ g ( x) 

+ µ ∇ h ( x) 

(2.3) 

G ℜ 

i= 

1 

i 

i 

p 

∑ 

i= 

1 

mxm 

( x) 

∈ uma matriz diagonal tal que G ( x) 

gi 

( x) 

i 

i 

ii = . 

O algoritmo FAIPA (Feasible Arc Interior Point Algorithm), proposto por 

HERSKOVITS [27], é um método de pontos interiores por arcos viáveis que resolve o 

problema geral de otimização não-linear (2.1) fazendo iterações nas variáveis de projeto 

x (variáveis primais) e nos multiplicadores de Lagrange (variáveis duais) para resolver 

as condições de otimalidade de Karush-Kuhn-Tucker (KKT). 

As condições de otimalidade de Karush-Kuhn-Tucker correspondentes ao 

problema (2.1) podem ser escritas da seguinte forma: 

Um ponto 

∇f 

( x) 

+ ∇g( 

x) 

λ + ∇h( 

x) 

µ = 0 

G( 

x) 

λ = 0 

h( 

x) 

= 0 

λ ≥ 0 

g( 

x) 

≤ 0 

* 

x é dito estacionário se existe * 

λ e 

(2.4) 

(2.5) 

(2.6) 

(2.7) 

(2.8) 

* 

µ tal que as igualdades (2.4), 

(2.5) e (2.6) são verdadeiras e será um Ponto de KKT se todas as equações (2.4), (2.5), 

(2.6), (2.7) e (2.8) são confirmadas. 

As condições de KKT constituem um sistema não-linear de equações e 

inequações com as incógnitas ( x , λ, 

µ ) . Esse sistema é resolvido considerando as

equações (2.4), (2.5) e (2.6) de tal forma que as desigualdades (2.7) e (2.8) sejam 

respeitadas. 

FAIPA faz iterações de Newton para resolver as equações não-lineares (2.4), 

(2.5) e (2.6) nas variáveis primais e duais. 

Com o objetivo de garantir convergência para pontos KKT, um sistema é 

resolvido de tal forma que as desigualdades (2.7) e (2.8) sejam satisfeitas em cada 

iteração. 

Seja S = L( 

x, 

λ, 

µ ) e 

mxm 

Λ ∈ R uma matriz diagonal com os termos ii i 

9 

Λ = λ . 

Com uma iteração de Newton para a resolução de (2.4), (2.5) e (2.6) obtém-se o 

seguinte sistema linear: 

⎡ S 

⎢ t 

⎢ 

Λ∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

G( 

x) 

0 

∇h( 

x) 

⎤ ⎡ x0 

− x⎤ 

⎡∇f ( x) 

+ ∇g( 

x) 

λ + ∇h( 

x) 

µ ⎤ 

0 

⎥ ⎢ ⎥ 

= 

⎢ 

⎥ 

⎥ ⎢ 

λ 0 −λ 

⎥ 

- 

⎢ 

G( 

x) 

λ 

⎥ (2.9) 

0 ⎥⎦ 

⎢⎣ 

µ − ⎥⎦ 

⎢⎣ 

( ) ⎥ 

0 µ 

h x ⎦ 

onde ( x , λ, 

µ ) se referem a iteração atual e x , λ , µ ) se referem ao novo ponto que 

( 0 0 0 

será obtido. Podemos considerar S ≡ B , isto é, a uma aproximação Quase-Newton de 

L ( x, 

λ, 

µ ) ou considerar, também, S ≡ I , onde I é a identidade. 

Considerando que um dos objetivos desse trabalho é propor uma nova técnica de 

atualização Quase-Newton, a partir de agora em todos os sistemas do FAIPA que serão 

apresentados teremos S ≡ B . 

Seja 

d ∈ℜ 

n 

0 tal que d0 = x0 

− x 

. Através de (2.9) temos: 

⎧Bd0 

+ ∇g( 

x) 

λ0 

+ ∇h( 

x) 

µ 0 = −∇f 

( x) 

⎪ t 

⎨Λ∇g 

( x) 

d0 

+ G( 

x) 

λ0 

= 0 

⎪ t 

⎩∇h 

( x) 

d0 

= −h( 

x) 

(2.10) 

que independe do valor de µ 0 . A resolução do sistema (2.10) fornece a direção d 0 além 

de uma nova estimativa dos multiplicadores de Lagrange.

Seja a função potencial 

onde na iteração k, 

k 

ci é tal que 

h ( x) 

( 

h( 

x) 

10 

p 

∑ 

i= 

1 

φ ( x, 

c) 

= f ( x) 

+ c h ( x) 

(2.11) 

k i ci 

Está provado [24][25] que 

i 

i 

µ 01 ) < 0 , i = 1, 2, 

K, 

p 

(2.12) 

+ k 

k 

k 

d0 é uma direção de descida de ( x, 

c ) 

No entanto d 0 não é sempre uma direção viável [27]. 

φ . 

Para obter uma direção viável, um vetor negativo é adicionado ao lado direito de 

(2.10). 

onde ρ ∈ℜ 

é positivo. 

⎧Bd+ 

∇g( 

x) 

λ + ∇h( 

x) 

µ = −∇f 

( x) 

⎪ t 

⎨Λ∇g 

( x) 

d + G( 

x) 

λ = −ρλ 

⎪ t 

⎩∇h 

( x) 

d = 0 

(2.13) 

t 

Agora, d é uma direção viável desde que ∇i g( 

x) 

d = −ρ 

< 0 para as restrições 

ativas. 

Para assegurar que d é também uma direção de descida, é preciso estabelecer 

um critério para a obtenção de ρ de tal forma que: 

com ∈( 

0, 

1) 

α , então ∇ ( x, 

c) 

< 0 

d t φ . 

t ( x, 

c) 

≤ αd0 

φ( 

x, 

c) 

t 

d ∇ φ ∇ 

(2.14) 

Para obter ρ , resolve-se o seguinte sistema auxiliar:

Então, podemos considerar que: 

⎧Bd1 

+ ∇g( 

x) 

λ1 

+ ∇h( 

x) 

µ 1 = 0 

⎪ t 

⎨Λ∇g 

( x) 

d1 

+ G( 

x) 

λ1 

= −λ 

⎪ t 

⎩∇h 

( x) 

d1 

= 0 

0 

11 

1 

(2.15) 

d = d + ρd 

(2.16) 

onde temos que a desigualdade (2.14) é obedecida para qualquer ρ > 0 se 

1 

( x, 

) < 0 

d ∇ c 

t φ . 

Caso contrário, faz-se 

que obedece (2.14). 

t 

( α −1) 

d0∇φ 

( x, 

c) 

ρ < , t 

(2.17) 

d ∇φ( 

x, 

c) 

1 

O algoritmo de pontos interiores de direções viáveis (FDIPA) descrito em [24], 

utiliza essa direção d como direção de descida. O procedimento de busca linear procura 

um passo t que assegure que o novo ponto ( x + td) 

satisfaça as restrições de 

desigualdade e com um razoável decréscimo na função potencial auxiliar φ x , λ , ) . 

( 0 µ 0 

No entanto, quando há restrições extremamente não lineares, o comprimento do 

passo pode tornar-se muito pequeno acarretando uma convergência mais lenta. Esse fato 

é similar ao Efeito Maratos [27]. 

Basicamente, a idéia para evitar esse problema consiste em fazer uma busca 

linear através de um arco de segunda ordem, tangente à direção viável de descida ( d ) e 

com curvatura próxima aquela da restrição ativa. 

Sendo: 

~ I 

t 

ω = g ( x + d) 

− g ( x) 

− ∇g 

( x) 

d i = 1,..., 

m 

(2.18) 

i 

i 

i 

i

~ E 

t 

ω = h ( x + d) 

− h ( x) 

− ∇h 

( x) 

d j = 1,..., 

p 

(2.19) 

i 

i 

O arco em x é definido da seguinte forma: 

onde d ~ é obtido resolvido o sistema (2.21). 

x k 

i 

i 

2 ~ 

+ 1 = x + td + t d 

(2.20) 

~ 

⎧ 

~ 

Bd 

+ ∇g( 

x) 

λ + ∇h( 

x) 

~ µ = 0 

⎪ 

t ~ ~ I 

⎨Λ∇g 

( x) 

d + G( 

x) 

λ = −Λ 

~ ω 

⎪ t ~ E 

⎪⎩ 

∇h 

( x) 

d = − 

~ ω 

12 

(2.21) 

O arco empregado no FAIPA é representado na Figura 2.1 onde a restrição 

gi ( x) 

≤ 0 é ativa na iteração k 

x . Uma vez que 

função potencial φ (x) 

em 

k 

d0 e 

k 

x , o ângulo com ( ) 

k 

∇φ 

x 

− é agudo. 

k 

d são direções de descida da 

A Figura 2.1 representa o arco viável no caso em que há uma restrição ativa, isto 

é gi(xk)=0. HERSKOVITS et al. [27] prova que é possível caminhar a partir de xk ao 

longo de um arco até um novo ponto viável com um valor mais baixo da função 

objetivo. 

gi(x) = 0 

d1 

~ Feasible arc 

d 

ρ d1 

d0 

Figura 2.1- Arco Viável. 

d 

xk 

−∇φ (x) 

∇g (x)

Em problemas que utilizam uma direção de busca e apresentam restrições 

altamente não lineares, o grau de convergência dos algoritmos pode ser prejudicado, já 

que o passo é muito pequeno. Todavia, o algoritmo FAIPA baseado no método de arcos 

viáveis não apresenta este problema de convergência, pois ao definir-se o arco leva-se 

em consideração a curvatura da restrição, aumentando assim a convergência do 

problema para a solução ótima. 

2.2 - Algoritmo do FAIPA 

O algoritmo de pontos interiores e arcos viáveis para resolver o problema (2.1) será 

descrito abaixo de forma resumida, a fim de se conhecer o seu funcionamento. 

Parâmetros: 

α ∈( 

0, 

1) 

e ϕ > 0 

Dados Iniciais: 

x∈ Ω , onde 

0 

a 

λ > 0 , , 

m 

λ ∈ R 

p 

µ > 0 , µ ∈ R , 

0 

Ω a representa uma região viável. 

nxn 

B ∈ R simétrica definida positiva 

c = 0 , 

i 

p 

c ∈ R 

Passo 1: Determinação da direção de descida. 

(i) Resolva o sistema linear em ( d 0 , λ 0 , µ 0 ), que chamaremos de Sistema (I): 

⎡ B 

⎢ t 

⎢ 

Λ∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

G( 

x) 

0 

∇h( 

x) 

⎤ ⎡d0 

⎤ ⎡∇f 

( x) 

⎤ 

0 

⎥ ⎢ ⎥ 

= 

⎢ ⎥ 

⎥ ⎢ 

λ 0 ⎥ 

- 

⎢ 

0 

⎥ 

(2.22) 

0 ⎥⎦ 

⎢⎣ 

µ ⎥⎦ 

⎢⎣ 

( ) ⎥ 

0 h x ⎦ 

13

n 

m 

p 

onde d ∈ R , λ ∈ R , µ ∈ R . 

0 

Se d 0 = 0 , Pare. 

0 

Passo 2: Determinação da direção restaurada d 

14 

~ . 

0 

(ii) Resolva o sistema linear em ( 1 d , λ 1 , µ 1), 

que chamaremos de Sistema (II):: 

n 

m 

onde d ∈ R , λ ∈ R , 

1 

1 

⎡ B 

⎢ t 

⎢ 

Λ∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

G( 

x) 

0 

p 

µ 1 ∈ R , ii = i 

∇h( 

x) 

⎤ ⎡d1 

⎤ ⎡0⎤ 

0 

⎥ ⎢ ⎥ 

= 

⎢ ⎥ 

⎥ ⎢ 

λ1 

⎥ 

- 

⎢ 

λ 

⎥ 

0 ⎥⎦ 

⎢⎣ 

µ ⎥⎦ 

⎢⎣ 

0⎥ 

1 ⎦ 

Λ λ , sendo i = 1,..., 

m . 

(iii) Seja a seguinte função potencial 

p 

∑ 

i= 

1 

(2.23) 

φ ( x) 

= f ( x) 

+ c h ( x) 

(2.24) 

c 

(iv) Se < 1. 2µ 

0 ( i) 

, então = −2µ 

0( i) 

, i = 1, 2, 

K, 

p 

c i 

(iv) Se ∇ ( x) 

> 0 

Senão: 

d1 c 

t φ então: 

c i 

i 

i 

t 

⎡ 2 ( α −1) 

d ∇ ⎤ 

0 φc 

( x) 

ρ = min⎢ϕ 

d0 

; 2 t ⎥ 

(2.25) 

⎣ d1∇φc 

( x) 

⎦ 

2 

0 2 

(v) Determinação da direção de descida d. 

ρ = ϕ d 

(2.26) 

d = d + ρd 

(2.27) 

0 

1

(i) Seja: 

~ I 

ω i 

t 

= gi 

( x + d) 

− gi 

( x) 

− ∇gi 

( x) 

d i = 1,..., 

m 

(2.28) 

~ E 

ω 

t 

= h ( x + d) 

− h ( x) 

− ∇h 

( x) 

d j = 1,..., 

p 

(2.29) 

i 

i 

i 

i 

(ii) Resolva o sistema linear em ( λ µ ~ ~ ~ 

d , , ), que chamaremos de Sistema (III): 

⎡ B 

⎢ t 

⎢ 

Λ∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

G( 

x) 

Onde Λ ii = λi 

, sendo i = 1,..., 

m . 

Passo 3: Busca no arco. 

0 

~ 

∇h( 

x) 

⎤ ⎡d 

⎤ ⎡ 0 ⎤ 

⎥ ⎢ ~ ⎥ 

= 

⎢ I 

0 

⎥ 

⎥ ⎢λ 

⎥ - 

⎢ 

Λ 

~ ω 

⎥ 

⎥ ⎢ ⎥ 

E 

0 ~ 

⎦ ⎢⎣ 

⎥ 

⎣ 

µ ~ 

⎦ 

ω ⎦ 

15 

(2.30) 

(i) Encontre um passo de comprimento t que satisfaça um de critério de busca 

linear baseado na função potencial auxiliar ) 

~ 2 

φ ( x + td + t d 

Passo 4: Atualização. 

(i) Obter o novo ponto x + 1 : 

k 

x k 

c 

2 ~ 

+ 1 = x + td + t d 

(2.31) 

(ii) Se o problema em x + 1 verifica o(s) critério(s) de parada do algoritmo: 

k 

Pare 

Senão 

Defina uma nova atualização de λ e B , considerando λ > 0 e B simétrica 

positiva definida. Então vá para o Passo 1.

Algumas alternativas para a atualização de λ e B são discutidos em [22]. Elas 

conduzem a algoritmos com diferentes performances em termos da velocidade de 

convergência local. 

O tamanho dos sistemas lineares (2.22), (2.23) e (2.30) é igual à soma do 

número das variáveis mais o número de restrições de desigualdade e de igualdade. Em 

[27] prova-se que estes sistemas têm uma solução única. 

É importante ressaltar que já foi provado que o algoritmo aqui apresentado tem 

convergência global para toda matriz B, simétrica definida positiva, e para 

qualquer λ > 0 [27]. 

2.3 – Sistemas Simétricos no FAIPA 

Analisando os sistemas lineares (I), (II) e (III) descritos em (2.22), (2.23) e 

(2.30), respectivamente, constata-se que todos são assimétricos. Tornar esses sistemas 

simétricos é uma alternativa para obtermos uma redução no custo computacional, 

considerando-se que o problema de otimização seja de grande porte e que o algoritmo 

faça uso da esparsidade das matrizes. 

Considerando a equação (2.32) parte do Sistema (I): 

Multiplicando (2.32) por 

Λ∇g x) 

d + G( 

x) 

λ = 0 

t 

∇ 

g t 

( 0 

0 

−1 

Λ 

−1 

( x) 

d0 

+ Λ G( 

x) 

λ0 

= 0 

Da multiplicação entre as matrizes diagonais 

uma matriz Ψ (x) 

também diagonal onde 

ii 

i 

16 

i 

−1 

Λ e (x) 

(2.32) 

(2.33) 

G na verdade resultará 

Ψ ( x) = g ( x) 

/ λ 

(2.34)

onde 

Então (2.34) pode ser escrita da seguinte maneira: 

∇g x) 

d + Ψ( 

x) 

λ = 0 

t 

( 0 

0 

Substituindo (2.35) em (2.22) temos um novo Sistema (I), porém simétrico. 

⎡ B 

⎢ t 

⎢ 

∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

Ψ( 

x) 

0 

17 

(2.35) 

∇h( 

x) 

⎤ ⎡d0 

⎤ ⎡∇f 

( x) 

⎤ 

0 

⎥ ⎢ ⎥ 

= 

⎢ ⎥ 

⎥ ⎢ 

λ 0 ⎥ 

- 

⎢ 

0 

⎥ 

(2.36) 

0 ⎥⎦ 

⎢⎣ 

µ ⎥⎦ 

⎢⎣ 

( ) ⎥ 

0 h x ⎦ 

O mesmo procedimento será feito nos demais sistemas (II) e (III). 

O Sistema (II), agora simétrico é descrito em (2.37): 

m 

e ℜ 

⎡ B 

⎢ t 

⎢ 

∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

Ψ( 

x) 

0 

∇h( 

x) 

⎤ ⎡d1 

⎤ ⎡0⎤ 

0 

⎥ ⎢ ⎥ 

= 

⎢ ⎥ 

⎥ ⎢ 

λ 1 ⎥ 

- 

⎢ 

e 

⎥ 

(2.37) 

0 ⎥⎦ 

⎢⎣ 

µ ⎥⎦ 

⎢⎣ 

0⎥ 

1 ⎦ 

∈ é um vetor com componentes unitárias, isto é, e = 1, 

i = 1,..., 

m . 

O Sistema (III), agora simétrico é descrito em (2.38): 

⎡ B 

⎢ t 

⎢ 

∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

Ψ( 

x) 

0 

~ 

∇h( 

x) 

⎤ ⎡d 

⎤ ⎡ 0 ⎤ 

⎥ ⎢ ~ ⎥ 

= 

⎢ I 

0 

⎥ 

⎥ ⎢λ 

⎥ - 

~ 

⎢ 

ω 

⎥ 

⎥ ⎢ ⎥ E 

0 ~ 

⎦ ⎢⎣ 

⎥ 

⎣ 

µ ~ 

⎦ 

ω ⎦ 

i 

(2.38) 

Além do aproveitamento da simetria e da esparsidade, será proposta uma nova 

alternativa de atualização da matriz B.

2.4 – Esparsidade dos Sistemas Internos do FAIPA 

Uma matriz é considerada esparsa se muitos dos seus elementos são nulos. Uma 

outra maneira de considerar se uma matriz é esparsa, é quando existe a possibilidade de 

obter vantagens computacionais ao explorar apenas os elementos diferentes de zero 

dessa matriz. 

O interesse de aproveitar a esparsidade de matrizes tem se intensificado, cada 

vez mais, pois esse tipo de estrutura matricial proporciona uma enorme redução do 

custo computacional e também devido ao fato de muitos dos problemas em engenharia 

serem esparsos [7]. 

Seja a matriz não simétrica (2.39) que compõem os sistemas (2.22), (2.23) e 

(2.30). 

⎡ B 

⎢ t 

⎢ 

Λ∇g 

( x) 

t ⎢⎣ 

∇h 

( x) 

∇g( 

x) 

G( 

x) 

0 

18 

∇h( 

x) 

⎤ 

0 

⎥ 

⎥ 

0 ⎥⎦ 

(2.39) 

Para analisar a influência da relação entre o número de variáveis n e de 

restrições ( m + p) 

no número de elementos nulos da matriz (2.39), montou-se o Gráfico 

2.1. No eixo das abscissas temos n /( m + p) 

e a porcentagem correspondente de 

elementos nulos, no eixo das ordenadas. 

Considerou-se dois casos no Gráfico (2.1). O primeiro que chamaremos de Caso 

1, considera a matriz Quase-Newton 

desigualdade 

todas elas densas. 

∇ h ) ∈ℜ 

∇ g ) ∈ℜ 

nxn 

B ∈ ℜ , a matriz dos gradientes das restrições de 

nxm 

( x e a matriz com os gradientes de igualdade 

No Caso 2 a matriz 

nxp 

( x densas. 

nxn 

B ∈ ℜ é diagonal e mantém-se 

∇ h( x) 

∈ℜ 

∇ g ) ∈ℜ 

nxp 

nxm 

( x e 

Analisando as informações do Gráfico (2.1) podemos afirmar que no Caso 1 o 

número de elementos nulos diminui quando há mais variáveis que restrições.

No Caso 2 a matriz (2.39) terá 50% de elementos nulos quando há igualdade 

entre o número de variáveis e restrições. Para qualquer outra relação entre variáveis e 

restrições haverá um aumento no número de elementos nulos na matriz (2.39). 

Elementos Nulos (%) 

80 

70 

60 

50 

40 

30 

20 

10 

0 

0,20 0,25 0,33 0,50 1 2 3 4 5 

Relação Variáveis/Restrições 

19 

Caso 1 

Caso 2 

Gráfico 2.1- Influência da relação entre número de variáveis e de restrições 

no número de elementos nulos da matriz (2.39). 

No Capítulo 4 será apresentada uma técnica de atualização Quase-Newton que 

gera matrizes diagonais. Através do Gráfico 2.1 percebemos que essa atualização irá 

aumentar significativamente a esparsidade dos sistemas internos do FAIPA utilizados 

em cada iteração e permitindo um melhor aproveitamento ao utilizar solvers que 

exploram a estrutura da matriz na resolução de sistemas de equações, no intuito de 

reduzir o custo computacional. 

Serão implementadas no FAIPA alterações na maneira de armazenar as matrizes 

dos sistemas esparsos. As estruturas de dados para armazenamento desse tipo de 

matrizes consideram apenas os elementos não nulos. Esse assunto será abordado no 

Capítulo 5.

3.1 – Introdução 

20 

CAPÍTULO 3 

Técnicas Quase-Newton para Problemas 

de Grande Porte 

Antes de abordar o assunto principal desse capítulo, a atualização da matriz 

Quase-Newton em problemas de grande porte, iniciaremos com uma breve abordagem 

sobre os métodos Quase-Newton, do tipo DFP e do tipo BFGS, que obedecem a 

condição secante e geram matrizes definida positiva. 

Em seguida serão apresentados os métodos de atualização da matriz Quase- 

Newton utilizados na resolução de problemas de otimização que apresentam um grande 

número de variáveis de projeto. Por fim, será abordado o tema que trata de uma nova 

técnica de atualização esparsa da matriz Quase-Newton. 

3.2 – Introdução aos Métodos Quase-Newton 

onde a função 

Seja o seguinte problema: 

2 

f ∈ C , 

n 

x ∈ ℜ e 

minimize f ( x) 

(3.1) 

nxn 

F ℜ 

2 

∈ a Hessiana de f ( F = ∇ f ).

O método de Newton modificado consiste em encontrar um novo ponto a cada 

iteração da seguinte forma: 

onde 

nxn 

S ∈ ℜ é uma matriz simétrica, 

escolhido de tal forma que minimize f x ) . Se 

xk + 1 = xk 

- tk 

Sk∇f 

( xk 

) 

(3.2) 

n 

∇ f ∈ℜ 

o gradiente da função no ponto e k 

( k+ 

1 

21 

t é 

−1 

S = F for a inversa da Hessiana 

temos o método de Newton e se S = I , onde I é a matriz identidade, nos temos o 

steepest descent. 

Através dos métodos Quase-Newton é possível obter uma aproximação 

nxn 

H ∈ ℜ da inversa da matriz Hessiana, ao invés da exata exigida nos Métodos de 

Newton. Essa aproximação é feita obedecendo a Condição Secante descrita em (3.3). 

H y = s 

k+1 

k k 

(3.3) 

Onde, de acordo com o problema sem restrições (3.1), temos os seguintes 

vetores s k e y k : 

k = xk 

− xk 

+ 1 

s (3.4) 

y ∇f 

x ) − ∇f 

( x ) 

(3.5) 

k = ( k 

k+ 

1 

3.2.1 – Método Quase-Newton do tipo DFP 

Nos anos 50, a necessidade de um algoritmo que acelerasse as iterações durante 

a resolução de problemas de minimização do tipo (3.1), isto é, que resolvesse 

rapidamente com custo computacional reduzido fez com que Davidon [35] 

desenvolvesse o primeiro algoritmo Quase-Newton que deu origem ao DFP. 

O DFP (Davidon, Fletcher e Powell), um dos primeiros métodos a construir uma 

aproximação da inversa da hessiana, foi originalmente proposto por Davidon em 1959, e 

posteriormente desenvolvido por Fletcher e Powell em 1963 [35].

nxn 

Seja H ∈ ℜ a aproximação da inversa da Hessiana. Então, em cada iteração 

temos a seguinte atualização: 

s s H 

H − 

t 

t 

k k 

k +1 = H k + t 

sk 

yk 

k k k k 

t 

yk 

H k yk 

(3.6) 

−1 

Se consideramos a matriz B a aproximação da Hessiana de tal forma que B = H , 

temos em (3.7) a seguinte Condição Secante, também conhecida como Condição Quase- 

Newton. 

B s = y 

22 

y 

y 

H 

k+1 

k k 

(3.7) 

Onde (3.3) e (3.7) são duais. 

Dessa forma, podemos considerar a seguinte atualização da matriz B : 

B s s B y 

B + 

y 

T 

T 

k+ 

1 = Bk 

− k k k k 

T 

sk 

Bk 

sk 

k k 

T 

yk 

sk 

(3.8) 

A equação (3.8) é denominada atualização BFGS da matriz B . 

Outra regra de atualização de H é a inversão de k+ 

1 

B apresentada na Equação 

(3.9). Para isto utiliza-se a fórmula de Sherman-Morrison para se determinar H : 

H 

⎛ 

+ 

⎝ 

y 

H 

y 

⎞ s 

s 

s 

y 

+ H 

t 

t t 

t 

k H k ⎜ 

+ 1 = + 1 k k 

t 

yk 

sk 

k k k 

⎟ t 

sk 

yk 

− k k k 

t 

yk 

sk 

k k k 

(3.9) 

⎠ 

A equação (3.9) é denominada regra de atualização BFGS da matriz H . 

H 

y 

s 

k+ 

1

3.2.2 – Método Quase-Newton do tipo BFGS 

O mais popular dos métodos Quase-Newton é o BFGS, denominado dessa 

maneira para referir-se aos idealizadores da técnica: Broyden, Fletcher, Goldfarb e 

Shanno. 

A atualização BFGS da matriz B k+ 

1 é apresentada em (3.8), onde s k e yk são 

descritos em (3.4) e (3.5), respectivamente. 

Em problemas sem restrições, a atualização BFGS produzirá uma matriz B k+ 

1 

simétrica definida positiva sempre que a matriz B k também seja definida positiva e que 

se verifique, além da Condição Quase-Newton (3.7), a seguinte condição de curvatura: 

T 

s > 0 

(3.20) 

k yk 

Em problemas com restrições, o vetor y k é obtido da seguinte maneira: 

y = ∇ l x + , λ + , µ + ) − ∇ l( 

x , λ , µ ) 

(3.21) 

k 

x ( k 1 k 1 k 1 x k k k 

onde l é o lagrangeano da função objetivo. 

No entanto, em problemas com restrições, a Hessiana exata do problema não é 

necessariamente definida positiva na solução. Portanto, nesses casos, nem sempre é 

possível garantir que a matriz B obtida através da atualização BFGS seja definida 

positiva. Para superar essa dificuldade, Powell propôs uma modificação da atualização 

BFGS [24]. 

Ele sugeriu que se 

s y < 0. 

2s 

B s 

(3.22) 

T 

k 

k 

então calcula-se φ para obter um novo y k , mantendo-se o mesmo s k . 

T 

k 

k 

k 

T 

k 

k 

k k 

T 

sk 

23 

k 

T 

0. 

8 sk 

B s 

φ = 

(3.23) 

s B s − y 

k

O novo yk é obtido da seguinte maneira: 

y = φ y + ( 1− 

φ) 

B s 

(3.24) 

k 

k 

24 

k 

k 

E, por fim, com novo vetor y k , além de s k e B k , através da mesma equação 

(3.17) temos a atualização de B k+ 

1 para o problema com restrições. 

3.3 – Métodos de Atualização da Matriz Quase-Newton em Problemas Grandes 

O Método Quase-Newton, na sua forma clássica (BFGS, por exemplo), não pode 

ser usado para otimização de problemas grandes, pois gera e, por conseqüência, 

manipula matrizes densas, o que torna o custo computacional elevado e inviável. É 

possível, no entanto, modificar e estender esse método de diversas maneiras afim de 

torná-lo eficiente para a resolução de problemas de grande porte [35]. 

As principais técnicas para esse tipo de atualização são as seguintes: 

Método de Memória Limitada; 

Método de Atualização Esparsa; 

3.3.1 – Método de Memória Limitada 

A técnica de memória limitada, concebida para resolução de problemas de 

otimização não linear de grande porte, é baseada no método quase-Newton, permite 

aproximar a inversa da matriz Hessiana da função que se deseja minimizar sem a 

necessidade de armazenamento dessa matriz. As vantagens deste método estão na 

economia no armazenamento em memória e na redução do número de operações [2].

Considerando inicialmente a aproximação BFGS da Hessiana apresentada na 

equação (3.22). 

Sendo B 

(3.27), respectivamente 

onde ∇f ( xk 

+ 1) 

e f ( xk 

) 

B s s B y y 

B k+1 

= Bk 

− + 

y 

k k 

T 

k k 

T 

sk 

Bk 

sk 

25 

T 

k k 

T 

k sk 

(3.25) 

a aproximação da Hessiana e os vetores s k e yk descritos em (3.26) e 

s = x +1 − x 

(3.26) 

k 

k 

k 

y = ∇f 

x + ) − ∇f 

( x ) 

(3.27) 

k 

( k 1 k 

∇ são os gradientes da função objetivo nos pontos k+ 

1 

x e x k 

respectivamente. 

Segundo [2], é possível representar de forma mais conveniente a regra de 

atualização BFGS da equação (3.25). Esta nova forma é conhecida como uma 

representação compacta da matriz BFGS e está descrita em (3.28). 

Seja B 0 uma matriz simétrica positiva definida e assumido-se que os k pares 

k−1 

t 

{ s i yi} 

i= 

1 satisfazem s i yi 

> 0. 

Seja B k obtida na ésima 

k atualização de 0 

k−1 

direta BFGS (3.25), ao tomarmos os pares { s } podemos então escrever 

sendo 

B 

k 

onde S k e Y k são matrizes ( n× 

k); 

i yi 

i= 

1 

k 0 k k k 0 

[ B0S 

k Yk 

] ⎢ t ⎥ ⎢ t ⎥ 

⎣ Lk 

− Dk 

⎦ ⎣ Yk 

⎦ 

B pela fórmula 

t 

t 

⎡S 

B S L ⎤ ⎡S 

B ⎤ 

= B0 

− 

(3.28) 

−1 

S = s ,...., s ] 

(3.29) 

k 

[ 0 k 

Y = y ,...., y ] 

(3.30) 

k 

[ 0 k

( L ) é uma matriz triangular ( k × k) 

k 

k 

ij 

D é uma matriz diagonal ( k × k) 

. 

k−1 

i= 

1 

t ⎧ si−1 

y j−1 

se i > j 

( Lk 

) ij = ⎨ 

(3.31) 

⎩0 

caso contrário 

t 

t 

D [ s y ,..., s y ] 

(3.32) 

k = diag 0 0 k−1 

k−1 

Usando o esquema apresentado em [2], ao invés de se considerar os k pares 

{ s } para atualizar a matriz B , é possível tomar somente os m últimos pares. 

i yi 

Durante as primeiras k iterações, quando k ≤ m , as matrizes S k e Y k armazenarão os 

k pares de vetores s e y . Nas iterações subseqüentes quando k > m , o procedimento 

de atualização de S k e Y k é alterado de tal forma que sejam removidos os pares s e y 

mais antigos e adicionados pares mais novos. 

onde: 

Além disso, assume-se que = ε I , e reformula-se a equação (3.28): 

B 

são matrizes ( n× k); 

k 

= ε I − 

( L ) é uma matriz triangular ( k × 

k); 

k 

ij 

k 

B0 k 

t ⎡ε 

S S 

k k k k k k 

[ ε k Sk 

Yk 

] ⎢ t ⎥ ⎢ t ⎥ 

⎣ Lk 

− Dk 

⎦ ⎣ Yk 

⎦ 

26 

L 

⎤ 

−1 

⎡ε 

S 

t 

⎤ 

(3.33) 

S s ,...., s ] 

(3.34) 

k = [ k−m 

k−1 

Y y ,...., y ] 

(3.35) 

k = [ k−m 

k−1 

t ⎧ sk 

−m−1+ 

i yk 

−m−1+ 

j se i > j 

( Lk 

) ij = ⎨ 

(3.36) 

⎩ 0 caso contrário

t 

t 

D diag [ s y ,..., s y ] 

(3.37) 

k = k−m 

k−m 

k−1 

k−1 

D k é uma matriz diagonal e ε k um escalar positivo qualquer. Em [3], recomenda-se: 

y s 

ε k = 

(3.38) 

s 

t 

k−1 

k−1 

t 

k−1s 

k−1 

No entanto, em [16], recomenda-se ε = 1. 

Nesta última formulação as matrizes têm a dimensão relacionada aos últimos m 

pares de vetores s e y [(3.34) e (3.35)] e não mais ao total de k iterações como mostrado 

em (3.29) e (3.30). A matriz Quase-Newton, B , continua com a mesma dimensão 

( n× n). 

Observa-se que a matriz 

⎡ 

⎢ 

⎣ 

k 

27 

⎤ 

⎥ 

⎦ 

t 

Sk B0 

Sk 

Lk 

t 

(3.39) 

Lk 

− Dk 

da equação (3.28) é indefinida. 

Porém, sua inversão pode ser feita, utilizando-se o método de fatorização de 

Cholesky, da seguinte maneira: 

⎡− D 

⎢ 

⎣ Lk 

k 

1 

t ⎡ 

L ⎤ 

2 

k ⎢ Dk 

⎥ = 

t 

S ⎢ 

k B0S 

k ⎦ 

⎢⎣ 

− Lk 

D 

1 

2 

k 

⎤ ⎡ 

0 ⎥ ⎢− 

Dk 

⎥ ⎢ 

V ⎥ ⎣ 0 

k ⎦ 

onde V k é uma matriz triangular inferior que satisfaz 

singular. 

Se 0 

V 

k 

V 

t 

k 

t 

k 

1 

2 

− L D 

k 

t 

k 

V 

1 

2 

k 

⎥ ⎥ 

⎤ 

⎦ 

(3.40) 

= S B S + L D L , 

(3.41) 

0 

t 

k 

k 

−1 

t 

k k 

B é positiva definida e si yi 

≥ 0, i = 1,..., 

k −1, 

então V k existe e não é

Logo, tem-se uma nova forma de representar a atualização da matriz Quase- 

Newton dada por: 

B 

k 

= ε I − 

k 

⎡ 

− 

⎣ 0 

1 

2 

1 

− 

t 

[ ] ⎢ D ⎥ k 

k 

k D 2 

Yk 

ε k S 

k L 

k 

k ⎢ 1 ⎥ ⎢ ⎥ 

⎢ 

⎥ 

t 

t 

⎣ε 

k Sk 

⎦ 

V 

k 

⎤ 

⎦ 

28 

-1 

⎡ 1 

⎢ D 2 

⎢ 

⎣− 

Lk 

D 

2 

k 

⎤ 

0 ⎥ 

V ⎥ 

k ⎦ 

-1 

⎡ 

Y 

t 

⎤ 

(3.42) 

Nesta última formulação as matrizes têm a dimensão relacionada com os últimos 

m pares de vetores s e y, e não mais ao total de k iterações. A matriz Quase-Newton, 

B k , continua com a mesma dimensão ( n × n) 

. Na prática sugere-se que m ≤ 7 [2]. 

A técnica de memória limitada na realidade não armazena a matriz B da iteração 

anterior e as informações necessárias estão armazenadas nos vetores S e Y. Como não 

há armazenamento, faz-se uso de artifícios para obtenção de produtos entre vetores e a 

matriz B. 

Usando-se a equação (3.42) serão apresentadas algumas operações envolvendo a 

matriz B k . Tais operações serão úteis quando for utilizada a técnica de memória 

limitada junto ao algoritmo do FAIPA [10]. 

As operações destacadas são as seguintes: produto de B k por um vetor v e 

t 

u k 

produto B v , onde u e v são vetores de dimensão n. 

3.3.1.1 - Produto Bk v 

O produto de B k por um vetor v é determinado da seguinte forma: 

- dados: x k , S k , Y k , k , 

L k 

D e ε ; 

k 

t 

−1 

t 

- efetuar a fatorização de Cholesky de ε S S + L D L para se obter V . 

- resolver a equação (3.43): 

-1 

1 1 

-1 

⎡ − ⎤ 

2 2 t 

p = ⎢− 

Dk 

Dk 

Lk 

⎥ 

1 

t 

⎢ 

t ⎥ 

⎣ 0 V 

2 

k ⎦ 

k 

1 ⎡ 

2 

⎢ Dk 

⎢ 

⎢⎣ 

− Lk 

D 

k 

k 

⎤ 

0 ⎥ 

⎥ 

Vk 

⎥⎦ 

k 

k 

k 

t ⎡ Y ⎤ k v 

⎢ ⎥ 

⎣ε 

k Sk 

v⎦ 

k 

k 

(3.43)

- efetuar o produto 

t 

3.3.1.2 - Produto B v 

u k 

v = ε v - [ Y ε S ]p 

(3.44) 

Bk k k k k 

t 

O produto de B v , onde u e v são vetores de dimensão n é determinado da 

seguinte forma: 

u k 

- dados S k , Y k , L k e D k 

- define-se W k 

k 

[ Y S ] 

t t t 

- calcular u Yk 

, u ε k Sk 

, Yk v e S v 

t 

ε k k 

t t 

- determinar u Wk 

e Wk v 

- efetuar a decomposição de Cholesky de 

t 

kuv - calcular ε . 

- resolver (3.46) 

t 

t 

u B v = ε u v 

k 

k 

- 

t 

u W 

k 

W = ε 

(3.45) 

⎡ 

⎢− 

D 

⎢ 

⎣ 0 

1 

2 

k 

k 

k 

k 

1 

− ⎤ 

2 t 

Dk 

Lk 

⎥ 

t 

V ⎥ 

k ⎦ 

29 

-1 

S 

t 

k 

S 

k 

1 ⎡ 

2 

⎢ Dk 

⎢ 

⎢⎣ 

− Lk 

D 

+ L D L para obter V ; 

1 

2 

k 

k 

−1 

t 

k k 

⎤ 

0 ⎥ 

⎥ 

Vk 

⎥⎦ 

-1 

W 

t 

k 

v 

k 

(3.46)

3.3.2 – Método de Atualização Esparsa 

É um assunto que foi explorado e abandonado no fim dos anos 70 com Toint 

[37][38][39] e ressurgiu no meio da década de 90 com Fletcher [13][14]. Consiste 

basicamente no desenvolvimento da atualização Quase-Newton adotando um 

2 

determinado padrão de esparsidade para a matriz Hessiana ( ∇ f ). 

Antes de descrevermos as técnicas esparsas de Toint e Fletcher, é necessário 

definir a norma de Frobenius, que será utilizada para resolver tais problemas de 

atualização. 

A norma de Frobenius . F 

Seja M a matriz: 

⎡M 

M = 

⎢ 

⎢ 

M 

⎢⎣ 

M 

de uma matriz é definida da seguinte maneira. 

11 

n1 

L 

O 

L 

M 

M 

30 

1n 

Onde M ∈ℜ 

, sendo i = 1,..., 

n e j = 1,..., 

n . 

Então: 

ou 

ij 

M 

M 

F 

2 

F 

= 

= 

n 

n 

∑∑ 

i= 

1 j= 

1 

n 

n 

∑∑ 

i= 

1 j= 

1 

M 

M 

M 

nn 

⎤ 

⎥ 

⎥ 

⎥⎦ 

(3.47) 

2 

ij 

(3.48) 

2 

ij 

(3.49)

3.3.2.1 – Atualização Esparsa de Toint (1977) 

k+ 

1 

Toint apresenta o problema de atualização esparsa considerando que a matriz 

B é a solução do seguinte problema quadrático descrito abaixo: 

onde 

minimize 

e 

Bk + 1 

sujeito a 

B 

2 

Bk+ 

1 − Bk 

= ∑[( 

B 

F 

B 

k+ 

1 

( B 

s 

k+ 

1 k 

= B 

) 

k+ 

1 ij 

= y 

t 

k+ 

1 

k 

= 0 

(i,j) ∈ I 

∀( 

i,j) 

∈ I 

31 

k+ 

1 ij 

⋅ denota a norma de Frobenius; 

F 

) − ( B ) ] 

os vetores s k e y k são s k = xk 

− xk 

−1 

e y k = ∇f 

( xk 

) − ∇f 

( xk 

−1) 

2 

I {( i, 

j) 

| [ ∇ f ( x)] 

= 0} 

= ij 

2 

J {( i, 

j) 

| [ ∇ f ( x) 

] ≠ 0} 

= ij 

k 

ij 

2 

⎫ 

⎪ 

⎪ 

⎬ 

⎪ 

⎪ 

⎪⎭ 

(3.50) 

A solução B k é obtida resolvendo um sistema linear com n equações e 

conservando o mesmo padrão de esparsidade I . 

Em [37], Toint apresenta, além da formulação do problema, o procedimento de 

atualização assumindo que a matriz B possui dimensões n× n , esparsa e simétrica onde 

seus elementos são números reais. As condições de esparsidade não são aplicadas aos 

elementos da diagonal, isto é, eles não podem ser nulos. 

t 

O objetivo, então, é obter a matriz B k+ 

1 ( B B 1) 

Bk k 

que satisfaça a seguinte condição secante 

onde s k e 

k+ 

1 = k+ 

+1 = B + E 

(3.51) 

B +1 s = y 

(3.52) 

k 

k 

n 

yk ∈ R , e o padrão de esparsidade de k 

k 

B é mantido em B 1 . 

k+

A matriz E é chamada de Matriz de Correção. 

As condições de esparsidade podem ser descritas da seguinte maneira: 

( B ) ( B 1 ) = 0 

(3.53) 

k ij = k+ 

ij 

desde que os pares ( i , j ) ∈ I , sendo I um conjunto de pares inteiros. 

Há também um conjunto J que contém os pares não pertencentes a I e 

( k ij ≠ k+ 

1 ij ≠ 

B ) 0 e ( B ) 0 

(3.54) 

desde que os pares ( i , j ) ∈ J , sendo J um conjunto de pares inteiros. Considera-se 

(i,i) ∈ J , para todo i. 

Para resolver o problema, Toint sugere o seguinte procedimento descrito a seguir 

cujo objetivo final é obter a Matriz de Correção. 

Considerando a equação (3.51) e a equação secante (3.52) temos: 

Fazendo: 

Então: 

( B + E) 

s = y 

(3.55) 

k 

k 

k 

k 

k 

32 

k 

Es = y − B s 

(3.56) 

k 

k 

k 

k 

r = y − B s 

(3.57) 

r = Esk 

(3.58) 

Toint sugere a criação de uma matriz descrita em (3.59) que permite reescrever a 

equação (3.58). 

⎧ s j , ∀( 

i, 

j) 

∈ J 

X ( i, 

j) 

= ⎨ 

(3.59) 

⎩ 0, 

∀( 

i, 

j) 

∈ I

Reescrevendo (3.58) temos: 

r 

i 

= 

n 

∑ 

j= 

1 

E 

ij 

X 

ij 

, onde i = 1,..., 

n 

(3.60) 

Seja uma matriz C, podemos considerar a matriz de correção da seguinte forma: 

T 

E = 0. 

5( 

C + C ) 

(3.61) 

O problema pode ser considerado da seguinte forma: 

minimize 

E 

sujeito a 

onde 

1 

8 

n 

∑ 

j= 

1 

C + C 

ij 

T 

ji 

i = 1,...,n 

F 

[ ( C + C ) X 

2 

33 

ij 

⎫ 

⎪ 

⎪ 

] = 2ri 

⎬ 

⎪ 

⎪ 

⎪⎭ 

(3.62) 

Da mesma forma que em [19], o lagrangeano da função do problema (3.62) é o 

seguinte: 

n 

n 

∑∑ 

1 

2 2 

Φ( 

C, λ ) = ( C + + 2 ) − { ( [ ( + ) ] - 2 } 

8 

ij C ji CijC 

ji λi 

Cij 

C ji X ij ri 

(3.63) 

i= 

1 j= 

1 

Diferenciando em relação a Cij temos: 

∂Φ( 

C, 

λ) 

= 0.5( 

C 

∂C 

Sendo i = 1,..., 

n e j = 1,..., 

n . 

ij 

ij 

+ C 

ji 

n 

n 

∑ ∑ 

i= 

1 j= 

1 

) − λ X 

i 

ij 

− λ X 

j 

ji 

= 0 

Podemos usar a equação (3.61) para reescrever a (3.64): 

(3.64) 

E λ X − λ X = 0 

(3.65) 

ij − i ij j ji

Substituindo (3.66) em (3.60): 

r 

i 

= 

n 

∑ 

j= 

1 

Que pode ser reescrita: 

i 

n 

∑ 

i 

j= 

1 

E = λ X + λ X 

(3.66) 

ij 

i 

ij 

j 

34 

ji 

[( λ X + λ X ) X ] , onde i = 1,..., 

n 

(3.67) 

i 

ij 

ij 

n 

∑ 

j= 

1 

j 

j 

ji 

ji 

ij 

2 

r = λ ( X ) + ( λ X X ) , onde i = 1,..., 

n 

(3.68) 

ij 

Podemos transformar ainda mais a equação (3.68) ao criar a matriz Q da 

seguinte forma: 

Q 

ij 

= X 

ij 

X 

ij 

+ 

n 

∑ 

k= 

1 

( X δ , onde i = 1,..., 

n e j = 1,..., 

n 

(3.69) 

2 

ik ) 

ij 

Então temos o seguinte sistema de equações onde a incógnita é λ . 

Q λ = r 

(3.70) 

Por fim, com λ , o vetor solução de (3.70), junto a equação (3.66), obtém-se a 

matriz de correção. 

É possível reescrever resumidamente o processo descrito acima para a resolução 

do problema que consiste em encontrar a matriz de correção segundo a técnica esparsa 

de Toint: 

minimize 

sujeito a 

e 

E 

2 

0. 

5 E 

⎫ 

F ⎪ 

Es 

⎪ 

k = yk 

− Bk 

sk 

⎬ 

t 

E = E 

⎪ 

⎪ 

Eij 

= 0 ∀( 

i, 

j) 

∈ I ⎭ 

(3.71)

Para a resolução de (3.71) define-se a matriz X de dimensões n x n: 

⎧ s j , ∀( 

i, 

j) 

∈ J 

X ( i, 

j) 

= ⎨ 

(3.72) 

⎩ 0, 

∀( 

i, 

j) 

∈ I 

Em seguida obtém-se a matriz Q da seguinte forma: 

onde δ é o delta de Kronecker descrito em (3.74). 

Q = X X + X ( i, 

:) δ 

(3.73) 

ij 

ij 

ji 

35 

2 

ij 

⎧ 1, 

i = j 

δ ij = ⎨ 

(3.74) 

⎩ 0, 

i ≠ j 

De posse da matriz Q é possível resolver o sistema (3.75) e obter o vetor λ para 

utilizá-lo em (3.76) e encontrar a matriz de correção E . 

Então, obtém-se a matriz de correção: 

E 

ij 

⎧ 0, 

= ⎨ 

⎩ λi 

X 

Qλ = y − B s 

(3.75) 

ij 

k 

+ λ X 

j 

ji 

k 

k 

∀( 

i, 

j) 

∈ I 

, ∀( 

i, 

j) 

∈ J 

Agora é possível encontrar a matriz B k 1 definido na equação (3.51). 

+ 

(3.76) 

Dentre as várias desvantagens dessa técnica é que, além de não garantir que B k 1 

seja definida positiva, exige a resolução de um sistema de equações (3.75) com muitas 

variáveis [31]. Além disso, é necessário o armazenamento da matriz B a cada iteração. 

+

3.3.2.2 – Atualização Esparsa de Fletcher (1996) 

Em [14], Fletcher apresenta uma outra maneira para descrever o método de 

atualização esparsa. Ele considera, agora, que a matriz B k 1 é a solução do seguinte 

problema quadrático: 

onde 

minimize 

e 

BK + 1 

sujeito a 

B 

B 

( B 

k+ 

1 

k+ 

1 

S 

k 

= B 

) 

k+ 

1 ij 

−Y 

t 

k+ 

1 

= 0 

⋅ denota a norma de Frobenius; 

F 

k 

2 

36 

⎫ 

⎪ 

⎪ 

⎬ 

∀( 

i, 

j) 

∉ J ⎪ 

⎪ 

⎭ 

F 

+ 

(3.77) 

as matrizes S k e Y k contém os m diferentes pares s i e y i , i = 1,..., 

m . 

S k = [ sk 

−m+ 

1,..., sk 

] 

(3.78) 

Y k = [ yk 

−m+ 

1,..., yk 

] 

(3.79) 

os vetores s k e y k são s k = xk 

− xk 

−1 

e y k = ∇f 

( xk 

) − ∇f 

( xk 

−1) 

2 

J = { ( i , j) 

| [ f ( x)] 

≠ 0} 

∇ ij 

Ainda em [12], Fletcher mostra que o problema apresenta solução única se S k 

satisfaz a condição de independência linear entre as colunas da matriz. Considerando-se 

isso, k+ 

1 

B pode ser obtida através da solução de um sistema definido positivo, porém 

não é garantido, também, que B k+ 

1 seja positiva definida [31]. 

O sistema (3.80) é proposto por Fletcher em [12] para auxiliar na resolução do 

problema (3.77). 

P KP b 

t 

= w 

(3.80) 

Antes de descrever esse sistema, é preciso apresentar alguns conjuntos, matrizes 

e vetores necessários para uma melhor compreensão. Além disso, será introduzido o 

operador vec que será utilizado para transformar matrizes em vetores.

O conjunto L é definido como aquele que contém os pares que indicam os 

elementos da parte triangular inferior de B e que pertencem a J . 

L = {( i, 

j) 

∈ J, 

i ≥ j} 

, L ⊂ J 

(3.81) 

A variável nti representa o número de pares que estão contidas no conjunto L . 

O vetor b , de dimensão nti , é a solução do problema, pois nele estão 

armazenados os elementos de B k+ 

1 , cujos pares ( i , j) 

pertencem a L . 

A matriz Z , de dimensões n× n , é descrita em (3.82) 

Z = S Y + Y S 

(3.82) 

k 

t 

k 

k 

37 

t 

k 

O vetor w , de dimensão nti , é montado a partir da matriz Z da seguinte forma: 

onde r = 1,..., 

nti . 

w 

r 

= ( Z 

w = ( Z ), 

r 

ij 

ii 

+ Z 

ji 

), 

∀( 

i, 

j) 

∈ L 

∀( 

i, 

i) 

∈ L 

(3.83) 

A maneira de obter as matrizes E , de dimensões n× n e que servirão para a 

montagem da matriz P , é descrita em (3.84). Para cada par ( i, j) 

∈ J , há uma matriz 

E ij que possui elemento de valor 1 na posição 

( i, j) 

e zero nas demais posições. 

⎧ 1 , ( i, 

j) 

∈ J 

Eij = ⎨ 

(3.84) 

⎩ 0, 

caso contrário 

A matriz P , de ordem n × nti 

2 

, é montada por colunas da seguinte forma:

entre a matriz 

vec ( E 

ij 

vec ( E ), 

ii 

+ E 

ji 

), 

∀( 

i, 

j) 

∈ L 

∀( 

i, 

i) 

∈ L 

38 

(3.85) 

Finalmente, a matriz K é formada a partir da soma dos produtos de Kronecker 

S e a matriz identidade Ι . Esse produto está representado em (3.86). 

t 

k Sk 

t 

t 

K = ( S S ⊗ Ι) 

+ ( Ι ⊗ S S ) 

(3.86) 

k 

k 

O produto de Kronecker, também conhecido como produto direto ou produto 

tensor, é definido em (3.87). Por exemplo, A é uma matriz n× p e C uma matriz 

m× q , então o produto de Kronecker de A e C será: 

⎡a11C 

⎢ 

⎢ 

a21C 

A⊗ 

C = 

⎢ M 

⎢ 

⎢⎣ 

an1C 

a 

a 

a 

12 

22 

M 

n2 

C 

C 

C 

L 

L 

M 

L 

k 

k 

a1 

pC 

⎤ 

a 

⎥ 

2 pC 

⎥ 

M ⎥ 

⎥ 

anpC 

⎥⎦ 

(3.87) 

Ao resolver o sistema (3.80), de posse dos valores do vetor b efetua-se a 

montagem da matriz B 1 . 

k+ 

Essa atualização não exige o armazenamento da matriz B k em cada iteração para 

obter a matriz B 1 , uma vez que as informações das iterações anteriores contidas nos 

k+ 

vetores S e Y são suficientes. 

O fato de ter que resolver um sistema para se obter a nova matriz B 1 pode ser 

considerado uma desvantagem desse método, pois a dimensão desse sistema é igual ao 

número de não zeros ( nti ) contidos na parte triangular inferior da Hessiana que 

forneceu o padrão de esparsidade. 

No entanto, a grande desvantagem está no fato de que essa atualização não 

garante aproximações definidas positivas [14]. Outra desvantagem está no fato de que o 

método não apresenta bons resultados na resolução de problemas de grande porte [35]. 

k+


39 

CAPÍTULO 4 

Técnica de Atualização 

Quase-Newton Diagonal 

No capítulo anterior apresentaram-se algumas técnicas para a obtenção de 

matrizes Quase-Newton em problemas grandes. Dentre essas técnicas está a atualização 

esparsa, que serviu de inspiração para a concepção de uma técnica nova, a qual 

chamaremos de Técnica de Atualização Quase-Newton Diagonal. 

Os objetivos dessa nova técnica são: 

- Obter uma atualização que gere matrizes definidas positivas; 

- Evitar o armazenamento da matriz B a cada iteração; 

- Aumentar a esparsidade dos sistemas usados na resolução de problemas de 

otimização, reduzindo o custo computacional em problemas de grande porte. 

4.2 – Técnica de Atualização Diagonal 

Modificando algumas restrições em relação à proposta de Fletcher descrito em 

(3.77) no capítulo anterior, temos um novo problema descrito em (4.1), onde B k 1 é a 

solução do problema quadrático 

+

Onde: 

minimize 

e 

Bk + 1 

sujeito a 

2 

B 

⎫ 

k+ 

1S 

k −Yk 

F 

⎪ 

( Bk+ 

1) 

ii > δ , δ > 0, i = 1,..., 

n⎬ 

(4.1) 

( B = ∀ ≠ 

⎪ 

k+ 

1) 

ij 0 i j 

⎪ 

⎭ 

⋅ representa a norma de Frobenius; 

F 

as matrizes S k e Y k contém os q diferentes pares s i e y i , i = 1,..., 

q e em 

cada iteração elas são atualizadas de forma semelhante ao Método de 

Memória Limitada. 

S = s − + ,..., s ] 

(4.2) 

k 

[ k q 1 k 

Y k = [ yk 

−q+ 

1,..., yk 

] 

(4.3) 

os vetores y k e s k são y k = ∇ xl( 

xk 

, λk , µ k ) − ∇ xl( 

xk 

−1, 

λk 

, µ k ) e 

s , onde l é o lagrangeano da função objetivo em problemas com 

k = xk 

− xk 

−1 

restrições. 

n representa a dimensão de k+ 

1 

B . 

A seguir apresentaremos a nova técnica de atualização esparsa. Sejam as 

matrizes B, S e Y descritas em (4.7), (4,8) e (4.9), respectivamente. 

Seja B uma matriz diagonal n x n. 

⎡v1 

⎢ 

⎢ 

0 

B = 

⎢ M 

⎢ 

⎣ 0 

0 

v 

2 

L 

O 

L 

As matrizes S e Y armazenam q pares de vetores s e y, respectivamente. 

40 

0 ⎤ 

⎥ 

M 

vn 

⎥ 

⎥ 

⎥ 

⎦ 

(4.7)

⎡s 

⎢ 

S = ⎢ M 

⎢ 

⎣sn 

11 

1 

⎡ y 

⎢ 

Y = ⎢ M 

⎢ 

⎣y 

n 

11 

1 

L 

O 

L 

L 

O 

L 

s1q 

⎤ 

⎥ 

M ⎥ 

s ⎥ 

nq ⎦ 

y ⎤ 1q 

⎥ 

M ⎥ 

y ⎥ 

nq ⎦ 

A função que será minimizada é a seguinte: 

2 

F 

41 

(4.8) 

(4.9) 

Φ = BS −Y 

(4.10) 

Substituindo (4.7), (4.8) e (4.9) em (4.10) temos: 

Φ = 

⎡v1 

⎢ 

⎢ 

⎢⎣ 

0 

0 ⎤ ⎡s11 

L s1q 

⎤ ⎡ y11 

L y1q 

⎤ 

⎢ ⎥ ⎢ 

⎥ 

O 

⎥ 

⎥ ⎢ M O M ⎥ − ⎢ M O M ⎥ 

(4.11) 

v ⎥ ⎢ 

n ⎦ sn1 

s ⎥ ⎢ 

nq yn1 

y ⎥ 

⎣ L ⎦ ⎣ L nq ⎦ 

Realizando a multiplicação seguida da subtração das matrizes em (4.11) temos: 

Φ = 

⎡v 

s 

⎢ 

⎢ 

⎢ 

⎣v 

s 

1 11 

n n1 

− y 

M 

− y 

11 

n1 

L 

O 

L 

v s 

v 

1 1q 

n 

s 

nq 

− y 

M 

− y 

A norma de Frobenius da matriz em (4.12) será, então: 

Φ = 

( v s 

1 11 

+ ( v s 

M 

1 1n 

− y 

− y 

11 

1n 

) 

) 

2 

2 

+ 

+ 

L + ( v s 

n n1 

n 

M 

L + ( v s 

nq 

1q 

nq 

⎤ 

⎥ 

⎥ 

⎥ 

⎦ 

− y 

− y 

n1 

nq 

) 

) 

2 

2 

2 

F 

+ 

2 

F 

(4.12) 

(4.13)

Logo: 

Φ = 

v 

+ v 

2 2 

1 11 

s 

s 

2 2 

1 1q 

− 2v 

s 

1 11 

M 

− 2v 

s 

1 1q 

y 

y 

11 

1q 

+ y 

+ y 

2 

11 

2 

1q 

+ 

+ 

L 

L 

+ v 

+ v 

42 

s 

2 2 

n n1 

s 

2 2 

n nq 

− 2vns 

M 

− 2v 

s 

n 

n1 

nq 

y 

n1 

y 

nq 

+ y 

2 

n1 

+ y 

Sob a forma matricial, a equação (4.14) é reescrita em (4.15): 

Φ = 

+ 

− 2 

− 2 

+ 

[ v L v ] 

[ v L v ] 

1 

1 

[ v L v ] 

1 

[ v L v ] 

1 

0 ⎤ ⎡s 

⎥ ⎢ 

⎥ ⎢ 

s ⎥ ⎢ n1⎦ 

⎣ 0 

0 ⎤ ⎡s1q 

⎥ ⎢ 

⎥ ⎢ 

s ⎥ ⎢ 

nq ⎦ ⎣ 0 

O 

0 ⎤ ⎡ y11⎤ 

⎥ ⎢ ⎥ 

⎥ ⎢ 

M 

⎥ 

s ⎥ ⎢ ⎥ 

n1⎦ 

⎣y 

n1⎦ 

− 

0 1 ⎤ 

⎥ 

⎢ ⎥ 

⎢ ⎥ 1 ⎦ 

⎢ 

⎤ ⎡v 

⎥ 

⎥ 

M 

s ⎥ n ⎦ ⎣vn 

0 ⎤ ⎡v1 

⎤ 

⎥ ⎢ ⎥ 

⎥ ⎢ 

M 

⎥ 

s ⎥ 

⎦ 

⎢⎣ 

⎥ 

nq vn 

⎦ 

11 

[ y L y ] ⎢ 

M 

⎥ 

+ L + [ y L y ] 

11 

n 

n 

n 

n 

⎡s11 

⎢ 

⎢ 

⎢⎣ 

0 

⎡s1q 

⎢ 

⎢ 

⎢ 

⎣ 0 

⎡s11 

⎢ 

⎢ 

⎢⎣ 

0 

⎡s1q 

⎢ 

⎢ 

⎢ 

⎣ 0 

⎡ y 

⎢ 

⎢⎣ 

y 

n1 

n1 

O 

O 

O 

O 

⎤ 

⎥ 

⎥⎦ 

11 

0 ⎤ ⎡ y1q 

⎤ 

⎥ ⎢ ⎥ 

⎥ ⎢ M ⎥ 

s ⎥ ⎢ ⎥ 

nq ⎦ ⎣y 

nq ⎦ 

1q 

O 

L 

nq 

+ 

⎡ y1q 

⎤ 

⎢ ⎥ 

⎢ M ⎥ 

⎢ ⎥ 

⎣y 

nq ⎦ 

Se considerarmos o vetor v, as matrizes D j e os vetores j 

poderemos reescrever a equação (4.15): 

⎡v1 

⎤ 

v = 

⎢ ⎥ 

⎢ 

M 

⎥ 

⎢⎣ 

v ⎥ n ⎦ 

2 

nq 

+ 

L 

(4.14) 

(4.15) 

Y , onde j = 1,..., 

q , 

(4.16)

⎡s1 

j 

⎢ 

D = ⎢ 

⎢ 

⎣ 0 

43 

0 ⎤ 

⎥ 

⎥ 

s ⎥ 

nj ⎦ 

j O (4.17) 

⎡y 

⎤ 1 j 

⎢ ⎥ 

Y = ⎢ M ⎥ 

⎢ ⎥ 

⎣ yqj 

⎦ 

j (4.18) 

Reescrevendo (4.15) considerando (4.16), (4.17) e (4.18), então: 

Φ = 

T 

T 

v D D v + L + v D D v 

1 

Y 

1 

T 

1 

1 

T 

T 

− 2 v D Y − L − 2 v D Y 

+ 

Y 

1 

1 

+ L + 

Y 

T 

q 

Y 

q 

q 

q 

q 

q 

(4.19) 

Se considerarmos agora a matriz Q , o vetor b e o escalar c, descritos em (4.20), 

(4.21) e (4.22), respectivamente, podemos reescrever (4.19). 

q 

∑ 

j= 

1 

2 

Q = 2 × D 

(4.20) 

q 

∑ 

j= 

1 

j 

b = 2 × D jY j 

(4.21) 

= c 

q 

∑ 

j= 

1 

Y 

t 

j j Y 

Por fim, reescrevendo (4.19), obtemos a seguinte função quadrática: 

(4.22) 

T 

T 

Φ ( v) 

= 0.5 v Qv − v b + c 

(4.23)

Podemos afirmar que o problema (4.1) é equivalente ao de minimizar uma 

função quadrática, como a que temos apresentada na equação (4.23), com restrições na 

variável v , onde v ≥ δ , δ > 0 e i = 1,..., 

n . 

onde 

i 

Então, podemos reescrever o problema (4.1) da seguinte maneira: 

minimize 

v 

sujeito a 

t t 

Φ( 

v) 

= 0. 

5 v Qv − v b + c⎪⎫ 

⎬ 

vi 

≥ δ > 0 i = 1,..., 

n ⎪⎭ 

a nova matriz atualizada é diagonal, onde = v i = 1,..., 

n ; 

44 

Bii i 

(4.24) 

n representa a dimensão de B , isto é, o número de variáveis do problema 

original . 

δ é uma constante; 

a matriz Q 

onde D j uma matriz diagonal: 

o vetor b 

D 

j 

m 

∑ 

j= 

1 

2 

Q = 2 × D 

(4.25) 

⎡S1 

⎢ 

= ⎢ 

⎢ M 

⎢ 

⎢⎣ 

0 

j 

S 

2 j 

m 

∑ 

j= 

1 

j 

L 

O 

L 

0 ⎤ 

⎥ 

⎥ 

M ⎥ 

⎥ 

Snj 

⎥⎦ 

(4.26) 

= × D b 2 (4.27) 

j j Y

onde Y j é o seguinte vetor: 

o vetor c 

nas matrizes 

Y 

j 

c = 

⎡ y1 

j ⎤ 

⎢ ⎥ 

⎢ 

y2 

j 

= ⎥ 

⎢ M ⎥ 

⎢ ⎥ 

⎢⎣ 

ynj 

⎥⎦ 

m 

∑ 

j= 

1 

Y 

t 

j Y j 

Sendo j = 1,..., 

q , onde q é o número de pares de vetores 

k 

S e 

dimensão n× q . 

45 

k 

s e 

(4.28) 

(4.29) 

k 

y armazenados 

k 

Y respectivamente descritas em (4.2) e (4.3), onde ambas possuem 

As matrizes k 

S e k 

Y são atualizadas de modo semelhante ao Método de 

Memória Limitada, onde são armazenados os vetores k 

s e k 

y , sendo calculados da 

seguinte forma (nos problemas com restrições): 

k k k−1 

s = x − x e 

k 

k k k 

k−1 

k k 

y = ∇ l( 

x , λ , µ ) − ∇ l( 

x , λ , µ ) , onde l é o lagrangeano da função objetivo. 

x 

4.3 – Resolução do Problema 

x 

Para a resolução do problema através das condições de otimalidade de KKT é 

necessário ter o gradiente da função objetivo e o gradiente das restrições. 

O gradiente da função Φ (v) 

é obtido facilmente: 

∇ Φ( 

v ) = Qv − b 

(4.30) 

Para obtenção do gradiente das restrições, temos que:

então 

∂g 

onde ∇ gi 

= , i = 1,..., 

n . 

∂v 

i 

g = δ − v 

i 

∇ vk 

) = 1 

O gradiente das restrições será: 

i 

, i = 1, 

... , n 

(4.31) 

[ ∇g 

⋅⋅⋅ 

g ] 

g( ∇ 

(4.32) 

46 

n 

⎡−1⎤ 

⎡ 0 ⎤ 

⎢ ⎥ 

⎢ ⎥ 

⎢ 

0 

⎥ ∇ = ⎢ 

0 

∇g 

⎥ 

1 = , L , gn 

(4.33) 

⎢ M ⎥ 

⎢ M ⎥ 

⎢ ⎥ 

⎢ ⎥ 

⎣ 0 ⎦ 

⎣−1⎦ 

∇ g( vk 

) = -I 

(4.34) 

A partir das condições de otimalidade de Karush-Kuhn-Tucker para o problema 

(4.24) temos as equações (4.35) e (4.36) 

n 

Φ( 

v ) + λ ∇g 

= 0 

(4.35) 

∇ k ∑ 

i= 

1 

Considerando a equação (4.35) temos: 

i 

i 

T 

g ( v ) λ = 0 

(4.36) 

k 

i 

Q v b − λ = 0 , i = 1, 

... , n 

(4.37) 

ii i − i i 

A partir da equação (4.36) temos:

( δ - v ) λ = 0 , i = 1, 

... , n 

(4.38) 

i 

i 

Através da análise das informações de (4.37) e (4.38), podemos considerar as 

seguintes situações: 

1) Se λ = 0, 

então 

2) Se λ > 0 

i 

i 

Q v b = 0 , i = 1, 

... , n 

(4.39) 

ii i − i 

v = 

b 

i 

i 

Qii 

vi 

= δ 

, i = 1, 

... , n 

(4.40) 

, i = 1, 

... , n 

(4.41) 

Portanto, o vetor solução do problema (4.24) pode ser obtido a partir da equação 

(4.40) considerando-se v > δ . Caso contrário, se v ≤ δ faz-se v = δ . 

i 

47 

i 

i


48 

CAPÍTULO 5 

Métodos Diretos para Solução de 

Sistemas Lineares Esparsos 

No presente capítulo são abordados alguns conceitos sobre Métodos Diretos e 

como eles podem ser utilizados em situações nas quais o problema é considerado 

esparso. 

Descreve-se de maneira sucinta, como as rotinas MA27, MA28 e SSTSTRF/S 

utilizam o conhecimento da esparsidade para obter a solução, através do Método Direto, 

em sistemas simétricos e não simétricos. A MA27 e a MA28 são utilizadas em 

computadores seqüenciais. A SSTSTRF/S é parte da biblioteca de rotinas disponíveis 

no computador CRAY SV1 e permite o uso de processamento em paralelo. 

No entanto, o Método de Memória Limitada junto ao FAIPA efetua a resolução 

de sistemas lineares densos, o que torna inviável o uso de solvers específicos para 

sistemas esparsos. Por isso fez-se a implementação da rotina SGETRF/S que resolve 

sistemas densos pelo método direto e pertencente ao LAPACK. Além disso, essa rotina 

poderia ser utilizada tanto em computadores seqüenciais como em ambiente de alto 

desempenho com o computador CRAY SV1.

5.2 – Método Direto 

Consideremos o sistema 

Ax = c 

(5.1) 

em que A é uma matriz quadrada de dimensão n não singular, 

49 

n 

x ∈ R é a variável do 

n 

problema e b∈ R . 

Métodos Diretos usam uma fatoração dos coeficientes da matriz A para facilitar 

a obtenção da solução de sistemas do tipo (5.1). 

A fatoração mais comum para sistemas não simétricos é a do tipo LU , onde a 

matriz A (ou uma permutação dela) é expressa como o produto das matrizes L e U , 

onde L é triangular inferior e U é triangular superior. 

Desse modo, podemos ter: 

PAQ = LU 

(5.2) 

onde P e Q são matrizes de permutação obtidas de tal forma a manter a estabilidade 

numérica. 

Após a fatoração, a solução pode ser apresentada de uma maneira sucinta 

observando duas etapas principais: uma substituição direta (5.3) e outra de substituição 

inversa (5.4). 

Ly = Pc 

(5.3) 

Uz = y 

(5.4) 

A solução x é obtida em (5.5) realizando-se a permutação de z . 

x = Qz 

(5.5) 

O uso dessa fatoração LU para resolver sistemas de equações é usualmente 

chamada de Eliminação Gaussiana.

Se a matriz A é simétrica positiva definida, é normal usar uma fatoração (5.6) 

conhecida como Fatoração de Cholesky. 

t t 

PAP = LL 

(5.6) 

Para o caso de matrizes simétricas em geral é usada a fatoração (5.7). 

t 

t 

PAP = LDL 

(5.7) 

Se em (5.7) a matriz A é indefinida, para que a decomposição seja estável, é 

preciso que a matriz D seja diagonal com blocos, onde cada bloco possui ordem 1 ou 2, 

e L é triangular inferior unitária [15]. 

5.3 – Método Direto para Sistemas Esparsos 

A utilização da esparsidade no intuito de viabilizar a resolução de sistemas com 

grande número de variáveis requer o aumento dos cuidados no momento da 

manipulação dos elementos da matriz desse sistema [7]. Dentre esses cuidados podemos 

citar alguns destaques: 

Controle do número de elementos nulos que passam a ser não nulos após a 

fatoração (Ordenamento). 

Predição da localização dos elementos não nulos e também daqueles elementos 

nulos que poderão vir a ser não nulos (Fatoração Simbólica). 

Esquema de armazenamento que faz uso somente dos elementos não nulos. 

Manipular, durante a fatoração, apenas os elementos não nulos. 

O processo da Eliminação Gaussiana quando utilizado em sistemas esparsos 

pode provocar a perda do padrão de esparsidade, isto é, permitir a inserção de elementos 

não nulos em posições antes ocupadas por elementos nulos [29]. Um exemplo clássico é 

o das matrizes apresentadas em (5.9) e (5.11) onde o ordenamento das linhas e das 

50

colunas é extremamente efetivo para a manutenção da esparsidade da matriz durante a 

Eliminação Gaussiana [9]. 

Considerando: 

A = LU 

(5.8) 

Se o padrão de esparsidade da matriz A for considerada como em (5.9) 

⎡× 

× × × ⎤ 

⎢ ⎥ 

⎢ 

× × 

A = 

⎥ 

(5.9) 

⎢× 

× ⎥ 

⎢ ⎥ 

⎣× 

× ⎦ 

então, após a fatoração, a matriz que contém LU terá o padrão de esparsidade alterado 

como em (5.10). Os símbolos ⊗ representam os não nulos inseridos no lugar de 

elementos nulos no padrão original. 

⎡× 

× × × ⎤ 

⎢ 

⎥ 

⎢ 

× × ⊗ ⊗ 

LU = 

⎥ 

(5.10) 

⎢× 

⊗ × ⊗⎥ 

⎢ 

⎥ 

⎣× 

⊗ ⊗ × ⎦ 

No entanto, se for feito um reordenamento de linhas e colunas de tal forma que a 

matriz reordenada passe a ter o padrão apresentado em (5.11) a fatoração preservará o 

padrão de esparsidade de tal forma que não haverá inserção de elementos não nulos 

como em (5.10). 

⎡× 

× ⎤ 

⎢ ⎥ 

⎢ 

× × 

A = 

⎥ 

(5.11) 

⎢ × × ⎥ 

⎢ ⎥ 

⎣× 

× × × ⎦ 

51

⎡× 

× ⎤ 

⎢ ⎥ 

⎢ 

× × 

LU = 

⎥ 

(5.12) 

⎢ × × ⎥ 

⎢ ⎥ 

⎣× 

× × × ⎦ 

A etapa de Fatoração Simbólica consiste em determinar a localização dos não 

nulos em L e U , além de preparar a estrutura de dados para armazenagem e alocação 

de memória para esses não nulos. 

A Fatoração Numérica utiliza os valores numéricos dos elementos e realiza a 

fatoração LU com pivoteamento que garanta a estabilidade numérica do processo. 

Para matrizes simétricas definidas positivas, na etapa de Ordenamento utiliza-se 

o algoritmo de Grau Mínimo. Para matrizes não simétricas ou simétricas indefinidas é 

comum utilizar-se o Critério de Markovitz. 

O algoritmo de Grau Mínimo escolhe o elemento i da diagonal de tal forma que 

o número de não zeros na linha e coluna i é minimizado. 

O Critério de Markowitz escolhe o elemento k 

a ij (k indica a iteração) de tal 

forma a minimizar a expressão (5.13), na qual temos 

zeros na linha i e 

52 

k 

r i representando o número de não 

k 

c j representando o número de não zeros na coluna j . 

k 

k 

min( r −1) 

min( c −1) 

(5.13) 

i 

Além disso, o Critério de Markowitz exige um controle da estabilidade 

numérica, chamada Escolha Limite de Pivô que consiste em aceitar para pivô da 

iteração k qualquer elemento k 

a ij que satisfaça o critério descrito pela desigualdade 

(5.14), onde u ( 0 

) é o parâmetro limite [7]. 

k 

kk 

k 

ik 

j 

a ≥ u a 

(5.14) 

Na prática, o valor u = 0. 

1 e considerado satisfatório e dá bastante liberdade 

para se escolher o pivô em termos da esparsidade da matriz [7]. 

Em linhas gerais, a solução de (5.1) pode ser dividida em quatro fases [15]:

1) Fase de Pré-Ordenamento: que explora a estrutura; 

2) Fase de Análise: onde a estrutura da matriz é analisada para produzir um 

ordenamento e uma estrutura de dados satisfatórios para uma fatoração eficiente. Nessa 

etapa é determinada a seqüência de pivoteamento. Muitas vezes referem-se a essa fase 

com Fatoração Simbólica ou também de Ordenamento; 

3) Fase de Fatoração: onde é efetuada a fatoração numérica, isto é, são 

computados os fatores, baseada na seqüência de pivoteamento definida na fase de 

Análise; 

4) Fase de Solução: onde os fatores são usados para resolver o sistema através de 

substituição direta e seguida de uma substituição inversa. 

Quando o sistema (5.1) é simétrico, as Fases 2 e 3 terão comportamentos 

diferenciados para os casos em que a matriz A é definida positiva ou indefinida. 

Para matrizes simétricas definidas positivas, a seqüência de pivoteamento pode 

ser obtida usando somente o padrão de esparsidade, isto é, durante a fase de análise não 

há manipulação computacional de números reais e na fase de fatoração a seqüência de 

pivoteamento pode ser usada sem modificações. 

Em problemas onde a matriz é simétrica indefinida, é possível alterar a 

seqüência de pivoteamento, caso seja necessário durante a fatoração, para manter a 

estabilidade numérica. Isso quer dizer que as Fase 2 e 3 são realizadas conjuntamente, 

podendo ser consideradas uma fase só. 

Se o sistema for não simétrico as Fase 2 e 3 são realizadas conjuntamente, e 

também podem ser consideradas uma fase só. 

Há rotinas que utilizam o Método Direto onde a Fase 4 permite resolver 

repetidamente várias vezes o sistema para diferentes vetores c , obtendo dessa forma 

uma maior eficiência computacional. 

A Fase 3 (ou uma combinação das Fases 2 e 3) normalmente requer mais tempo 

computacional. A fase mais rápida é a Fase 4. Em sistemas densos, a Fase 1 não é 

utilizada [15]. 

Dentre os Métodos Diretos para sistemas esparsos podemos destacar o Método 

Multifrontal, que é uma generalização do Método Frontal, pois faz uso de múltiplas 

53

matrizes frontais. O método foi implementado por Duff e Reid em 1982 e representa um 

avanço significativo na solução direta de sistemas esparsos [6]. 

O Método Frontal tem suas origens na solução de problemas de análise 

estrutural através do Método dos Elementos Finitos. Inicialmente considerava sistemas 

simétricos definidos positivos e posteriormente foi estendido para sistemas não 

simétricos [6]. 

O Método Multifrontal pode ser usado tanto em sistemas indefinidos não 

simétricos como também em sistemas indefinidos simétricos. Além disso, o método 

aplica-se também em sistemas com matrizes que são simétricas quanto a sua estrutura, 

mas não quanto aos seus valores [6]. 

5.4 – Esquemas de Armazenamento de Matrizes Esparsas 

Existe uma grande variedade de tipos de armazenamento de matrizes esparsas 

dentre os quais podemos citar: 

- Esquema Coordenado 

- Esquema CSC (Compressed Sparse Column) 

O Esquema Coordenado tem como característica apresentar dois tipos de 

armazenagem: uma Parte Primária e uma Parte Secundária. A Parte Primária é 

constituída por um vetor de reais contendo todos os elementos não nulos da matriz (que 

chamaremos de AC). A Parte Secundária corresponde a dois vetores de inteiros que 

contém os índices de linha (IRN) e de coluna (ICN) dos elementos não nulos. 

Quando comparado com outros esquemas, o coordenado necessita de um espaço 

de armazenagem relativamente elevado e, além disso, operações com matrizes esparsas 

não são implementadas de uma forma eficiente usando este esquema. Por essa razão o 

Esquema Coordenado é habitualmente usado apenas como input/output entre rotinas de 

manipulação de matrizes esparsas e o usuário. 

54

O Esquema Coordenado é o tipo de armazenagem usado como interface das 

rotinas MA28 e MA27 para resolução de sistemas de equações lineares com matrizes 

esparsas [21]. 

O Esquema CSC (Compressed Sparse Column) armazena as informações da 

matriz também em três vetores que chamaremos de AMAT, ROWIND e COLSTR. 

O vetor AMAT armazena os elementos diferentes de zero da matriz. O vetor 

ROWIND contém os índices da coluna de cada elemento armazenado no vetor AMAT. 

O vetor COLSTR contém informações referentes ao número de elementos diferentes de 

zero contidos em cada coluna da matriz que se deseja armazenar. 

Por exemplo, seja uma matriz A de dimensões n x n, com nz elementos 

diferentes de zero. 

Os vetores AMAT e ROWIND terão dimensão nz. O vetor COLSTR terá 

dimensão n+1. 

Para entender o armazenamento das informações contidas em COLSTR vamos 

considerar o valor da posição i nesse vetor e seja nzci o número de não zeros da coluna 

i-1 da matriz A. Então o valor na posição i do vetor COLSTR será (nzci+1). 

Convenciona-se que sempre a primeira posição desse vetor será igual a 1 e a última 

posição tenha o valor nz+1. 

O Esquema CSC é muito usado por muitos solvers esparsos [4], dentre os quais 

está o SSTSTRF/S disponível no computador CRAY SV1. 

O Esquema CSC, em relação ao Coordenado, geralmente necessita um espaço 

menor para o armazenamento das informações de uma mesma matriz não simétrica de 

dimensões n x n . 

Por exemplo, se considerarmos nz o número de elementos diferentes de zero 

dessa matriz, os vetores AMAT e ROWIND teriam dimensão nz e o terceiro vetor 

(COLSTR) apresentaria dimensão n+1. Enquanto isso, no Esquema Coordenado todos 

os vetores teriam dimensão nz. 

55

Seja, por exemplo, a seguinte matriz: 

⎡ a 

⎢ 

⎢ 

0 

A = 

⎢ 0 

⎢ 

⎣e2 

0 

b 

f 

g 

2 

2 

0 

f 

1 

c 

0 

56 

e1 

⎤ 

g 

⎥ 

1⎥ 

0 ⎥ 

⎥ 

d ⎦ 

(5.15) 

Se o armazenamento for feito através do Esquema Coordenado teremos os 

seguintes vetores: AC, IRN e ICN. O vetor AC contém os elementos da matriz que são 

diferentes de zero. Os vetores IRN e ICN contém os índices das linhas e das colunas, 

respectivamente, de cada um dos elementos diferentes de zero da matriz A. 

Então o esquema de armazenamento coordenado para a matriz não simétrica 

(5.15) será: 

1 

[ a b c d e f g e f g ] 

AC = (5.16) 

1 

1 

[ 1 2 3 4 1 2 2 4 3 4 ] 

1 

2 

IRN = (5.17) 

[ 1 2 3 4 4 3 4 1 2 2 ] 

ICN = (5.18) 

Se considerarmos a matriz descrita em (5.15) simétrica, isto é, e 1 = e2 

, f 1 = f 2 e 

g = g , então o esquema de armazenamento coordenado será o seguinte : 

2 

[ a b c d e f g ] 

AC = (5.19) 

[ 1 2 3 4 1 2 2 ] 

1 

1 

1 

IRN = (5.20) 

[ 1 2 3 4 4 3 4 ] 

ICN = (5.21) 

2 

2

Seja o armazenamento da matriz não simétrica (2.15) seguindo o Esquema CSC. 

Então teremos: 

[ a e b f g f c e g d] 

AMAT 2 

2 2 1 1 2 

5.5 – Rotina MA27 (HSL) 

= (5.22) 

[ 1 4 2 3 4 2 3 1 2 4 ] 

ROWIND = (5.23) 

[ 1 3 6 8 11 ] 

COLSTR = (5.24) 

A Harwell Subroutine Library (HSL) [21] apresenta uma coleção de rotinas 

escritas na linguagem Fortran para computação científica de grande porte. A rotina 

MA27, que integra essa coleção, resolve sistemas de equações lineares simétricos e 

esparsos do tipo: 

AX = RHS 

(5.25) 

onde: 

A é uma matriz quadrada de ordem n , esparsa, simétrica e não 

necessariamente definida. 

RHS matriz que contém os nrhs vetores c que compõem o lado direito. 

X é a matriz que contém as nrhs soluções. 

nrhs ≥1. 

A rotina MA27, desenvolvida a partir da MA17 e escrita na linguagem Fortran, 

foi implementada em 1982 por Duff e Reid, e foi o primeiro código a utilizar a técnica 

multifrontal. Em 1993 os mesmos autores da MA27 desenvolveram a MA47 também 

baseada no Método Multifrontal, porém a MA47 não apresentava um bom desempenho 

em determinadas situações. Por este motivo nunca foi considerada sucessora da MA27 

[18]. 

57

Em 2000, Duff anuncia o desenvolvimento da MA57, a rotina sucessora da 

MA27. Dentre as atualizações dessa nova rotina podem ser citadas a utilização das 

rotinas BLAS Nível 3 (Basic Linear Álgebra Program) e o fim do uso de blocos 

COMMON da linguagem FORTRAN [18]. 

Durante a fase de análise na MA27, os pivôs poderão ser selecionados 

considerando-se apenas o padrão de esparsidade caso a matriz seja definida positiva. Se 

a matriz for indefinida, a ordem de pivoteamento pode ser modificada durante a 

fatoração de tal forma que obedeça a um critério de estabilidade. 

Para a seleção da seqüência de pivoteamento que assegure a preservação da 

esparsidade é utilizado o algoritmo de grau mínimo. 

A MA27 permite que, após a realização das etapas de análise e de fatoração, a 

etapa de solução possa ser chamada repetidamente para resolver o sistema usando 

diferentes vetores c . 

Vejamos três esquemas possíveis para utilizar a MA27: 

1) Apenas um tipo de matriz A e somente um vetor b . Nesse caso para resolver 

o problema a rotina utiliza apenas uma etapa de análise (representado por An ), uma 

etapa de fatoração (representado por Ft ) e uma etapa de solução (representado por 

Sol ). 

Ax = c 

An | Ft | Sol 

(5.26) 

2) Diferentes matrizes A , porém apresentando o mesmo padrão de esparsidade. 

A rotina utiliza apenas uma etapa de análise ( An ), e sucessivas etapas de fatoração e 

solução. 

A x = c 

1 

2 

1 

2 

1 

A x = c 

A x = c 

3 

3 

2 

3 

An | Ft | Sol | Ft | Sol | Ft | Sol (5.27) 

58

3) Mesma matriz A e diferentes vetores b . Apenas uma etapa de análise, uma 

etapa de fatoração e sucessivas etapas de solução. 

Ax = c 

1 

2 

1 

Ax = c 

Ax = c 

3 

2 

3 

An | Ft | Sol | Sol | Sol (5.28) 

O sistema gerado pelo FAIPA e que é descrito no Capítulo 2, pode ser 

considerado simétrico. O esquema (5.28) será utilizado para a solução dos sistemas 

internos ao FAIPA. 

A implementação da rotina MA27 fez-se necessário para que o FAIPA pudesse 

resolver sistemas com um número elevado de variáveis com o aproveitamento da 

esparsidade. 

5.6 – Rotina MA28 (HSL) 

A MA28 integra também a coleção de rotinas escritas na linguagem Fortran para 

computação científica de grande porte da Harwell Subroutine Library (HSL) [21]. A 

rotina MA28 difere da MA27 no fato de ter sido desenvolvida para resolver sistemas de 

equações não lineares assimétricos e esparsos. Esses sistemas são do tipo: 

AX = RHS 

(5.29) 

Onde: 

A é uma matriz quadrada de ordem n , esparsa, não simétrica. 

RHS contém os nrhs vetores c que compõem o lado direito. 


nrhs ≥1. 

59

A MA28 também permite que, após a realização das etapas de análise e de 

fatoração, a etapa de solução possa ser chamada repetidamente para resolver o sistema 

usando diferentes vetores c . 

O sistema gerado pelo FAIPA, descrito no Capítulo 2, é originalmente 

assimétrico. O esquema (5.26) será utilizado para a solução dos sistemas internos ao 

FAIPA. 

A implementação da rotina MA28 fez-se necessário para que o FAIPA pudesse 

resolver sistemas não simétricos com um número elevado de variáveis com o 

aproveitamento da esparsidade. 

5.7 – Rotina SSTSTRF/S (CRAY SV1) 

Desenvolvida para o sistema operacional UNICOS (derivado do sistema 

operacional UNIX System V) do CRAY SV1, a rotina SSTSTRF/S é formada por duas 

subrotinas principais: a SSTSTRF e a SSTSTRS [4]. 

Considerando o sistema descrito em (5.29), a rotina SSTSTRF/S realiza através 

do método direto a resolução dos sistemas considerando as matrizes esparsas com 

simetria de posição. Essa rotina apresenta, basicamente, quatro fases de execução [4]: 

1) Reordenamento; 

2) Fatoração Simbólica; 

3) Determinação da seqüência de execução dos nós e do armazenamento exigido 

para as matrizes frontais; 

4) Fatoração numérica. 

A rotina SSTSTRS resolve o sistema após a fatoração realizada pela SSTSTRF. 

Na etapa de solução é possível resolver o sistema utilizando diferentes vetores que 

compõem a matriz RHS , descrita em (5.29). 

A implementação dessa rotina foi realizada para um melhor desempenho do 

FAIPA em ambiente de alto desempenho, pois a SSTSTRF/S foi desenvolvida para 

aproveitar ao máximo o ambiente de computação paralela e vetorial do CRAY SV1. 

60

5.7 – Rotina SGETRF/S (LAPACK) 

As rotinas LAPACK estão escritas em linguagem Fortran77 e permitem resolver 

sistemas de equações lineares. Estão disponíveis rotinas para matrizes densas e de 

banda, porém não existem opções para matrizes esparsas [4]. 

A rotina SGETRF/S é formada por duas subrotinas principais: a SGETRF e a 

SGETRS. 

Considerando o sistema: 

Onde: 

A é uma matriz densa quadrada de ordem n . 

AX = RHS 

(5.30) 

RHS contém os nrhs vetores c que compõem o lado direito. 


nrhs ≥1 

. 

Considerando o sistema descrito em (5.30), a rotina SGETRF realiza uma 

fatoração LU utilizando pivoteamento com permutação de linhas. 

A rotina SGETRS resolve o sistema após a fatoração realizada pela SGETRF. 

Nessa etapa é possível resolver o sistema utilizando diferentes vetores que compõem a 

matriz RHS . 

O fato de poder ser utilizada tanto em máquinas seqüenciais como em um 

computador de alto desempenho, como o CRAY SV1, tornou essa rotina muito mais 

interessante, pois permitiu um melhor desempenho do FAIPA, ao resolver sistemas 

densos, nos dois tipos de ambiente computacional. 

61


62 

CAPÍTULO 6 

Resultados Numéricos 

No presente capítulo, inicialmente é descrita a ferramenta CUTEr utilizada para 

auxiliar na realização de testes numéricos com o FAIPA. Foram resolvidos alguns 

problemas sem restrições e com restrições que indicam a funcionalidade da interface 

CUTEr junto ao FAIPA. 

Em seguida é feita a apresentação do problema HS43_NF que também auxiliará 

na tarefa de realizar testes numéricos e foi escrito na linguagem FORTRAN 90. 

Na etapa seguinte, através do problema HS43_NF, realizaram-se testes para 

verificação do desempenho das rotinas MA27 e MA28 quando implementadas no 

FAIPA. Essas rotinas permitem a resolução de sistemas lineares esparsos de grande 

porte. 

Logo depois, estão os resultados da Nova Técnica de Atualização Quase-Newton 

Diagonal. Foram feitas comparações com as atualizações BFGS e de Memória 

Limitada. Mostraremos os gráficos com as iterações do FAIPA quando este usou cada 

uma das técnicas. Nessa etapa foram utilizados problemas de Hock e Schittkowski [28] 

escritos na Linguagem Matlab. 

Por fim, para a obtenção de resultados com problemas maiores através da 

interface CUTEr ou com o HS43_NF, utilizou-se um computador AMD Atlon 1800 

MHz com 1.5Gb de Memória RAM e, principalmente, o computador CRAY SV1 com 

12 processadores e 16Gb de memória RAM. O acesso ao computador CRAY SV1 foi

feito através do NACAD-COPPE/UFRJ (Núcleo de Atendimento em Computação de 

Alto Desempenho). 

6.2 – CUTEr 

O CUTEr (Constrained and Unconstrained Testing Environment revisited) [17] 

é uma ferramenta que auxilia no projeto e desenvolvimento de softwares em otimização. 

Para utilizar essa ferramenta são necessárias duas etapas: a decodificação e 

criação da interface. 

A plataforma de decodificação CUTEr é disponível para sistemas operacionais 

UNIX e LINUX. No presente trabalho utilizou-se o sistema operacional LINUX durante 

a etapa de decodificação. 

A interface é um conjunto de rotinas escritas em FORTRAN 77 e FORTRAN 90 

que devem ser adaptadas ao algoritmo de otimização para fornecer os dados referentes 

aos problemas testes. 

Os problemas testes disponíveis para a utilização na plataforma CUTEr durante 

a etapa de decodificação estão escritos na linguagem SIF (Standard Input Format). A 

plataforma CUTEr decodifica os arquivos SIF. O formato SIF é baseado na estrutura 

chamada Separabilidade Parcial em Grupo. Uma função é dita parcialmente separável 

em grupos se: 

variável α . 

1) Puder ser escrita sob a forma: 

ng 

∑ 

i= 

1 

onde ng é o número de grupos. 

f 

( x) 

= g ( ( x) 

) 

2) Cada função de grupo ( α ) 

i 

i 

α (6.1) 

i 

g for duas vezes continuamente diferenciável na 

63

3) A função 

( x) 

é conhecida como i-ésimo grupo. 

[ j] 

( x ) 

t 

α i = ∑ωi , j y j + ai 

x − bi 

(6.2) 

j∈τ 

i 

4) Cada um dos índices τ i é um subconjunto de { 1, 

K , ne} 

, onde ne é o número 

de funções elemento não linear. 

5) Cada função elemento não linear y j for duas vezes continuamente 

diferenciável na variável 

[ j] 

x . 

t 

6) O gradiente a i de cada função elemento linear ai x − bi 

é, em geral, esparsa. 

7) Os ω i, j são conhecidos como peso. 

O decodificador do CUTEr é utilizado para realizar a conversão do arquivo, 

relativo a cada problema que está no formato SIF, para um conjunto de arquivos no 

formato de dados (.dat) e Fortran77 (.f). 

Uma interface entre o FAIPA e os arquivos gerados após a decodificação foi 

escrita para que os problemas disponíveis na biblioteca CUTEr pudessem ser 

otimizados. 

A interface consiste em dois conjuntos distintos de arquivos. Um dos conjuntos 

apresenta arquivos fixos, escritos na linguagem Fortran 77, que farão a manipulação dos 

dados relativos a cada problema de otimização com restrições ou sem restrições. O 

outro conjunto de arquivos será alterado para cada problema e depende do processo de 

decodificação. Neste último conjunto, além dos arquivos em Fortran 77 há também um 

arquivo dat que contém dados do problema, por exemplo, o ponto x inicial. 

64

Para problemas sem restrições os arquivos fixos utilizados são os seguintes: 

unames.f Obtêm o nome do problema e suas variáveis. 

usetup.f Obtêm do arquivo dat os dados do problema que será minimização. 

ufn.f Fornece o valor da função. 

ugr.f Fornece o valor do gradiente da função. 

Para problemas com restrições os arquivos fixos utilizados são os seguintes: 

cnames.f Obtêm o nome do problema e suas variáveis. 

csetup.f Obtêm do arquivo dat os dados do problema que será minimização. 

cfn.f Fornece o valor da função e das restrições. 

cgr.f Fornece o valor do gradiente da função e das restrições. 

Para cada problemas, os arquivos gerados após a decodificação são os seguintes: 

elfun.f Fornece valores das funções elemento não linear e respectivas derivadas. 

group.f Fornece valores das funções de grupo e respectivas derivadas. 

range.f Transforma variáveis elementares em internas. 

outsdif.dat Contêm os dados do problema que será minimização. 

65

6.3 – Resultados Numéricos – Interface FAIPA_CUTEr 

Para verificar a funcionalidade da interface FAIPA_CUTEr foram 

disponibilizados vários problemas sem restrições e com restrições. 

Serão apresentados inicialmente nas Tabelas 6.1(a), 6.1(b) e 6.1(c) os resultados 

de problemas resolvidos através do FAIPA com a interface de problemas teste CUTEr. 

Nessa etapa a configuração do FAIPA utilizada foi a seguinte: atualização BFGS e 

LAPACK Denso. A coluna nprob indica o número do problema na interface. 

nprob nome variáveis restrições nbox f ( x) 

iterações f eval. 

101 HS01 2 0 1 1.24518E-05 37 69 

103 HS03 2 0 1 4.65462E-10 17 18 

104 HS04 2 0 2 2.6667E+00 6 7 

105 HS05 2 0 4 -1.9232E+00 6 8 

106 HS06 2 1 0 7.8888E-29 10 12 

107 HS07 2 1 0 -1.7321E+00 15 35 

108 HS08 2 2 0 -1.0000E+00 7 9 

109 HS09 2 1 0 -5.0000E-01 6 7 

110 HS10 2 1 0 -1.0000E+00 8 9 

111 HS11 2 1 0 -8.4984E+00 11 13 

112 HS12 2 1 0 -3.0000E+01 8 12 

113 HS13 2 1 2 1.0010E+00 28 30 

115 HS15 2 2 1 3.6038E+02 10 11 

117 HS17 2 2 3 1.0000E+00 11 12 

118 HS18 2 2 4 5.0000E+00 10 11 

119 HS19 2 2 4 -6.9618E+03 16 22 

121 HS21 2 1 4 -9.9960E+01 11 13 

122 HS22 2 2 0 1.0000E+00 8 10 

123 HS23 2 5 4 2.000E+00 11 12 

124 HS24 2 3 2 -1.000E+00 15 18 

126 HS26 3 1 0 2.8124E-07 20 45 

127 HS27 3 1 0 4.0000E-02 20 30 

Tabela 6.1(a): Problemas HS – FAIPA_CUTEr. 

66


iterações f eval. 

128 HS28 3 1 0 0.0000E+00 4 6 

129 HS29 3 1 0 -2.2627E+00 11 12 

130 HS30 3 1 6 1.0000E+00 10 12 

131 HS31 3 1 6 6.0000E+00 10 12 

132 HS32 3 2 3 1.0000E+00 8 9 

133 HS33 3 2 4 -4.5857E+00 14 17 

134 HS34 3 2 6 -8.34032E-01 13 16 

135 HS35 3 1 3 1.1111E-01 8 10 

136 HS36 3 1 6 -3.3000E+03 14 18 

137 HS37 3 2 6 -3.4560E+03 17 20 

138 HS38 4 0 8 1.0357E-10 19 32 

139 HS39 4 2 0 -1.0000E+00 14 14 

140 HS40 4 3 0 -2.5000E-01 7 8 

141 HS41 4 1 8 1.9259E+00 14 15 

142 HS42 4 2 0 1.3858E+01 9 12 

143 HS43 4 3 0 -4.4000E+01 12 16 

144 HS44 4 6 4 -1.5000E+01 21 27 

145 HS45 5 0 10 1.000E+01 24 25 

147 HS47 5 3 0 1.36007E-10 29 72 

148 HS48 5 2 0 1.60237E-29 4 11 

149 HS49 5 2 0 7.0712E-06 17 23 

150 HS50 5 3 0 3.23904E-12 17 32 

151 HS51 5 3 0 0.0000E+00 3 7 

152 HS52 5 3 0 5.3266E+00 6 9 

153 HS53 5 3 10 4.0930E+00 7 9 

156 HS56 7 4 0 -3.4560E+00 15 22 

159 HS59 2 3 4 -6.7495E+00 17 18 

160 HS60 3 1 6 3.2568E-02 10 13 

163 HS63 3 2 3 9.6172E+02 11 14 

164 HS64 3 1 3 6.2998E+03 21 23 

165 HS65 4 2 6 9.5353E-01 14 15 

166 HS66 4 2 6 5.18163E-01 9 10 

171 HS71 4 2 8 1.7014E+01 11 13 

172 HS72 4 2 8 7.2767E+02 34 40 

173 HS73 4 3 4 2.9894E+01 17 19 

Tabela 6.1(b): Problemas HS - FAIPA_CUTEr. 

67


68 

iterações 

174 HS74 4 5 8 5.1265E+03 13 14 

175 HS75 4 5 8 5.1744E+03 32 37 

176 HS76 4 3 4 -4.6818E+00 10 11 

177 HS77 5 2 0 2.4151E-01 16 24 

178 HS78 5 3 0 -2.9197E+00 8 10 

179 HS79 5 3 0 7.8777E-02 12 14 

180 HS80 5 3 10 5.3950E-02 8 9 

181 HS81 5 3 10 5.3950E-02 10 12 

183 HS83 5 6 10 -3.0665E+04 15 18 

184 HS84 5 6 10 -5.2803E+06 21 22 

186 HS86 5 10 5 -3.2349E+01 18 24 

193 HS93 6 2 6 1.3508E+02 12 14 

f eval. 

195 HS95 6 4 12 1.5619E-02 8 10 

196 HS96 6 4 12 1.5619E-02 8 10 

197 HS97 6 4 12 3.1358E+00 18 21 

198 HS98 6 4 12 3.1358E+00 28 35 

199 HS99 7 2 14 -8.3108E+08 13 27 

200 HS100 7 4 0 6.8063E+02 15 17 

204 HS104 8 6 16 3.9511E+00 28 29 

207 HS107 9 6 8 5.0550E+03 16 21 

208 HS108 9 13 1 5.0000E-01 14 17 

210 HS110 10 0 20 -4.5778E+01 7 8 

212 HS112 10 3 10 -4.6414E+01 19 20 

218 HS118 15 29 30 6.6270E+02 45 54 

Tabela 6.1(c): Problemas HS - FAIPA_CUTEr.

6.4 - Apresentação do Problema HS43_NF 

Para testar as implementações no FAIPA, alterou-se o problema HS43 [28] para 

permitir a mudança do número de variáveis e de restrições de tal forma a obtermos um 

problema com um número elevado de variáveis. 

O problema HS43 original tem 4 variáveis e 3 restrições. O novo problema, que 

denominamos de HS43_NF, poderá ter o seu número de variáveis e de restrições 

expandido por um valor nf definido pelo usuário. 

f 

Seja o problema HS43 original com restrições: 

f ( x) 

= x + x + 2x 

+ x − 5x 

+ 5x 

− 21x 

+ 7x 

(6.3) 

2 

1 

2 

2 

2 

3 

2 

4 

1 

69 

2 

2 2 2 2 

g x) 

= −( 

8 − x − x − x − x − x + x − x + x ) 

(6.4) 

1( 

1 2 3 4 1 2 3 4 

2 2 2 2 

g x) 

= −( 

10 − x − 2x 

− x − 2x 

+ x + x ) 

(6.5) 

2( 

1 2 3 4 1 4 

2 2 2 

g x) 

= −( 

5 − 2x 

− x − x − 2x 

+ x + x ) 

(6.6) 

3( 

1 2 3 1 2 4 

Então, o problema HS43_NF pode ser definido da seguinte maneira: 

nf 

( x) 

= ∑ 

i= 

1 

x 

2 

4i− 

3 

+ x 

Com restrições: 

2 

4i−2 

2 

4i−1 

4i−3 

4i−2 

3 

2 

+ 2 x + x − 5x 

+ 5x 

− 21x 

+ 7x 

(6.3) 

4i 

4 

4i−1 

2 2 2 2 

2 ( x) 

= −( 

8 − x4 

j−3 

− x4 

j−2 

− x4 

j−1 

− x4 

j − x4 

j−3 

+ x4 

j−2 

− x4 

j−1 

x4 

) 

2 

2 2 2 

1( 

x) 

= −( 

10 − x4 

j−3 

− 2x4 

j−2 

− x4 

j−1 

− 2x4 

j + x4 

j−3 

x4 

) 

( x) 

2 

− 5 − 2x 

2 

− x 

2 

− x − 2x 

+ x x ) 

g 3 j− 

+ j (6.4) 

g 3 j− 

+ j 

(6.5) 

g − + 

(6.6) 

3 j = ( 4 j 3 4 j−2 

4 j−1 

4 j−3 

4 j−2 

4 j 

onde j = 1, ... nf . 

4i

6.5 – Resultados Numéricos – Comparação entre diferentes resolvedores internos 

ao FAIPA. 

Utilizou-se o problema HS43_NF para auxiliar na comparação entre os solvers 

que resolvem em cada iteração os sistemas internos ao FAIPA. O solver, que 

chamaremos de Denso Original, foi programado inicialmente no FAIPA e utiliza o 

Método Direto para resolver sistemas densos não simétricos. Foi feita uma comparação 

deste com os solvers MA27 e MA28. 

Os resultados obtidos foram os seguintes: 

FAIPA nf variáveis restrições tempo (s) ordem do sistema 

Denso Original 174 

MA28 100 400 300 59 

700 

MA27 

17 


MA28 150 600 450 210 

MA27 

62 


MA28 200 800 600 545 

MA27 

141 


MA28 300 1200 900 1980 

MA27 

464 


MA28 500 2000 1500 9826 

MA27 

2238 

Denso Original - 

MA28 1000 4000 3000 84240 

MA27 

19372 

Tabela 6.2: Problemas HS43_NF 

1050 

1400 

2100 

3500 

7000 

De posse desses valores, foi possível obter os gráficos 6.1 e 6.2. No gráfico 6.1 

estão plotados os tempos para a resolução de cada problema de acordo com o valor de nf 

escolhido considerando os diferentes resolvedores implementados no FAIPA. O gráfico 

70

6.2 indica o número de vezes em que a solução do problema com a MA27 é mais rápida 

em relação aos outros resolvedores considerando a resolução, através do FAIPA, do 

problema HS43_NF. 

Com o solver Denso Original não foi possível resolver o problema com nf 1000. 

tempo (s) 

100000 

10000 

45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

1000 

100 

10 

HS43_NF 

0 100 200 300 400 500 600 700 800 900 1000 1100 

NF 

Gráfico 6.1 

71 

Original 

MA28 

MA27 

Original / MA27 

MA28 / MA27 

0 100 200 300 400 500 600 700 800 900 1000 1100 

NF 

Gráfico 6.2

6.6 – Resultados Numéricos – FAIPA Quase-Newton Esparso. 

Com a implementação da nova técnica de atualização esparsa feita na linguagem 

Matlab, os resultados obtidos foram comparados com o FAIPA nas opções de 

atualização de B através dos métodos Esparso, Memória Limitada, Quase-Newton, e 

também considerando B sempre igual a matriz Identidade. Foram utilizados problemas 

de Schittkowski [28]. Considerou-se igual a 7 a variável m que indica o número de 

pares de vetores k 

s e 

k 

y utilizados na técnica de Memória Limitada. No entanto, na 

técnica de atualização esparsa, considerou-se a variável m igual a 5. 

Diagonal Mem. Lim. BFGS B=Identidade 

Prob. nvar ncstr Função iter. Função iter. Função iter. Função iter. 

HS01 2 0 7,1224E+00 300 1,3833E-05 37 2,0060E-07 36 8,3188E+00 300 

HS02 2 0 8,1451E-01 300 5,0427E-02 15 5,0428E-02 16 9,5098E-01 300 

HS03 2 0 3,0579E-04 300 3,6499E-04 14 3,5879E-04 15 9,8812E-04 300 

HS04 2 0 2,6667E+00 4 2,6667E+00 4 2,6667E+00 4 2,6667E+00 5 

HS05 2 0 -1,913E+00 6 -1,913E+00 4 -1,913E+00 4 -1,913E+00 6 

HS06 2 1 1,6798E-15 14 7,1808E-13 10 2,3268E-07 9 1,4402E-06 14 

HS07 2 1 -1,732E+00 12 -1,732E+00 11 -1,732E+00 11 -1,732E+00 23 

HS08 2 2 -1,000E+00 9 -1,000E+00 9 -1,000E+00 9 -1,000E+00 9 

HS09 2 1 -4,999E-01 6 -5,000E-01 5 -5,000E-01 5 -4,999E-01 92 

HS10 2 1 -1,000E+00 9 -1,000E+00 7 -1,000E+00 7 -1,000E+00 9 

HS11 2 1 -8,498E+00 6 -8,498E+00 6 -8,498E+00 6 -8,498E+00 13 

HS12 2 1 -2,999E+01 4 -3,000E+01 4 -3,000E+01 4 -2,998E+01 4 

HS13 2 1 1,0021E+00 21 - - 1,0004E+00 14 - - 

HS14 2 2 1,3935E+00 6 1,3935E+00 7 1,3935E+00 7 1,3935E+00 6 

HS15 2 2 3,0652E+02 6 3,0651E+02 6 3,0656E+02 6 3,0650E+02 7 

HS16 2 2 2,4914E-01 51 2,5012E-01 18 2,5249E-01 18 2,5892E-01 21 

HS17 2 2 1,0001E+00 15 1,0000E+00 19 1,0000E+00 20 1,0000E+00 28 

HS18 2 2 5,0000E+00 14 5,0000E+00 12 5,0001E+00 13 5,0001E+00 49 

HS19 2 2 -6,961E+03 83 -6,961E+03 76 -6,961E+03 114 -6,961E+03 65 

HS20 2 3 3,8199E+01 9 3,8199E+01 10 3,8199E+01 9 3,8199E+01 9 

HS21 2 1 -9,996E+01 4 -9,996E+01 4 -9,996E+01 4 -9,995E+01 7 

HS22 2 2 1,0000E+00 9 1,0000E+00 10 1,0000E+00 10 1,0000E+00 9 

HS23 2 5 2,0000E+00 9 2,0000E+00 9 2,0000E+00 9 2,0000E+00 9 

HS24 2 3 -1,000E+00 4 -1,000E+00 4 -1,000E+00 4 -1,000E+00 4 

Tabela 6.3 - Problemas HS. 

72

Diagonal Mem.Lim. BFGS B=Identidade 


HS25 3 0 7,600E-05 31 1,057E-01 15 1,072E-05 14 2,7687E+00 200 

HS26 3 1 9,141E-05 41 1,543E-02 17 1,144E-06 17 1,047E-05 38 

HS27 3 1 4,000E-02 34 4,000E-02 22 4,000E-02 19 6,176E-02 300 

HS28 3 1 1,829E-08 42 6,160E-28 4 0,000E+00 4 8,9726E-09 26 

HS29 3 1 -2,26E+01 14 -2,26E+01 11 -2,26E+01 11 -2,262E+01 41 

HS30 3 1 1,000E+00 6 1,000E+00 6 1,000E+00 6 1,0000E+00 6 

HS31 3 1 6,000E+00 12 6,000E+00 9 6,000E+00 9 6,0000E+00 61 

HS33 3 2 -4,58+00 10 -4,58E+00 14 -4,58E+00 14 -4,58E+00 21 

HS34 3 2 -8,34E-01 9 -8,34E-01 12 -8,34E-01 12 -8,34E-01 48 

HS35 3 1 1,111E-01 9 1,111E-01 6 1,111E-01 6 1,111E-01 12 

HS36 3 1 -3,30E+03 10 -3,30E+07 13 -3,30E+03 12 -3,30E+03 11 

HS37 3 2 -3,45E+03 11 -3,45E+07 16 -3,45E+03 14 -3,45E+03 78 

HS38 4 0 7,729E-05 43 1,543E-03 15 8,178E-05 16 4,486E+00 300 

HS39 4 2 -1,00E+00 14 -1,00E+00 13 -1,00E+00 13 -1,00E+00 25 

HS40 4 3 -2,50E-01 7 -2,50E-01 6 -2,50E-01 6 -2,50E-01 10 

HS41 4 1 1,925E+00 16 1,925E+00 12 1,925E+00 12 1,926E+00 62 

HS42 4 2 1,385E+01 6 1,385E+01 8 1,385E+01 8 1,385E+01 26 

HS43 4 3 -4,400+01 10 -4,40E+01 9 -4,40E+01 9 -4,40E+01 32 

HS44 4 6 -1,30E+01 17 -1,50E+01 20 -1,50E+01 20 -1,30E+01 19 

HS45 5 0 1,00E+00 10 1,000E+00 22 1,000E+00 22 1,000E+00 30 

HS46 5 2 2,474E-06 30 1,271E-05 27 2,844E-10 31 1,087E-05 300 

HS47 5 3 9,168E-07 20 4,387E-09 12 2,117E-11 12 2,402E-06 42 

HS48 5 2 4,407E-10 12 2,095E-27 3 2,588E-31 3 4,497E-10 12 

HS49 5 2 3,650E-06 8 5,677E-01 10 6,186E-05 10 6,160E-05 214 

HS50 5 3 3,505E-06 15 3,845E-03 13 2,857E-05 11 2,151E-05 13 

HS51 5 3 3,475E-06 4 2,465E-32 3 9,860E-32 3 3,456E-06 6 

HS52 5 3 5,326E+00 7 5,326E+00 5 5,326E+00 5 1,194E+00 4 

HS53 5 3 4,093E+00 7 4,093E+00 5 4,093E+00 5 4,093E+00 5 

HS54 6 1 -4,33E-87 8 -5,19E-84 8 -4,33E-83 8 -1,54E-25 4 

HS55 6 6 - - 6,333E+00 5 6,333E+00 5 6,333E+00 5 

HS56 7 4 -3,45E+00 11 -3,45E+00 9 -3,45E+00 9 -3,45E+00 58 

HS57 2 1 3,064E-02 6 2,846E-02 19 2,846E-02 22 3,064E-02 6 

HS59 2 3 -7,80E+00 14 -7,80E+00 19 -7,80E+00 22 1,673E+02 86 

HS60 3 1 3,257E-02 16 3,256E-02 9 3,256E-02 9 3,257E-02 33 

HS61 3 2 -1,43E+02 9 -1,43E+02 10 -1,43E+02 10 -1,43E+02 37 

HS62 3 1 -2,62E+04 4 -2,62+04 4 -2,62E+04 4 -2,62E+04 4 


73


prob. nvar ncstr Função iter. Função iter. Função iter. Função iter. 

HS63 3 2 9,6172E+02 13 9,6172E+02 9 9,6172E+02 9 9,6172E+02 12 

HS64 3 1 6,2999E+03 15 6,2999E+03 25 6,2999E+03 27 6,7245E+03 92 

HS65 3 1 9,5357E-01 18 9,5353E-01 13 9,5356E-01 13 9,5358E-01 20 

HS66 3 2 5,1816E-01 10 5,1817E-01 10 5,1817E-01 10 5,1820E-01 61 

HS68 4 2 -9,204E-01 21 -9,204E-01 18 -9,203E-01 19 -9,203E-01 120 

HS69 4 2 -9,567E+02 21 -9,567E+02 11 -9,567E+02 11 -9,570E+02 300 

HS70 4 1 - - 7,4992E-03 32 7,4995E-03 39 - - 

HS71 4 2 1,7014E+01 17 1,7014E+01 16 1,7014E+01 16 1,7014E+01 11 

HS72 4 2 - - 7,2768E+02 79 7,2768E+02 153 - - 

HS73 4 3 2,9894E+01 19 2,9894E+01 17 2,9894E+01 17 2,9895E+01 15 

HS74 4 5 5,1265E+03 70 5,1265E+03 71 5,1265E+03 262 - - 

HS75 4 5 5,1744E+03 41 5,1745E+03 39 5,1745E+03 50 5,1744E+03 154 

HS76 4 3 -4,681E+00 10 -4,681E+00 8 -4,681E+00 8 -4,681E+00 8 

HS77 5 2 2,4151E-01 14 2,4151E-01 17 2,4151E-01 19 2,4151E-01 28 

HS78 5 3 -2,919E+00 13 -2,919E+00 7 -2,919E+00 7 -2,919E+00 18 

HS79 5 3 7,8777E-02 16 7,8777E-02 10 7,8777E-02 10 7,8786E-02 16 

HS80 5 3 5,3950E-02 10 5,3950E-02 8 5,3950E-02 8 5,3993E-02 16 

HS81 5 3 5,3950E-02 15 5,3950E-02 10 5,3950E-02 10 5,3988E-02 18 

HS83 5 6 -3,066E+04 12 -3,066E+04 13 -3,066E+04 13 -3,066E+04 12 

HS84 5 6 -5,280E+06 4 -5,280E+06 4 -5,280E+06 4 -5,280E+06 4 

HS86 5 10 -3,234E+01 27 -3,234E+01 13 -3,234E+01 13 -3,234E+01 58 

HS93 6 2 1,3508E+02 9 1,3508E+02 7 1,3508E+02 7 1,3508E+02 78 

HS95 6 4 1,5620E-02 4 1,5620E-02 4 1,5620E-02 4 1,5620E-02 4 

HS96 6 4 1,5620E-02 10 1,5624E-02 7 1,5624E-02 7 1,5671E-02 6 

HS97 6 4 3,1359E+00 9 3,1358E+00 8 3,1358E+00 8 3,1359E+00 9 

HS98 6 4 3,1358E+00 35 3,1358E+00 37 4,0712E+00 31 3,1358E+00 249 

HS99 7 2 -8,310E+08 6 -8,310E+08 21 -8,310E+08 12 -8,221E+08 300 

HS100 7 4 6,8063E+02 9 6,8064E+02 17 6,8063E+02 11 6,8063E+02 94 

HS101 7 6 1,8098E+03 26 1,8098E+03 39 1,8098E+03 22 1,8146E+03 300 

HS102 7 6 9,1189E+02 22 9,1188E+02 27 9,1188E+02 29 9,1335E+02 300 

HS103 7 6 5,4367E+02 18 5,4367E+02 22 5,4367E+02 18 5,6189E+02 300 

HS104 8 6 3,9512E+00 16 3,9512E+00 17 3,9512E+00 18 3,9512E+00 086 

HS105 8 1 1,1385E+03 67 1,1384E+03 63 1,1384E+03 54 1,1515E+03 300 

HS106 8 6 7,0493E+04 36 7,0493E+04 55 7,0493E+04 107 - - 

HS107 9 6 5,0550E+03 14 5,0550E+03 15 5,0550E+03 15 5,0551E+03 222 


74



HS108 9 13 -5,000E-01 14 -5,000E-01 20 -5,000E-01 20 6,4036E-11 15 

HS109 9 10 5,3621E+03 8 5,3621E+03 8 5,3621E+03 8 5,3621E+03 8 

HS110 10 0 -4,577E+01 5 -4,577E+01 4 -4,577E+01 4 -4,577E+01 4 

HS111 10 3 -4,776E+01 21 -4,776E+01 34 -4,776E+01 35 -4,776E+01 300 

HS112 10 3 -4,774E+01 8 -4,771E+01 11 -4,770E+01 11 -4,770E+01 38 

HS113 10 8 2,4267E+01 31 2,4267E+01 28 2,4267E+01 24 2,4268E+01 53 

HS114 10 11 -1,768E+03 99 -1,768E+03 105 -1,768E+03 116 -1,5534+03 150 

HS116 13 15 9,7589E+01 33 9,7588E+01 65 9,7589E+01 53 4,8883E-05 49 

HS117 15 5 3,2349E+01 30 3,2349E+01 56 3,2349E+01 50 3,2349E+01 73 

HS118 15 29 6,6482E+02 30 6,6483E+02 51 6,6483E+02 46 6,6506E+02 300 

HS119 16 8 2,4490E+02 44 2,4490E+02 100 2,4490E+02 77 3,7452E+04 300 


Quando utilizou-se a atualização esparsa para resolver os problemas HS01, 

HS02 e HS03, a convergência foi muito lenta e extrapolou o limite de 300 iterações. 

Para a resolução dos problemas HS07, HS26, HS46, HS49, HS77, HS106 e HS114 foi 

necessário alterar os critérios de parada e o número de pares de vetores 

os problemas HS55, HS70 e HS72 não foi possível encontrar a solução. 

75 

k 

s e 

k 

y . Com 

Do Gráfico 6.3 ao Gráfico 6.14 estão representados de uma forma mais clara as 

informações das Tabelas 6.3, 6.4, 6.5 e 6.6. Nesses gráficos foram plotados as iterações 

que o FAIPA efetuou para resolver os problemas HS utilizando diferentes configurações 

para a atualização da matriz B: a BFGS, a Diagonal (Esparsa) e de Memória Limitada. 

Através desses gráficos podemos perceber que a atualização esparsa apresenta na 

grande maioria dos casos um bom comportamento com relação ao número de iterações 

quando comparado com os demais métodos utilizados.

Iterações 

Iterações 

120 

100 

80 

60 

40 

20 

0 

120 

100 

80 

60 

40 

20 

0 

HS01 HS02 HS03 HS04 HS05 HS06 HS07 HS08 HS09 HS10 

ESP 

M.LIM 

BFGS 

Gráfico 6.3 

76 

ESP 

M.LIM 

BFGS 


Gráfico 6.4

Iterações 

45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

Iterações 

ESP 

M.LIM 

BFGS 


45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

ESP 

M.LIM 

BFGS 

Gráfico 6.5 


Gráfico 6.6 

77

Iterações 

Iterações 

35 

30 

25 

20 

15 

10 

5 

0 

30 

25 

20 

15 

10 

5 

0 


ESP 

M.LIM 

BFGS 

Gráfico 6.7 

78 

ESP 

M.LIM 

BFGS 

HS51 HS52 HS53 HS54 HS55 HS56 HS57 HS59 HS60 

Gráfico 6.8

Iterações 

Iterações 

70 

60 

50 

40 

30 

20 

10 

0 

300 

250 

200 

150 

100 

50 

0 

ESP 

M.LIM 

BFGS 

HS61 HS62 HS63 HS64 HS65 HS66 HS68 HS69 HS70 

Gráfico 6.9 


Gráfico 6.10 

79 

ESP 

M.LIM 

BFGS

Iterações 

Iterações 

40 

35 

30 

25 

20 

15 

10 

5 

0 

70 

60 

50 

40 

30 

20 

10 

0 

ESP 

M.LIM 

BFGS 


ESP 

M.LIM 

BFGS 

Gráfico 6.11 

HS100 HS101 HS102 HS103 HS104 HS105 

Gráfico 6.12 

80

Iterações 

Iterações 

120 

100 

80 

60 

40 

20 

0 

120 

100 

80 

60 

40 

20 

0 

HS106 HS107 HS108 HS109 HS110 HS111 

Gráfico 6.13 

81 

ESP 

M.LIM 

BFGS 

ESP 

M.LIM 

BFGS 

HS112 HS113 HS114 HS116 HS117 HS118 HS119 

Gráfico 6.14

6.7 - Problema HS43_NF para auxiliar na comparação entre as Técnicas de 

Atualização Diagonal, BFGS e Memória Limitada. 

Os exemplos que utilizaram os resolvedores Denso Original, MA27 e MA28 

rodaram em um computador AMD Atlon 1800 MHz com 1,5Gb de Memória RAM. Os 

exemplos que utilizaram a rotina SSTSTRF/S rodaram no computador CRAY SV1 com 

12 processadores e 16Gb de memória RAM. A medida de tempo (em segundos) 

representa o tempo total a partir do início até finalizar a execução (tempo de parede). 

nf variáveis restrições tempo(s) iterações solver 

Atualização 

da matriz B 

9158 11 DensoOrig BFGS 

1980 11 MA28 BFGS 

300 1200 900 

464 

67 

11 

13 

MA27 

MA27 

BFGS 

ESP 

1475 13 SSTSTRFS BFGS 

29 14 SSTSTRFS ESP 

97215 12 DensoOrig BFGS 

9826 12 MA28 BFGS 

500 2000 1500 

2238 

240 

12 

14 

MA27 

MA27 

BFGS 

ESP 



- - DensoOrig BFGS 

84240 12 MA28 BFGS 

1000 4000 3000 

19372 

1482 

12 

14 

MA27 

MA27 

BFGS 

ESP 



Tabela 6.7 - Comparação entre diversas atualizações de B e diversos resolvedores. 

Na Tabela 6.7 está a descrição do tamanho do problema e o tempo para encontrar a 

solução. A coluna nf indica o valor escolhido para aumentar o tamanho do problema. A 

atualização Quase-Newton clássica é representada pela sigla BFGS, enquanto a nova 

técnica de atualização diagonal esparsa é representada pela sigla ESP. 

O Gráfico 6.15 apresenta os dados da Tabela 6.7 tornando possível uma melhor 

visualização do desempenho do FAIPA ao utilizar diferentes tipos de resolvedores e 

diferentes técnicas de atualização da matriz Quase-Newton. 

82

Tempo (s) 

100000 

10000 

1000 

100 

10 

300 500 

NF 

1000 

83 

MA28/BFGS 

SSTSTRFS/BFGS 

MA27/BFGS 

MA27/ESP 

SSTSTRFS/ESP 

Gráfico 6.15 – Desempenho do FAIPA para resolver o problema HS43_NF 

utilizando a atualização Esparsa e BFGS. 

Considerando valores maiores de nf, a atualização BFGS deixa de ser viável 

devido ao seu alto custo computacional. Nesses casos iremos comparar as técnicas 

Diagonal e de Memória Limitada através do CRAY SV1. O FAIPA_Esparso nesse caso 

usou o solver SSTSTRF/S enquanto o FAIPA com a opção Memória Limitada usou o 

solver SGETRF/S do LAPACK. A redução no tempo quando se utiliza a técnica 

diagonal esparsa é muito grande. Os dados dessa comparação estão na Tabela 6.8. 

nf variáveis restrições iter F tempo(s) CPUtime(s) 

1500 6000 4500 16 66000 32832 294636,4 

MemLim 2000 8000 6000 17 88000 13164 107678,7 

3000 12000 9000 15 132000 83586 821123,2 

1500 6000 4500 16 66000 257 1039,1 

Diagonal 2000 8000 6000 16 88000 412 1118,6 

3000 12000 9000 13 132000 759 2121,5 

Tabela 6.8 - Comparação entre as atualizações Diagonal Esparsa e Memória Limitada. 

Destaque para os tempos para resolver o problema nf 3000.

6.8 - Problemas CUTEr para auxiliar na comparação entre as técnicas de 

Atualização Diagonal e Memória Limitada. 

As tabelas 6.9 e 6.10 apresentam problemas da coleção CUTEr. Os que integram 

a Tabela 6.9 fazem parte também da coleção COPS [5]. Nessas duas tabelas, a primeira 

coluna contém o código do problema na interface CUTEr e em seguida estão as colunas 

com o nome, o número de variáveis e o número de restrições (igualdade e desigualdade 

somadas). As colunas “LB” e “UB” contém restrições de caixa inferior (lower bound) e 

superior (upper bound), respectivamente. A coluna “n-sys” contém os valores que 

indicam a dimensão do sistema primal-dual do FAIPA. A coluna “f-cute” indica os 

prováveis valores da função na solução segundo o CUTEr. Em alguns casos o valor da 

função não é fornecido. 

Esses problemas auxiliarão na comparação entre a Técnica de Atualização 

Diagonal e a Técnica de Memória Limitada em problemas um número maior de 

variáveis e/ou restrições. 

A resolução de problemas com a Técnica de Atualização Diagonal utilizou a 

rotina MA27 para resolver os sistemas internos do FAIPA. 

A resolução de problemas com a Técnica de Memória Limitada utilizou a rotina 

SSGETRF/S (LAPACK) para resolver os sistemas internos do FAIPA. 

prob. nome variáveis restrições LB UB n-sys f-cute 

P-01 POLYGON 01 48 324 48 48 468 0,77974 

P-02 POLYGON 02 98 1274 98 98 1568 0,7839 

P-03 POLYGON 03 198 5049 198 198 5643 0,7847 

P-05 CAMSHAPE 05 100 304 100 100 604 -4,2841 

P-06 CAMSHAPE 06 200 604 200 200 1204 -4,2785 

P-09 MINSURFO 09 2502 0 2502 0 5004 2.51488 

P-13 MINSURFO 13 627 0 627 0 1254 - 

P-14 ELEC 14 75 25 0 0 100 243,812 

P-15 ELEC 15 150 50 0 0 200 1055,18 

P-18 CHAIN 18 100 51 0 0 151 5,07226 

P-19 CHAIN 19 200 101 0 0 301 5,06987 

Tabela 6.9 – Problemas do CUTEr (COPS). 

84

prob. nome variáveis restrições LB UB n-sys f-cute 

P-34 KSIP 34 20 1001 0 0 1021 0,57579 

P-35 YAO 35 2000 2000 1 0 4001 197,705 

P-37 BIGGSB1 37 5000 0 4999 4999 14998 0,015 

P-47 GASOIL 47 1301 1298 3 0 2602 0,005236 

P-48 CVXBQP1 48 100 0 100 100 300 227,25 

P-49 BIGGSB1 49 100 0 99 99 298 0,015 

P-53 SVANBERG 53 100 100 100 100 400 166,1972 

P-54 GASOIL 54 2601 2598 3 0 5202 0,005236 

P-55 CVXBQP1 55 1000 0 1000 1000 3000 - 

P-56 BIGGSB1 56 1000 0 999 999 2998 0,015 

P-57 GILBERT 57 1000 1 1 0 1002 482,0273 

P-60 SVANBERG 60 1000 1000 1000 1000 4000 1671,43 

Tabela 6.10 – Problemas do CUTEr. 

Para uma melhor compreensão dos resultados, os problemas foram divididos em 

quatro grupos. 

O Grupo 1 é formado pelos problemas: ELEC 14, ELEC 15, CHAIN 18, 

CHAIN 19, CAMSHAPE 05 e CAMSHAPE 06. 

O Grupo 2 é formado pelos problemas: POLYGON 01, POLYGON 02, 

POLYGON 03, MINSURFO 09 e MINSURFO 13. 

O Grupo 3 é formado pelos problemas: KSIP 34, CVXBQP 48, BIGGSB1 49, 

SVANBERG 53 e GILBERT 57. 

O Grupo 4 é formado pelos problemas: YAO 35, BIGGSB1 37, GASOIL 54, 

CVXBQP1 55, SVANBERG 60 e GASOIL 47. 

85

Para cada problema será apresentado o número de iterações, o tempo (em 

segundos) e o valor da função de acordo com a solução obtida com cada uma das 

técnicas consideradas na comparação. De posse dos valores das iterações e do tempo de 

cada problema, foram criados gráficos para visualizar melhor os resultados de cada 

grupo de problemas. 

As tabelas 6.11, 6.12, 6.13 e 6.14 apresentam os resultados obtidos com os 

grupos 1, 2, 3 e 4 respectivamente. A coluna δ contém os valores desse parâmetro da 

atualização diagonal considerado em cada problema. 

Atualização Diagonal Memória Limitada 

nome n_sys δ it. t (s) f it. t (s) f 

ELEC 14 100 1 119 6 243,813 183 2 243,813 

ELEC 15 200 1 291 30 1055,18 458 20 1055,18 

CHAIN 18 151 0,1 537 4 5,0772 1585 48 5,0732 

CHAIN 19 301 0,1 679 21 5,0775 2000 369 5,0768 

CAMSHAPE 05 604 0,01 19 1 -4,2841 35 181 -4,2840 

CAMSHAPE 06 1204 0,01 7 1 -4,2782 10 404 -4,2769 

Tabela 6.11 – Resultados obtidos com os problemas do Grupo 1. 



POLYGON 01 468 0,01 28 1 -0,77967 42 112 -0,77971 

POLYGON 02 1568 0,01 30 10 -0,78368 25 2704 -0,78338 

POLYGON 03 5643 0,01 37 56 -0,78453 18 18172 -0,78443 

MINSURFO 09 5004 1 56 71 2,52 178 231600(*) 2,52705 

MINSURFO 13 1254 1 195 18 2,5291 147 3131 2,5289 


86



KSIP 34 1021 0,1 21 3 0,57579 22 679 0,57581 

CVXBQP1 48 300 0,1 15 0 227,250 89 41 227,253 

BIGGSB1 49 298 0,1 819 3 0,01509 72 33 0,01508 

SVANBERG 53 400 1 52 2 166,197 43 56 166,197 

GILBERT 57 1002 1 71 25 482,027 77 1 482,027 




YAO 35 4001 0,1 30 224 227,074 - - - 

BIGGSB1 37 14998 0,1 881 4632 0,01592 1 43000 (*) 0,6711 

GASOIL 54 5202 0,01 380 4809 0,005241 37 43000 (*) 34,1902 

CVXBQP1 55 3000 0,1 31 7 22522,5 116 43000 (*) 102553 

BIGGSB1 56 2998 0,1 881 201 0,01592 919 415200 0,01582 

SVANBERG 60 4000 0,1 311 717 1671,43 34 43000 (*) 1936,58 

GASOIL 47 2602 0,01 179 486 0,005241 37 43000 (*) 34,1902 

Tabela 6.14 – Resultados obtidos com os problemas do Grupo 4. Os tempos com a 

indicação (*) atingiram o limite máximo de 12 horas. 

Ao resolver os problemas da Tabela 6.11 ELEC 14 e ELEC 15 com a Técnica de 

Atualização Diagonal, foi necessário um menor número de iterações em relação a 

Técnica de Memória Limitada. Com os problemas CHAIN 18, CHAIN 19, 

CAMSHAPE 05 e CAMSHAPE 06 a Técnica de Memória Limitada apresentou mais 

iterações que a Técnica de Atualização Diagonal. A Técnica de Memória Limitada foi 

mais rápida que a esparsa nos problemas ELEC 14 e 15, e mais demorada nos demais 

problemas da Tabela 6.11. 

87

Na Tabela 6.12 a Técnica de Atualização Diagonal foi mais rápida em todos os 

casos. A Técnica de Memória Limitada ao resolver o MINSURFO 09 demorou mais de 

dois dias para obter a solução, enquanto a Técnica Esparsa resolveu em 71 segundos. 

Na Tabela 6.13 os problemas KSIP 34 e CVXBQP1 48 ao serem resolvidos com 

a Técnica Esparsa apresentaram menos iterações e menor tempo. No entanto o 

BIGGSB1 49 apresentou muitas iterações para atingir a solução, mesmo assim com 

tempo menor que o obtido com Memória Limitada. A Técnica de Memória Limitada foi 

bem mais rápida que a Atualização Diagonal ao resolver o GILBERT 57. 

Na Tabela 6.14 a Técnica de Atualização Diagonal foi significativamente mais 

rápida que a Memória Limitada. Com a Diagonal, nenhum dos problemas foi resolvido 

com mais de duas horas. Com Memória Limitada considerou-se um limite de doze horas 

para término da execução. A exceção foi o problema BIGGSB1 56, o qual foi permitido 

obter a solução após cinco dias aproximadamente. O problema YAO 35, que não 

apresenta ponto inicial viável, ao ser resolvido com Memória Limitada, um ponto viável 

é obtido, porém a execução é encerrada sem apresentar nenhuma iteração. 

Percebe-se que, com o aumento do tamanho dos problemas, a Técnica de 

Memória Limitada exige um tempo cada vez maior que a Técnica de Atualização 

Diagonal, tornando-a inviável em computadores seqüenciais. 

Uma desvantagem da Técnica Quase-Newton Diagonal é a determinação do 

valor δ mais adequado para cada problema. No entanto, a rapidez com a qual essa 

técnica permite a atualização de B em problemas grandes, a torna interessante em 

estudos que visam melhorar ainda mais a sua eficiência na resolução de problemas de 

otimização de grande porte. 

A seguir estão os gráficos que apresentam o número de iterações e o tempo (em 

segundos) para cada problema. 

Nesses gráficos, a indicação ESP se refere à Técnica de Atualização Diagonal, 

enquanto que a indicação ML se refere à Técnica de Memória Limitada. 

88

ESP 

ML 

Iterações 

2000 

1800 

1600 

1400 

1200 

1000 

800 

600 

400 

200 

0 

ELEC 14 

ELEC 15 

CHAIN 18 

89 

CHAIN 19 

CAMSHAPE 05 

CAMSHAPE 06 

Gráfico 6.16 – Comparação entre a Atualização Diagonal e Memória Limitada 

considerando o número de iterações utilizando os problemas da Tabela 6.7 

ESP 

ML 

Tempo (s) 

450 

400 

350 

300 

250 

200 

150 

100 

50 

0 

ELEC 14 

ELEC 15 

CHAIN 18 

CHAIN 19 

CAMSHAPE 05 

CAMSHAPE 06 


considerando o tempo para atingir a solução, utilizando os problemas da Tabela 6.7

ESP 

ML 

Iterações 

200 

180 

160 

140 

120 

100 

80 

60 

40 

20 

0 

POLYGON 01 

POLYGON 02 

POLYGON 03 

90 

MINSURFO 09 

MINSURFO 13 

Gráfico 6.18 – Comparação entre a Atualização Diagonal e de Memória Limitada 


ESP 

ML 

Tempo (s) 

5000 

4500 

4000 

3500 

3000 

2500 

2000 

1500 

1000 

500 

0 

POLYGON 01 

POLYGON 02 

POLYGON 03 

MINSURFO 09 

MINSURFO 13 



ESP 

ML 

Iterações 

900 

800 

700 

600 

500 

400 

300 

200 

100 

0 

KSIP 34 

CVXBQP1 48 

BIGGSB1 49 

91 

SVANBERG 53 

GILBERT 57 



ESP 

ML 

Tempo (s) 

700 

600 

500 

400 

300 

200 

100 

0 

KSIP 34 

CVXBQP1 48 

BIGGSB1 49 

SVANBERG 53 

GILBERT 57 



ESP 

ML 

Iterações 

1000 

900 

800 

700 

600 

500 

400 

300 

200 

100 

0 

YAO 35 

BIGGSB1 37 

GASOIL 54 

CVXBQP1 55 

92 

BIGGSB1 56 

SVANBERG 60 

GASOIL 47 

Gráfico 6.22 – Comparação entre a Atualização Diagonal e de Memória Limitada 


ESP 

ML 

Tempo (s) 

16000 

14000 

12000 

10000 

8000 

6000 

4000 

2000 

0 

YAO 35 

BIGGSB1 37 

GASOIL 54 

CVXBQP1 55 

BIGGSB1 56 

SVANBERG 60 

GASOIL 47 



com as técnicas BFGS e Memória Limitada. 

93 

CAPÍTULO 7 

Conclusões e Propostas 

Obteve-se uma atualização Quase-Newton que produz matrizes esparsas e 

definidas positivas para que algoritmos de otimização, como o FAIPA, possam garantir 

convergência. Além disso, a Técnica de Atualização Diagonal apresenta um reduzido 

custo computacional e aumenta o número de elementos nulos da matriz do sistema 

primal-dual do FAIPA, permitindo um melhor aproveitamento de solvers esparsos 

reduzindo ainda mais o custo computacional ao resolver problemas de grande porte. 

Em linguagem Matlab foram feitos os primeiros testes que confirmaram a 

viabilidade da técnica, pois se obteve bons resultados, em problemas pequenos, quando 

comparada com as técnicas de atualização BFGS e Memória Limitada. Em poucos 

casos a convergência foi lenta (HS01, HS02 e HS03) ou não apresentou solução (HS55, 

HS70 e HS72). 

Simultaneamente a essa etapa, foi feita a implementação da ferramenta CUTEr 

(basicamente em Linguagem FORTRAN 90) que permite resolver problemas pequenos, 

médios e de grande porte juntamente com o FAIPA. Inicialmente foram resolvidos 

problemas pequenos do tipo HS [28] para certificar-se de que a interface estava 

funcionando e posteriormente auxiliar no fornecimento de problemas de grande porte. 

Quando foi feita a comparação com problemas maiores (HS43_NF) as Tabelas 6.7 

e 6.8 [22] indicaram uma superioridade da Técnica de Atualização Diagonal, com 

relação a redução no tempo necessário para resolver cada problema, quando comparada

Na Tabela 6.8 [22] foram executados problemas maiores em ambiente de 

computação de alto desempenho (CRAY SV1). O destaque dessa tabela é o valor nf = 

3000 que gera um problema cujos sistemas lineares internos ao FAIPA apresentam 

21000 equações. Ao utilizar Memória Limitada para resolver esse problema obteve-se a 

solução em 83586 segundos, enquanto com a Técnica de Atualização Diagonal o tempo 

foi de 759 segundos, em ambos os casos o número de iterações foram parecidos. Com o 

BFGS Clássico, mesmo em ambiente de computação de alto desempenho, não foi 

possível obter resultados com problemas desse porte. 

Ao utilizar a ferramenta CUTEr com problemas amplamente utilizado para testar 

algoritmos de otimização, como o FAIPA, preparou-se um conjunto de problemas para 

comparar as Técnicas de Memória Limitada e a Técnica de Atualização Diagonal. 

Nessa etapa foi utilizado um computador AMD 1800MHz 1.5Gb, pois o computador 

CRAY SV1 estava desativado definitivamente. 

Os resultados contidos nas Tabelas 6.11, 6.12 e 6.13 indicaram que a Técnica 

Quase-Newton de Atualização Diagonal geralmente apresenta desempenho melhor no 

que diz respeito ao tempo consumido para a resolução desses problemas, apresentando, 

de modo geral, bons resultados quanto ao número de iterações. 

Na Tabela 6.14 a Técnica de Atualização Diagonal destacou-se muito quanto à 

rapidez para obter a solução em problemas com um número maior de equações. Nesse 

conjunto de problemas a Técnica Diagonal não apresentou nenhuma situação em que 

houvesse necessidade de mais de duas horas para encontrar a solução. 

A Técnica de Memória Limitada se mostrou muito demorada quando se trata de 

problemas com um número maior de equações como os apresentados na Tabela 6.14. 

Em todos os problemas dessa tabela não é possível obter solução com um tempo inferior 

a doze horas. Possivelmente a resolução de cada um desses problemas se prolongará por 

um dia ou mais, haja vista que no problema SVANBERG 60 essa técnica demorou 

aproximadamente cinco dias para encontrar a solução. 

Apesar do bom desempenho apresentado pela Técnica de Atualização Diagonal, 

alguns ajustes podem ser feitos para melhorar essa técnica. Dentre elas está o modo de 

obtenção do parâmetro que precisa ser feita com uma técnica que funcione em todos os 

casos. 

94

A utilização de computadores de alto desempenho como o ALTIX SGI, 

disponível a partir de junho de 2005 através do Núcleo de Atendimento em Computação 

de Alto Desempenho (NACAD-COPPE/UFRJ), permitirá um melhor aproveitamento 

das técnicas apresentadas nesse trabalho, uma vez que o computador CRAY SV1 foi 

desativado em novembro de 2004. 

95

96 

CAPÍTULO 8 

Referências Bibliográficas 

[1] BURDAKOV, O. P., MARTÍNEZ, J. M. and PILOTTA, E. A., “A Limited-Memory 

Multipoint Symmetric Secant Method for Bound Constrained Optimization”, Annals of 

Operations Research, v. 117, pp. 51-70, Kluwer Academics Publishers, Netherdlands, 

2003. 

[2] BYRD R. H., NOCEDAL J., and SCHNABEL R. B., “Representations of Quasi- 

Newton Matrices and Their use in Limited Memory Methods”, Mathematical 

Programming v. 63, pp. 129-156, 1994. 

[3] CANELAS, A., Técnicas de Ponto Interior para Sistemas de Equações e 

Otimização Não-Linear, Tese de M.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil, 

2005. 

[4] CRAYDOC, Scientific Libraries User’s Guide, Cray Inc., USA, 2002. 

[5] DOLAN, E.D., MORÉ, J.J. and MUNSON, T.S., Benchmarking Optimization 

Software with COPS 3.0, Technical Report ANL/MCS-TM-273, Argonne National 

Laboratory, Illinois, USA, February, 2004.

[6] DUFF, I.S. and REID, J.K., The “Multifrontal Solution of Indefinite Sparse 

Symmetric Linear Equations”, ACM Transactions on Mathematical Software v. 9, n. 3, 

pp. 302-325, Sep. 1983. 

[7] DUFF, I.S., ERISMAN, A.M. and REID, J.K., Directs Methods for Sparse 

Matrices. Oxford, England, Oxford University Press, 1986. 

[8] DUFF, I.S., Direct Methods, Technical Report RAL-TR-1998-054, Rutherford 

Appleton Laboratory, 1998. 

[9] DUFF, I.S., Matrix Methods, Technical Report RAL-TR-1998-076, Rutherford 

Appleton Laboratory, 1998. 

[10] DUBEUX, V.J.C., Técnicas de Programação Não-Linear para Otimização de 

Grande Porte, Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil, 2005. 

[11] DENNIS, J. E. and SCHNABEL, R. B., Numerical Methods for Unconstrained 

Optimization and Nonlinear Equations. New York, Prentice-Hall, 1983. 

[12] DONGARRA, J. J., DUFF, I. S., SORENSEN, D. C. and VORST, H. A., Solving 

Linear Systems on Vector and Shared Memory Computers. Philadelphia, USA, SIAM, 

1993. 

[13] FLETCHER, R., “An Optimal Positive Definite Update for Sparse Hessian 

Matrices”, SIAM Journal on Optimization, v. 5, n. 1, pp. 192-218, Feb. 1995. 

[14] FLETCHER, R., GROTHEY, A. and LEYFFER, S., Computing Sparse Hessian 

and Jacobian Approximations with Hereditary Properties, Tech. Report, Department of 

Mathematics, University of Dundee, 1996. 

[15] GEORGE, A. and LIU, J.W.H, Computer Solution of Large Sparse Positive 

Definite Systems, Englewood Cliffs, New Jersey, Prentice-Hall, 1981. 

97

[16] GOLDFELD, P., DUARTE, A. and HERSKOVITS, J., “A Limited Memory 

Interior Points Technique for Nonlinear Optimization”. ECCOMAS 96, Paris, França, 

September, 1996. 

[17] GOULD, N.I.M., ORBAN, D. and TOINT, P.L., General CUTEr and SifDec 

Documentation, England, 2002. http://hsl.rl.ac.uk/cuter-www 

[18] GOULD, I.M. and SCOTT, J.A., A numerical evaluation of HSL packages for 

direct-solution of large sparse, symmetric linear systems of equations, Technical Report 

RAL-TR-2003-019, Rutherford Appleton Laboratory, 2003. 

[19] GREENSTADT, J., “Variations on Variable Metric Methods”, Mathematics of 

Computation, v. 24, pp.1-22, 1970. 

[20] GRIEWANK, A. and TOINT, P.L., “Numerical Experiments with Partially 

Separable Optimization Problems Quasi-Newton Matrices and Their use in Limited 

Memory Methods”, Lecture Notes in Mathematics, v. 1066, pp. 203-220, Springer, 

Berlin, 1984. 

[21] HARWELL SUBROUTINE LIBRARY, A catalogue of subroutines (HSL 2000) 

AEA Technology, Harwell, Oxfordshire, England, 2002. 

[22] HERSKOVITS, J. N. and GOULART, E., “Sparse Quasi-Newton Matrix for Large 

Scale Problems in Non-Linear Optimization”. XXV CILAMCE 2004, in CD, Recife, 

Brasil, November, 2004. 

[23] HERSKOVITS, J. N. and GOULART, E., “Sparse Quasi-Newton Matrices for 

Large Scale Non-Linear Optimization” WCSMO6 - 6th World Congress on Structural 

and Multidiciplirnary Optimization, in CD, Rio de Janeiro, Brazil, May 2005. 

98

[24] HERSKOVITS, J., “A view on Nonlinear Optimization”, J. Herskovits (ed.), 

Advances in Structural Optimization, pp. 71-116, Holland, KLUWER Academic 

Publishers, June 1995. 

[25] HERSKOVITS, J. and SANTOS, G., “Feasible Arc Interior Point Algorithms for 

Nonlinear Optimization”. Fourth World Congress on Computational Mechanics, in CD- 

ROM, Buenos Aires, Argentina, June, 1998. 

[26] HERSKOVITS, J., “A Feasible Directions Interior Point Technique for Nonlinear 

Optimization”, JOTA-Journal of Optimization Theory and Aplications, v. 99, pp. 121- 

146, October, 1998. 

[27] HERSKOVITS, J., MAPPA, P., GOULART, E. and MOTA SOARES, C.M., 

“Mathematical programming models and algorithms for engineering design 

optimization”, Journal of Computational Methods in Applied Mechanics and 

Engineering, v. 194, pp. 3244-3268, 2005. 

[28] HOCK, W. and SCHITTKOVSKI, K., Lecture Notes in Economics and 

Mathematical Systems, Berlin, Germany, Springer-Verlag, 1981. 

[29] JÚDICE, J.J. e PATRÍCIO,J.M., Sistemas de Equações Lineares , Departamento de 

, 1996. 

Matemática da Universidade de Coimbra 

[30] LUENBERGER, D, G, Linear and Nonlinear Programming. 2 ed. Canada, 

Addison Wesley Publishing Company, 1984. 

[31] LUKSAN, L. and SPEDICATO, E., “Variable Metric Methods for Unconstrained 

Optimization and Nonlinear Least Squares”, Journal of Computational and Applied 

Mathematics, v. 124, pp. 61-95, 2000. 

[32] MAPPA, P.C., FAIPA_SAND, Uma Técnica para Otimização e Análise 

Simultâneas, Tese de D.Sc., COPPE/UFRJ, Rio de Janeiro, RJ, Brasil, 2004. 

99

[33] MARTINEZ, J. M., “Practical quasi-Newton methods for solving nonlinear 

systems”, Journal of Computational and Applied Mathematics, v. 124, pp. 97-121, 

2000. 

[34] NOCEDAL, J., Large Scale Unconstrained Optimization, in The State of the Art in 

Numerical Analysis, pp. 311-338, Oxford University Press, 1997. 

[35] NOCEDAL, J. and WRIGHT, S.J., Numerical Optimization, Springer Series in 

Operations Research, New York, Springer, 1999. 

[36] NOCEDAL, J. and MARAZZI, M., “Wedge trust region methods for derivative 

free optimization”, Mathematical Programming, v. 91, n. 2, pp. 289-30, 2002. 

[37] TOINT, Ph.L., “On Sparse and Symmetric Matrix Updating Subject to a Linear 

Equation”, Mathematics of Computation, v. 31, n. 140, pp. 954-961, Oct. 1977. 

[38] TOINT, P.L., “A Sparse Quasi-Newton Update Derived Variattionally With a 

Nondiagonally Weighted Frobenius Norm”, Mathematics of Computation, v. 37, n. 156, 

pp. 425-433, Oct. 1981. 

[39] TOINT, P.L., “A Note About Sparsity Exploiting Quasi-Newton Updates”, 

Mathematical Programming, v. 21, pp. 172-181, 1981. 

100

MATRIZES QUASE-NEWTON ESPARSAS PARA ... - Optimize - UFRJ

Create successful ePaper yourself

Delete template?

Save as template?