Algoritmi di moltiplicazione veloce

Algoritmi di moltiplicazione veloce 

Ultime notizie sui metodi di Toom-Cook 

Alberto Zanoni 

zanoni@volterra.uniroma2.it 

Roma, 6 ottobre 2010 

Alberto Zanoni Algoritmi di moltiplicazione veloce

Interi luuuuuuuuuuuuuuuuunghi 

Un intero lungo 

m = 574627456789283791827392845746478273478129318349379 

Può esser visto come un polinomio in molti modi: 

In base B = 10 =⇒ 5B d + 7B d−1+ · · · + 3B 2 + 7B + 9 

In base B = 10 2 =⇒ 5B D + 74B D−1+ · · · + 34B 2 + 93B + 79 

. . . 

In base B = 10 ⌈(d+1)/2⌉ =⇒ 5746 · · · 3928B + 4574 · · · 9379 

E similmente in base B = 2 k . 


Interi lunghi e moltiplicazione di polinomi 

Notazione 

Sia R = Z o Z[X ], 

da 

a(x) = aix i 

i=0 

Vogliamo calcolare il prodotto 

db 

, b(x) = bix i ∈ R[x] 

i=0 

dc 

c(x) = cix i ∈ R[x] 

i=0 

deg(a) = da ; deg(b) = db ; deg(c) = dc = da + db 


Interi lunghi e moltiplicazione di polinomi 

Approccio classico 

I metodi Toom-Cook costituiscono una famiglia di algoritmi 

per la moltiplicazione di polinomi in una variabile. 

Il metodo Toom-n si usa quando i fattori hanno ciascuno n 

coefficienti 

(gradi da = db = n − 1). 

Usare questi metodi per moltiplicare interi lunghi. . . 

è un attimo. 


Algoritmi per la moltiplicazione 

Sono noti vari algoritmi per la moltiplicazione di polinomi 

Naif O(d 2 ) 

Karatsuba (1962) O(d log 2 3 ) 

Toom-Cook-n (1963) O(d log n (2n−1) ) 

Schönhage-Strassen (1971) O(d log d log log d) 

Fürer (2007) O(d log d2 O(log∗ d) ) 

Ciascuno ha una propria complessità ed un certo intervallo in cui è 

il più veloce. 

Dopo Zuras e Zimmermann, Bodrato e Z. hanno analizzato 

l’ottimalità dei metodi Toom-Cook nei rispettivi intervalli di 

applicabilità. Scoperta un’intera nuova famiglia di algoritmi. 

Solo due parole sull’algoritmo di Karatsuba. . . 


L’algoritmo di Karatsuba 

A. A. Karatsuba ha proposto il primo metodo subquadratico di 

moltiplicazione, per i polinomi di primo grado. 

a(x) = a1x + a0 ; b(x) = b1x + b0 

a(x)b(x) = c(x) = c2x 2 + c1x + c0 

− − − − − − − − − − − − − − − − − 

c(x) = (a1b1)x 2 + (a1b0 + a0b1)x + (a0b0) 

4 moltiplicazioni, 1 somma 

⇓ 

c(x) = (a1b1)x 2 + ((a1 + a0)(b1 + b0) − a1b1 − a0b0)x + (a0b0) 

3 moltiplicazioni, 4 somme 

Alberto Zanoni Algoritmi di moltiplicazione veloce 

Continua

Algoritmo di Karatsuba (1962) 

a(x) = a 1 x + a 0 ; b(x) = b 1 x + b 0 a(x), b(x) ∈ R[x] 

c(x) = a(x)∙b(x) = c 2 x 2 + c 1 x + c 0 

= (a 1 b 1 )x 2 + (a 1 b 0 +a 0 b 1 )x + (a 0 b 0 ) 

a 1 b 1 

= c 2 

= (a 1 b 1 )x 2 + [(a 1 + a 0 )(b 1 + b 0 ) a 1 b 1 a 0 b 0 ] x + (a 0 b 0 ) 

Naif – O ( n 2 = n log4/log2 ) Karatsuba – O ( n log3/log2 ) 

a 0 b 1 

a 1 b 0 

a 0 b 0 

= c 0 

a 1 b 1 

4 prodotti 3 prodotti 

= c 2 

(a 1 + a 0 )(b 1 + b 0 ) 

c 0 c 2 

a 0 b 0 

= c 0

Algoritmo di Karatsuba 

a(x) = a d1 x d1 + a d11 x d11 + ∙∙∙ + a 1 x + a 0 

b(x) = b d2 x d2 + b d21 x d21 + ∙∙∙ + b 1 x + b 0 

d = max(d1,d2) y = x ⌈ (d+1)/2 ⌉ 

Ricorsione sul grado 

a(x) = A(y) = A 1 (x) y + A 0 (x) 

b(x) = B(y) = B 1 (x) y + B 0 (x)

Ripassino dei metodi Toom-n 

Il cuore è composto da 3 fasi 

1 Spezzettamento: scegliamo una base e scomponiamo 

2 Valutazione 

5 Ricomposizione: sommiamo nei posti giusti. 

Fase 2, un po’ di algebra lineare 

Valutiamo i polinomi a(x), b(x) in 2n − 1 punti {vi} ∈ Z diversi. 

Questo equivale a moltiplicare una matrice di Vandermonde (non 

quadrata) per il vettore dei coefficienti. 





2 Valutazione: 2 prodotti matrice-vettore 

3 Prodotti 


Fase 3, applicazione ricorsiva 

Caso sbilanciato 

Calcoliamo la valutazione del prodotto moltiplicando le valutazioni 

dei fattori. 

c(vi) = a(vi) · b(vi) 

(grado n − 1) × (grado n − 1) grado 2n − 2. 

(n parti) × (n parti) 2n − 1 parti. ⇒ 2n − 1 prodotti. 






3 Prodotti: (2n − 1) prodotti “più piccoli” 

4 Interpolazione 


Fase 4, un altro po’ di algebra lineare 

Interpoliamo per ottenere i coefficienti del polinomio prodotto. 

Li otteniamo semplicemente moltiplicando l’inversa di una matrice 

di Vandermonde (o giù di lì) per il vettore delle valutazioni. 






3 Prodotti: (2n − 1) prodotti “più piccoli” 

4 Interpolazione: prodotto matrice inversa-vettore 


Le fasi 2 e 4 sono “critiche” 

Dividendo in n parti si hanno (2n − 1) prodotti nella fase 3, con 

comportamento asintotico Θ(d log n (2n−1) ). Punto. 

La costante moltiplicativa dipende dai punti di valutazione/ 

interpolazione e dalla sequenza di operazioni per le fasi 2 e 4. 


Operandi sbilanciati 

Fattori con gradi diversi 

Toom-(n+m)/2 

(grado n − 1) × (grado m − 1) grado n + m − 2 

(n parti) × (m parti) n + m − 1 parti 

Caso bilanciato 

I metodi Toom possono essere applicati anche a polinomi con gradi 

diversi. La fase di valutazione dipende da m e n separatamente, 

mentre la fase di interpolazione solo da n + m. 

Toom-2.5 Toom-3 sbilanciato 

(deg 2) × (deg 1) deg 3 (deg 3) × (deg 1) deg 4 

(3 parti) × (2 parti) 4 parti (4 parti) × (2 parti) 5 parti 


Esempi per due casi base 

Le matrici di interpolazione per Toom-2.5 e Toom-3 sono 

⎛ 

1 

⎜ 

A2.5 = ⎜−1 

⎝ 1 

0 

0 0 

1 −1 

1 1 

0 0 

⎞ 

0 

1 ⎟ 

1 ⎠ 

1 

; 

⎛ 

1 0 

⎜ 

⎜16 

8 

A3 = ⎜ 1 −1 

⎝ 1 1 

0 0 

0 0 

4 2 

1 −1 

1 1 

0 0 

0 

1 

1 

1 

1 

Teorema 

Per n 3, det(An) non è una potenza di 2 (serve una divisione). 

Teorema 

Sia An generata da {∞, 1, −1, v4, . . . , v2n−2, 0}. Al più 2n − 5 

divisioni sono necessarie nella fase di interpolazione. 

Alberto Zanoni Algoritmi di moltiplicazione veloce 

⎞ 

⎟ 

⎠

Alcune definizioni utili 

Per una matrice quadrata M: 

Definizione 

M[i, j] : il coefficiente in posizione (i, j) 

M (i) : l’i ma riga 

M [j] : la j ma colonna 

Il supporto s(M (i) ) di M (i) è l’insieme di indici di colonne j ∈ N 

tali che M[i, j] = 0. Similmente per M [i] . 

Il supporto s(M) di M è l’insieme di coppie (i, j) ∈ N × N tali che 

M[i, j] = 0. 

# M (i) = cardinalità di s(M (i) ). Similmente per # M [i] and # M. 


La partita da giocare 

SCOPO DEL GIOCO: trovare la migliore (più efficiente) 

sequenza di operazioni elementari di riga per trasformare la matrice 

An nella matrice identica. 

Ci sono ∞ possibili sequenze d’inversione (SdI). 

Restringiamo le operazioni ammissibili definendo due criteri. 

Questi definiscono un “modello finito”, in modo tale da 

rendere possibile una ricerca esaustiva. 

Descriviamo tale modello come un grafo pesato. 

Vinciamo la partita risolvendo un problema di cammini minimi 

su tale grafo. 


I criteri del modello 

· · · → M (i) 

−→ M → · · · → I 

(A) Riduzione del supporto : 

# M (i) < # M (i) ∧ M[i, j] = 0 ⇒ M[i, j] = 0 

Almeno un coefficiente nullo in più. I “vecchi” 0 non 

vengono modificati. 

(B) Regolarizzazione : M[i, j]/M[i ′ , j] = M[i, j ′ ]/M[i ′ , j ′ ]. 

Più coefficienti che differiscono dai corrispondenti in 

un’altra linea per un fattore moltiplicativo comune. 

Esempio (A,B): in A3, 

(16 8 4 2 1) + 2(1 -1 1 -1 1) →(18 6 6 0 3) 

( 1 1 1 1 1) 


Operazioni lineari che consideriamo 

Combinazioni lineari 

li ← (ci · li + cj · lj)/di, con ci, cj, di costanti “piccole”. 

“piccole” vuol dire fissate: asintoticamente piccole. Tipicamente di 1 parola. 

Basic on long operands: linear operations 

|ci| |cj| di cost 

Somma/Sottrazione 1 1 1 ADD 

c.l. del primo tipo 1 2 k 1 ADD + ( 1 2) 

2 k 1 1 ADD + ( 1 2) 

c.l. del secondo tipo 1 = 2 k 1 ADD + ( 1 X) 

= 2 k 1 1 ADD + ( 1 X) 

Divisione per 2 k (shift) 1 0 2 k SHIFT 

Divisione esatta 1 0 = 2 k DIV 


Il grafo di Toom 

Sia G = (V , E, w) il grafo pesato così definito 

1 V è l’insieme di matrici ottenuto da An tramite → ∗ , soggetta 

ai criteri (A) e (B). 

2 E è l’insieme di archi tale che (M, M) ∈ E ⇔ M può essere 

ottenuta da M con una combinazione lineare ammissibile. 

Definizione: funzione peso 

Per ε ∈ E, w(ε) è il costo della combinazione lineare 

corrispondente. Per una catena C, w(C) = 

w(ε). 

w(M) = min 

C(M,I ) {w(C)} 

ε∈C 


Esempio (grafo di Karatsuba): Sia (v1 = ∞, v2 = 1, v3 = 0) 

 

1 0 0 

1 1 1 

 

1 0 0 

ε1 

−−−−→ 0 1 1 

0 0 1 

⏐ 

ε2 

0 0 1 

⏐ 

ε3 

1 0 0 

1 1 0 

0 0 1 

ε4 

−−−−→ I 

Esempio (grafo di Knuth): Sia (v1 = ∞, v2 = −1, v3 = 0) 

 

1 0 0 

1 0 0 

ε1 

1 −1 1 −−−−→ 0 −1 1 

0 0 1 

⏐ 

ε2 

0 0 1 

⏐ 

ε3 

1 0 0 

1 −1 0 

ε4 

−−−−→ I 

0 0 1 


Euristiche per la “potatura” del grafo 

Usiamo una funzione ricorsiva f per visitare G, che ricorda alcuni 

vertici per un po’ di tempo per trarre beneficio dai valori calcolati 

in precedenza. 

Calcoliamo stime e(M) (dal basso) di w(M) applicando varie 

euristiche (cardinalità del supporto della matrice, valore del 

determinanate, presenza di sottomatrici, ecc). 

Introduciamo una soglia t (parametro per f ) per evitare di 

analizzare sottografi non interessanti. Se e(M) > t il 

sottografo “sotto” M non viene analizzato (non è possibile 

trovare una SdI migliore). 

t viene aggiornato via via che f visita G: se M ε 

−→ M e 

f (M, t) si richiama, la chiamata ricorsiva è f ( M, t − w(ε)). 


SdI ottima per Toom-2.5 

A2.5, generata da {∞, −1, 1, 0}, con det(A2.5) = 2. 

Il grafo di Toom ha 17 nodi. Il costo totale è 

4 · ADD + SHIFT 

⎛ ⎞ 

1 0 0 0 

⎜−1 

1 −1 1⎟ 

A3,2 = ⎝ 1 1 1 1⎠ 

0 0 0 1 

2+=3 

⎛ ⎞ ⎛ ⎞ 

1 0 0 0 1 0 0 0 

2≫(1) 

⎜0 

2 0 2⎟ 

⎜0 

1 0 1⎟ 

=⇒ ⎝1 

1 1 1⎠ 

=⇒ ⎝ 

3−=1 0 1 1 1⎠ 

0 0 0 1 0 0 0 1 

3−=2 

=⇒ 

2−=4 I 

ci sono 16 SdI minime equivalenti. 


SdI ottima per Toom-3 

A3, generata da {∞, 2, −1, 1, 0}, con det(A3) = 12. 

La SdI implementata in GMP 4.2.1 usava entrambi i criteri. Il suo 

costo era 

wGMP = 8 · ADD + DIV + 2 · SHIFT + 2 · ( 1 2) 

La soluzione da noi trovata usando solo il criterio (A) ha costo 

wBZ = 8 · ADD + DIV + SHIFT + min( 1 X, SHIFT) + 1 2 

a seconda di quale tra 1 X, SHIFT sia minore. 


SdI ottima per Toom-3, quando SHIFT < 1 X 

⎛ ⎞ 

1 0 0 0 0 

⎛ ⎞ 

1 0 0 0 0 

⎛ ⎞ 

1 0 0 0 0 

⎜16 

8 4 2 1⎟ 

2−=4 ⎜15 

9 3 3 0⎟ 

4=3−4 ⎜15 

9 3 3 0⎟3−=5 

A3 = ⎜ 1 1 1 1 1⎟ 

⎝ ⎠ =⇒ ⎜ 1 1 1 1 1⎟ 

⎝ ⎠ =⇒ ⎜ 1 1 1 1 1⎟ 

⎝ ⎠ =⇒ 

1-1 1-1 1 

1-1 1-1 1 

0 2 0 2 0 

0 0 0 0 1 

0 0 0 0 1 

0 0 0 0 1 

⎛ ⎞ 

1 0 0 0 0 

⎛ ⎞ 

1 0 0 0 0 

⎜15 

9 3 3 0⎟ 

2/=(3) ⎜5 

3 1 1 0⎟ 

⎜ 1 1 1 1 0⎟ 

⎝ ⎠ =⇒ ⎜1 

1 1 1 0⎟ 

0 2 0 2 0 4≫(1) ⎝ ⎠ 

0 1 0 1 0 

0 0 0 0 1 

0 0 0 0 1 

⎛ ⎞ 

1 0 0 0 0 

⎜2 

1 0 0 0⎟ 

⎜1 

1 1 1 0⎟ 

⎝ ⎠ 

0 1 0 1 0 

0 0 0 0 1 

2−=3 

=⇒ 

⎛ ⎞ 

1 0 0 0 0 

⎜4 

2 0 0 0⎟ 

⎜1 

1 1 1 0⎟ 

⎝ ⎠ 

0 1 0 1 0 

0 0 0 0 1 

2≫(1) 

=⇒ 

⎛ ⎞ 

1 0 0 0 0 

⎛ ⎞ 

1 0 0 0 0 

3−=4 ⎜2 

1 0 0 0⎟2−=(2)1⎜0 

1 0 0 0⎟4−=2 

=⇒ ⎜1 

0 1 0 0⎟ 

⎝ ⎠ =⇒ ⎜0 

0 1 0 0⎟ 

0 1 0 1 0 3−=1 ⎝ ⎠ =⇒ I 

0 1 0 1 0 

0 0 0 0 1 

0 0 0 0 1 


Toom-3.5 (prodotti sbilanciati 4 × 3 o 5 × 2) 

A3.5, generata da {∞, 2, −2, 1, −1, 0}. Il costo è 

12 · ADD + 2 · DIV + 2 · SHIFT + 2 · ( 1 2) 

⎛ 

1 0 0 0 0 0 

⎜ 32 

⎜ 

⎜−32 

A3.5 = ⎜ 1 

⎝ −1 

16 

16 

1 

1 

8 

−8 

1 

−1 

4 

4 

1 

1 

2 

−2 

1 

−1 

1 

1 

1 

1 

0 0 0 0 0 1 

È necessario un passo di regolarizzazione (B). 

⎞ 

⎟ 

⎠ 


Toom-4 (4 × 4 o 5 × 3 o 6 × 2) 

 

A4, generata da ∞, 2, 1, −1, 1 

 

, −1 , 0 . Il peso è 

2 2 

18·ADD + 3·DIV + SHIFT + min ( 1 X , SHIFT) + 2·( 1 X) + 4·( 1 2) 

⎛ 

1 

⎜ 64 

⎜ 1 

⎜ 

A4 = ⎜ 1 

⎜ 1 

⎝ 1 

0 

32 

1 

−1 

2 

−2 

0 

16 

1 

1 

4 

4 

0 

8 

1 

−1 

8 

−8 

0 

4 

1 

1 

16 

16 

0 

2 

1 

−1 

32 

−32 

⎞ 

0 

1 ⎟ 

1 ⎟ 

1 ⎟ 

64 

⎟ 

64 ⎠ 

0 0 0 0 0 0 1 

È necessario un passo di regolarizzazione (B). 


Toom-4.5 (5 × 4 o 6 × 3 o 7 × 2) 

 

A4.5, generata da ∞, −1, −2, 1 

 

, 1, 2, −1 , 0 . Il peso è 

2 2 

22 · ADD + 4 · DIV + SHIFT + 3 ·( 1 X) + 6 ·( 1 2) 

⎛ 

1 0 0 0 0 0 0 

⎞ 

0 

⎜ −1 

⎜ 

⎜−128 

⎜ 

A4.5 = ⎜ 1 

⎜ 

1 

⎜ 128 

⎝ 

1 

1 −1 

64 −32 

2 4 

1 1 

64 32 

−2 4 

1 

16 

8 

1 

16 

−8 

−1 1 

−8 4 

16 32 

1 1 

8 4 

16 −32 

−1 1⎟ 

−2 1 ⎟ 

64 128 ⎟ 

1 1 ⎟ 

2 1⎟ 

⎠ 

64 −128 

0 0 0 0 0 0 0 1 


Toom-5 (5 × 5 o 6 × 4 o 7 × 3 o 8 × 2) 

 

A5, generata da ∞, −2, 1 

 

, 4, 2, −1, 1, −1 , 0 . Il peso è 

2 2 

32 · ADD + 5 · DIV + 2 · SHIFT + 6 ·( 1 X) + 8 ·( 1 2) 

⎛ 

1 0 0 0 0 0 0 0 0 

⎜256 

−128 

⎜ 1 2 

⎜ 4 

A5 = ⎜ 

⎝ 

64 −32 

4 8 

16 −8 

16 32 

4 −2 

64 128 

1 

256 

8 47 46 45 ⎞ 

256 128 

1 −1 

1 1 

1 −2 

64 32 

1 −1 

1 1 

4 −8 

256 64 

16 8 

1 −1 

1 1 

16 −32 

16 4 

4 2 

1 −1 

1 1 

64 −128 

⎟ 

1 ⎟ 

1 ⎟ 

1 ⎟ 

1 ⎟ 

⎠ 

256 

0 0 0 0 0 0 0 0 1 


Il guadagno per Toom-3 

Abbiamo implementato codice GMP per Toom-3 con la nuova SdI. 

101 

100 

99 

98 

97 

96 

Toom-3 new/old % 

100 % 

95 

0 500 1000 1500 2000 2500 3000 3500 


Bibliografia temporanea 

(Bodrato, Zanoni) Sequenze complete d’inversione per 

Toom-3.5, Toom-4, Toom-4.5, Toom-5 in 

What About Toom-Cook Matrices Optimality ? 

Preprint 605, Centro ”Vito Volterra”, Ottobre 2006 

Integer and Polynomial Multiplication: Towards Optimal 

Toom-Cook Matrices 

Proceedings ISSAC 2007, Waterloo, Canada, Luglio 2007

Algoritmi di moltiplicazione veloce

Create successful ePaper yourself

Delete template?

Save as template?