15.02.2014 Views

Universidad Nacional de Ingenierıa - Wiphala.net

Universidad Nacional de Ingenierıa - Wiphala.net

Universidad Nacional de Ingenierıa - Wiphala.net

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Universidad</strong> <strong>Nacional</strong> <strong>de</strong> Ingeniería<br />

Facultad <strong>de</strong> Ingeniería Industrial y <strong>de</strong> Sistemas<br />

Escuela Profesional <strong>de</strong> Ingeniería <strong>de</strong> Sistemas<br />

Propuesta <strong>de</strong> Tesis presentada para obtener el grado <strong>de</strong><br />

Ingeniero <strong>de</strong> Sistemas<br />

I<strong>de</strong>ntificación Automatica <strong>de</strong> Similitud Fonética entre Marcas<br />

Comerciales<br />

por<br />

Saucedo Ascona Edwin Manuel<br />

20030056I<br />

Lima - Lima<br />

Enero <strong>de</strong> 2008


I<strong>de</strong>ntificación Automatica <strong>de</strong> Similitud Fonética entre<br />

Marcas Comerciales<br />

Saucedo Ascona Edwin Manuel<br />

4 <strong>de</strong> febrero <strong>de</strong> 2008


I<strong>de</strong>ntificación Automatica <strong>de</strong> Similitud<br />

Fonética entre Marcas Comerciales<br />

Saucedo Ascona Edwin Manuel<br />

20030056I<br />

Facultad <strong>de</strong> Ingeniería Industrial y <strong>de</strong> Sistemas, 2007<br />

Asesor <strong>de</strong> Tesis: Mag. Samuel Alonso Oporto Díaz<br />

La investigación preten<strong>de</strong> establecer como objetivo validar un instrumento para medir el nivel<br />

<strong>de</strong> similitud fonética entre marcas comerciales. Se preten<strong>de</strong> utilizar las Re<strong>de</strong>s Neuronales para este<br />

propósito Se va a utilizar las marcas registradas en In<strong>de</strong>copi para realizar el entrenamiento <strong>de</strong> la<br />

red neuronal y para realizar el Test se utilizará las marcas comerciales presentados en los casos<br />

tratados por In<strong>de</strong>copi. Se medirá el nivel <strong>de</strong> reconocimiento y precisión <strong>de</strong> dicha herramienta,<br />

enfatizando el nivel <strong>de</strong> reconocimiento para así reducir los falsos negativos que vendrían a ser las<br />

marcas que son similares pero que no fueron i<strong>de</strong>ntificadas pero sin <strong>de</strong>scuidar <strong>de</strong>masiado el nivel<br />

<strong>de</strong> precisión. Se presenta el mo<strong>de</strong>lo <strong>de</strong> solución en el cual se realiza una serie <strong>de</strong> tratamientos a las<br />

marcas comerciales (nombre en texto) empleando para la investigación dos diferentes categorías<br />

la primera la establecida por el algoritmo Phonix y la segunda elaborada con base en el Sistema <strong>de</strong><br />

trascripción fonética <strong>de</strong>l español IPA.


Automatic I<strong>de</strong>ntification of Pho<strong>net</strong>ic<br />

Similarity Between Tra<strong>de</strong>marks<br />

Saucedo Ascona Edwin Manuel<br />

20030056I<br />

Faculty of Industrial Engineering and Systems, 2007<br />

Major Professor: Samuel Alonso Oporto Díaz, Msc<br />

This Investigation pretends to establish as objective to validate a tool to measure the pho<strong>net</strong>ic<br />

similarity level between tra<strong>de</strong>marks. It’s preten<strong>de</strong>d to use neural <strong>net</strong>works to this purpose. Tra<strong>de</strong>marks<br />

registered in In<strong>de</strong>copi will be used to do the neural <strong>net</strong>work training and tra<strong>de</strong>marks<br />

presented in the cases treated by In<strong>de</strong>copi will be used to do the Test. Precision level and recall<br />

level of the tool will be measured, emphasizing the recall level to reduce false negatives which<br />

are the tra<strong>de</strong>mark that are similar and were not retrieved, but without forget the precision level.<br />

A solution mo<strong>de</strong>l in which a set of treatments are used on tra<strong>de</strong>marks (name in text), using for<br />

two pho<strong>net</strong>ic categories for the investigation, the first category is one established by the Phonix<br />

algorithm and the second one elaborated based in Spanish pho<strong>net</strong>ic transcription system IPA.


Índice general<br />

1. Introducción 8<br />

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.3. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.3.1. Alcances <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.3.2. Limitaciones <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2. Formulación <strong>de</strong>l problema 11<br />

2.1. Descripción <strong>de</strong> la situación problemática . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.2. Descripción <strong>de</strong>l problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.3. Objetivo <strong>de</strong> la Investigacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.3.1. Objetivo superior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.3.2. Objetivo principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.3.3. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.4. Árbol <strong>de</strong> problemas y objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.4.1. Árbol <strong>de</strong> problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.4.2. Árbol <strong>de</strong> objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3. Revisión <strong>de</strong> la bibliografía 16<br />

3.1. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.1.1. Definición <strong>de</strong> Marca Comercial . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.1.2. Funciones <strong>de</strong> las marcas comerciales . . . . . . . . . . . . . . . . . . . . 16<br />

3.1.3. Reglas <strong>de</strong> similitud entre marcas comerciales . . . . . . . . . . . . . . . . 17<br />

3.1.4. Fonemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

3.1.5. Categorias Fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2. Algoritmos <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud verbal . . . . . . . . . . . . . . . . . . . 18<br />

3.2.1. Algoritmos basados en el or<strong>de</strong>n <strong>de</strong> letras en una ca<strong>de</strong>na . . . . . . . . . . . 18<br />

3.2.2. Algoritmos basados en aspectos fonéticos . . . . . . . . . . . . . . . . . . 21<br />

3.3. Estudios Realizados Anteriormente . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

3.3.1. Desarrollo <strong>de</strong> una comparación computarizada <strong>de</strong> similitud fonológica entre<br />

marcas comerciales en Suecia . . . . . . . . . . . . . . . . . . . . . . 23<br />

3.3.2. Sistema <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre nombres en directorios<br />

telefónicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

3


3.3.3. Correctores fonéticos <strong>de</strong> escritura. . . . . . . . . . . . . . . . . . . . . . . 24<br />

3.3.4. Buscando en las bases <strong>de</strong> datos <strong>de</strong> marcas comerciales por similitud verbal 24<br />

4. Metodología <strong>de</strong> la Investigación 25<br />

4.1. Tipo <strong>de</strong> Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

5. Diseño <strong>de</strong> la investigación 26<br />

5.1. Objeto <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

5.1.1. Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

5.1.2. Tamaño <strong>de</strong> la población . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

5.1.3. Tamaño <strong>de</strong> la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

5.2. Diseño <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

5.2.1. Tipo <strong>de</strong> diseño <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . 27<br />

5.2.2. Variables in<strong>de</strong>pendientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

5.2.3. Variables <strong>de</strong>pendientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

5.2.4. Variables <strong>de</strong>l mo<strong>de</strong>lo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

5.3. Diseño <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

5.4. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

5.4.1. Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

5.4.2. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

5.4.3. Contraste <strong>de</strong> hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

5.4.4. Pruebas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

6. Mo<strong>de</strong>lo <strong>de</strong> solución 32<br />

6.1. Mo<strong>de</strong>lo <strong>de</strong> solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />

7. Instrumentos <strong>de</strong> Medición 36<br />

7.1. Operacionalización <strong>de</strong> las variables. . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

7.2. Instrumentos <strong>de</strong> medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

7.3. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

8. Planificación <strong>de</strong> la investigación 38<br />

8.1. Descripción <strong>de</strong> activida<strong>de</strong>s - etapas . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

8.2. Cronograma <strong>de</strong> trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

8.3. Presupuesto <strong>de</strong> la Investigacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

8.3.1. Fuentes <strong>de</strong> Financiamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

9. Conclusiones 41<br />

9.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

4


Índice <strong>de</strong> cuadros<br />

2.1. Registro <strong>de</strong> Marcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.2. Nivel <strong>de</strong> Eficacia y Costos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

3.1. Fonemas <strong>de</strong>l habla española . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

3.2. Fonemas Vocálicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.3. Fonemas <strong>de</strong> Consonantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.4. Marco ConceptualInstrumental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.5. Codificación Soun<strong>de</strong>x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

3.6. Codificación Phonix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

3.7. Codificación Soun<strong>de</strong>x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3.8. Antece<strong>de</strong>ntes <strong>de</strong> Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

5.1. Solicitu<strong>de</strong>s <strong>de</strong> registro <strong>de</strong> signos distintivos . . . . . . . . . . . . . . . . . . . . . 27<br />

5.2. Variables In<strong>de</strong>pendientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

5.3. Variables Dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

5.4. Variables <strong>de</strong>l Mo<strong>de</strong>lo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

5.5. Pruebas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

6.1. Codificación fonética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

6.2. Codificación fonética inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

7.1. Operacionalizacion <strong>de</strong> las Variables . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

7.2. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

8.1. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

5


Índice <strong>de</strong> figuras<br />

1.1. Registro <strong>de</strong> Signos distintivos Acumulados . . . . . . . . . . . . . . . . . . . . . 9<br />

1.2. Casos por infracciones resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

2.1. Registro <strong>de</strong> Marcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.2. Arbol <strong>de</strong> Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.3. Arbol <strong>de</strong> Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3.1. Ejemplo Edit Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.2. Relacion <strong>de</strong> recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

3.3. Ejemplo Modified Edit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

3.4. n-gram formula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

3.5. n-gram formula 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

3.6. formula editex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

5.1. porcentaje <strong>de</strong> registros otorgados . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

5.2. Diseño <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

5.3. Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

6.1. Mo<strong>de</strong>lo <strong>de</strong> Solucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

8.1. Cronograma <strong>de</strong> activida<strong>de</strong>s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

6


Capítulo 1<br />

Introducción<br />

1.1. Introducción<br />

Al hablar <strong>de</strong> una marca comercial hablamos <strong>de</strong> un signo distintivo que permite distinguir un<br />

producto o servicio <strong>de</strong> otros, a través <strong>de</strong> su registro una persona o empresa pue<strong>de</strong> evitar el mal<br />

uso <strong>de</strong> esta por terceros, esto es evitar que estos terceros utilicen el prestigio ya adquirido <strong>de</strong> una<br />

marca para su propio beneficio. Esto se pue<strong>de</strong> dar <strong>de</strong> dos formas: directa que es cuando el consumidor<br />

adquiere un producto confundiendo su nombre con el <strong>de</strong> una marca prestigiosa, o indirecta<br />

cuando el consumidor confun<strong>de</strong> el origen <strong>de</strong> un producto. En la actualidad es In<strong>de</strong>copi a través <strong>de</strong><br />

su oficina <strong>de</strong> signos distintivos quien se encarga <strong>de</strong> ver estos aspectos <strong>de</strong> propiedad intelectual <strong>de</strong><br />

marcas comerciales. Sin embargo, el método que emplean para evaluar la registrabilidad <strong>de</strong> una<br />

marca (ver si hay alguna marca ya registrada con la que la marca a registrase tenga cierto grado <strong>de</strong><br />

similitud fonética) tiene tan solo un 89 % <strong>de</strong> eficacia, esto es <strong>de</strong> las 100 marcas similares que <strong>de</strong>bieron<br />

ser <strong>de</strong>tectadas tan solo 89 lo han sido, mientras que las restantes son registradas generando<br />

posteriormente <strong>de</strong>nuncias por casos <strong>de</strong> similitud. En promedio se tratan alre<strong>de</strong>dor <strong>de</strong> 419 casos <strong>de</strong><br />

<strong>de</strong>nuncias por infracciones <strong>de</strong> similitud fonética entre marcas, el tratamiento <strong>de</strong> estos casos <strong>de</strong>viene<br />

en costos <strong>de</strong> más <strong>de</strong> S/131’000.00 soles anuales, costos que son asumidos por las empresas las<br />

cuales tienen que realizar la solicitud <strong>de</strong> oposición <strong>de</strong> estas marcas para <strong>de</strong>fen<strong>de</strong>r sus <strong>de</strong>rechos. Lo<br />

que se busca con el planteamiento <strong>de</strong> esta Tesis es encontrar una herramienta que permita incrementar<br />

la eficacia hasta llegar a un 97 % en la i<strong>de</strong>ntificación <strong>de</strong> similitud entre marcas comerciales<br />

con esto se podrá reducir en un 70 % el numero <strong>de</strong> casos <strong>de</strong> marcas similares registradas así como<br />

los costos por su tratamiento.<br />

1.2. Justificación<br />

El presente estudio brindará una herramienta que permita tratar la creciente <strong>de</strong>manda <strong>de</strong> registros<br />

distintivos en dos aspectos principales: eficacia (Presición y reconocimiento) y velocidad.<br />

Debido a la naturaleza acumulativa <strong>de</strong> las marcas comerciales, cada vez hay un mayor número <strong>de</strong><br />

estas (ver figura 1.1) en la actualidad hay alre<strong>de</strong>dor <strong>de</strong> 170 000 marcas registradas, por lo que se<br />

hace más difícil el evaluar la registrabilidad <strong>de</strong> las mismas. Cada vez quedan menos opciones para<br />

nombres <strong>de</strong> marcas por lo que se incrementa el riesgo <strong>de</strong> similitud con las ya registradas. Lo cual<br />

8


se manifiesta en el incremento <strong>de</strong> casos que se tienen que tratar anualmente (ver figura 1.2). De no<br />

implementarse una solución el numero <strong>de</strong> casos a tratar continuará incrementándose y con esto los<br />

costos implicados con la resolución <strong>de</strong> los mismos.<br />

Figura 1.1: Registro <strong>de</strong> Signos distintivos Acumulados<br />

Figura 1.2: Casos por infracciones resueltos<br />

9


1.3. Alcances y Limitaciones<br />

1.3.1. Alcances <strong>de</strong> la Investigación<br />

La investigación estará orientada al registro <strong>de</strong> marcas comerciales que se realiza en el Perú teniendo<br />

en cuenta la legislación peruana. Por otro lado la investigación a realizarse estará limitada<br />

al idioma castellano, <strong>de</strong>bido a que se utilizará como base para el estudio fonético la trascripción<br />

fonética con el IPA y <strong>de</strong>bido a que este es el idioma que se utiliza en el Perú. A<strong>de</strong>más para<br />

un estudio <strong>de</strong> similitud fonético se requiere realizar una adaptación al idioma <strong>de</strong> interés (Fall-<br />

GiraudCarrier, [1]).<br />

1.3.2. Limitaciones <strong>de</strong> la Investigación<br />

En primer lugar la i<strong>de</strong>ntificación <strong>de</strong> similitud no entrará en la parte grafica, sino se buscará i<strong>de</strong>ntificar<br />

la similitud fonética como se especifica en el titulo <strong>de</strong> la investigación. Por tanto no se<br />

verá los casos <strong>de</strong> similitud entre logos o imágenes que se utilizan para las marcas comerciales. La<br />

investigación no podrá ser valida para marcas comerciales que utilicen números o signos <strong>de</strong> puntuación<br />

en su escritura. La investigación tendrá mayor prioridad sobre el nivel <strong>de</strong> reconocimiento<br />

que el <strong>de</strong> precisión, ya que con esto se podrá conseguir i<strong>de</strong>ntificar el mayor número <strong>de</strong> marcas<br />

similares permitiéndose falsos positivos en la i<strong>de</strong>ntificación, los cuales vendrían a ser marcas no<br />

similares que serían i<strong>de</strong>ntificadas como si lo fueran.<br />

10


Capítulo 2<br />

Formulación <strong>de</strong>l problema<br />

2.1. Descripción <strong>de</strong> la situación problemática<br />

In<strong>de</strong>copi a través <strong>de</strong> su oficina <strong>de</strong> signos distintivos tiene que procesar 419 casos anual <strong>de</strong>bido<br />

a problemas con imitación <strong>de</strong> marcas o alto grado <strong>de</strong> similitud entre estas, se gasta S/ 131 012.00<br />

anualmente en resolver casos <strong>de</strong> este tipo (Ver cuadro 2.2). El número <strong>de</strong> marcas que se registran<br />

mensualmente es alto, son en promedio 1236 solicitu<strong>de</strong>s <strong>de</strong> registro <strong>de</strong> marcas mensualmente,<br />

<strong>de</strong> las cuales solo 943 son otorgadas (Ver cuadro 2.1). A<strong>de</strong>más al haber marcas similares en el<br />

mercado se corre el riesgo <strong>de</strong> que se confunda al consumidor, ya que este podría confundir una<br />

marca ya registrada con la <strong>de</strong> un competidor y adquirir esta por equivocación.<br />

Año Solicitados Otorgados Rechazados<br />

2000 16565 12724 3841<br />

2001 14312 13258 1054<br />

2002 14601 11452 3149<br />

2003 14484 11424 3060<br />

2004 15564 11274 4290<br />

2005 14556 10606 3950<br />

2006 14373 10133 4240<br />

2007 14190 9659 4531<br />

Cuadro 2.1: Registro <strong>de</strong> Marcas<br />

En la figura 2.1 se muestra el numero <strong>de</strong> solicitu<strong>de</strong>s <strong>de</strong> marcas en In<strong>de</strong>copi durante los meses<br />

<strong>de</strong>s<strong>de</strong> el año 2000 hasta el 2007. Siendo los años 2005, 2006 y 2007 proyecciones <strong>de</strong> los valores<br />

<strong>de</strong> los años anteriores.<br />

11


Figura 2.1: Registro <strong>de</strong> Marcas<br />

2.2. Descripción <strong>de</strong>l problema<br />

El problema es que el método usado para la evaluación <strong>de</strong> registrabilidad, esto es evaluar la<br />

similitud tanto fonética como grafica <strong>de</strong> una marca por registrar con una ya registrada, tiene un<br />

porcentaje <strong>de</strong> 89 % <strong>de</strong> eficacia (Ver cuadro 2.2). Por tanto muchas marcas similares a las ya registradas<br />

pasan este examen <strong>de</strong> registrabilidad y son registradas, estamos hablando <strong>de</strong> un promedio<br />

<strong>de</strong> 419 marcas similares registradas anualmente. A<strong>de</strong>más este proceso toma gran tiempo, estamos<br />

hablando <strong>de</strong> 25 días hábiles <strong>de</strong> espera <strong>de</strong>spués <strong>de</strong> la publicación <strong>de</strong> la marca en el diario El Peruano<br />

y alre<strong>de</strong>dor <strong>de</strong> 7 días para la finalización <strong>de</strong>l registro en caso la marca haya pasado el examen <strong>de</strong><br />

registrabilidad y no haya habido un empresa que solicite oposición por similitud con su propia<br />

marca.<br />

2.3. Objetivo <strong>de</strong> la Investigacion<br />

2.3.1. Objetivo superior<br />

El objetivo superior <strong>de</strong> esta propuesta <strong>de</strong> tesis es el <strong>de</strong> reducir el número <strong>de</strong> juicios por casos<br />

<strong>de</strong> marcas similares en más <strong>de</strong> 70 % y con esto reducir los costos que se dan <strong>de</strong>bido a estos<br />

juicios también en un 70 %. Cabe especificar que el estudio a realizarse servirá <strong>de</strong> base para la<br />

implementación <strong>de</strong> una solución que permitirá la consecución <strong>de</strong>l el objetivo antes mencionado.<br />

12


2.3.2. Objetivo principal<br />

Año Casos % Eficacia Costo<br />

2000 303 92.69 S/. 85,234<br />

2001 254 80.58 S/. 73,914<br />

2002 323 90.70 S/. 97,126<br />

2003 415 88.06 S/. 124,791<br />

2004 453 90.45 S/. 140,611<br />

2005 488 89.00 S/. 156,209<br />

2006 534 88.81 S/. 176,113<br />

2007 580 88.65 S/. 194,097<br />

Cuadro 2.2: Nivel <strong>de</strong> Eficacia y Costos<br />

El objetivo principal que se va a plantear para esta Tesis será el <strong>de</strong> encontrar una herramienta<br />

que permita i<strong>de</strong>ntificar las marcas que tengan similitud fonética con una marca ya registrada con<br />

un nivel <strong>de</strong> reconocimiento mayor al 97 %, es <strong>de</strong>cir que i<strong>de</strong>ntifique <strong>de</strong> 100 marcas con similitud<br />

fonética como mínimo 97 <strong>de</strong> estas.<br />

Nivel <strong>de</strong> Reconocimiento = N o marcas similares reconocidas<br />

N o total marcas similares<br />

(2.1)<br />

2.3.3. Objetivos específicos<br />

I<strong>de</strong>ntificar y analizar las variables que dan lugar a la similitud fonética entre marcas comerciales.<br />

Adaptar las herramientas vinculadas a similitud fonética entre palabras para la i<strong>de</strong>ntificación<br />

<strong>de</strong> similitud fonética entre marcas comerciales.<br />

Desarrollar una herramienta basada en re<strong>de</strong>s neuronales para la i<strong>de</strong>ntificación <strong>de</strong> similitud<br />

fonética entre marcas comerciales.<br />

Evaluar el nivel <strong>de</strong> reconocimiento y precisión <strong>de</strong> las herramientas propuestas.<br />

13


2.4. Árbol <strong>de</strong> problemas y objetivos<br />

2.4.1. Árbol <strong>de</strong> problemas<br />

Figura 2.2: Arbol <strong>de</strong> Problemas<br />

14


2.4.2. Árbol <strong>de</strong> objetivos<br />

Figura 2.3: Arbol <strong>de</strong> Objetivos<br />

15


Capítulo 3<br />

Revisión <strong>de</strong> la bibliografía<br />

3.1. Conceptos Básicos<br />

3.1.1. Definición <strong>de</strong> Marca Comercial<br />

Una marca según la <strong>de</strong>finición <strong>de</strong> la WIPO (World Intellectual Property Organization) vendría<br />

a ser un signo o conjunto <strong>de</strong> signos que permiten diferenciar los productos o servicios <strong>de</strong> una<br />

empresa <strong>de</strong> los <strong>de</strong> las otras.<br />

3.1.2. Funciones <strong>de</strong> las marcas comerciales<br />

Las cuatro funciones principales <strong>de</strong> las marcas comerciales son:<br />

Para distinguir los productos o servicios que ofrece una empresa <strong>de</strong> los que son ofrecidos<br />

por las <strong>de</strong>más, le permite a los consumidores i<strong>de</strong>ntificar los productos conocidos por ellos o<br />

<strong>de</strong> los que vieron anuncios publicitarios.<br />

Para i<strong>de</strong>ntificar la fuente u origen <strong>de</strong>l producto o servicio, esto quiere <strong>de</strong>cir para i<strong>de</strong>ntificar a<br />

la empresa que brinda el producto o servicio, la marca comercial va a permitir la diferenciación<br />

<strong>de</strong> fuentes para productos similares.<br />

Para referirse a la calidad especifica <strong>de</strong> un producto o servicio usado, <strong>de</strong> tal forma que el<br />

cliente pueda confiar en la calidad <strong>de</strong> un producto porque este está apoyado por la marca<br />

bajo la cual este se esta produciendo.<br />

Para promover el marketing y la venta <strong>de</strong> los productos y que los servicios puedan ser brindados,<br />

la marca comercial muchas veces estimula la venta <strong>de</strong> los productos, creando así interés<br />

e inspirando en los clientes un sentimiento <strong>de</strong> confi<strong>de</strong>ncialidad.<br />

16


3.1.3. Reglas <strong>de</strong> similitud entre marcas comerciales<br />

Existen 18 reglas principales que se utilizan como criterio para establecer la similitud verbal<br />

entre marcas comerciales (Bugdahl, [2]). Entre ellas tenemos las reglas para las marcas que:<br />

Son idénticas. Terminan o empiezan <strong>de</strong> forma similar. Tienen vocales idénticas. Una contiene<br />

a la otra. Una tiene una letra o más insertadas. Una tiene una o más letras eliminadas. Tienen las<br />

silabas permutadas. Suenan <strong>de</strong> forma similar. Tienen las mismas consonantes. Tienen consonantes<br />

que suenan <strong>de</strong> forma similar. Tienen las mismas vocales y las primeras consonantes. Tienen las<br />

letras permutadas.<br />

3.1.4. Fonemas<br />

Se utilizarán los fonemas empleados en el habla española, <strong>de</strong> esta forma se logrará a<strong>de</strong>cuar la<br />

investigación a nuestro contexto los cuales están especificados en el cuadro 3.1.<br />

Fonema<br />

1. /a/: Fonema vocálico <strong>de</strong> apertura máxima.<br />

2. /B/: Fonema obstruyente bilabial sonoro (grafías: b, v y w, alófonos: [b], [ß]).<br />

3. /c/: Fonema africado palatal (grafía ch).<br />

4. /D/: Fonema obstruyente coronal-alveolar sonoro.<br />

5. /e/: Fonema vocálico palatal <strong>de</strong> apertura media.<br />

6. /f/: Fonema fricativo labio-<strong>de</strong>ntal, en muchas zonas se realiza fricativo bilabial.<br />

7. /G/: Fonema obstruyente velar sonoro.<br />

8. /i/: Fonema vocálico palatal y apertura mínima.<br />

9. /x/: Fonema fricativo velar.<br />

10. /k/: Fonema oclusivo velar sordo (grafías c y qu).<br />

11. /l/: Fonema lateral (coronal-alveolar).<br />

12. /m/: Fonema nasal labial.<br />

13. /n/: Fonema nasal (coronal-alveolar).<br />

14. /ñ/: Fonema nasal palatal.<br />

15. /o/: Fonema vocálico velar <strong>de</strong> apertura media.<br />

16. /p/: Fonema oclusivo (bi)labial sordo<br />

17. /?/: Fonema vibrante simple (grafía -r-, -r).<br />

18. /r/(rr): Fonema vibrante múltiple (grafía -rr-, r-).<br />

19. /s/: Fonema fricativo (coronal-)alveolar (grafía s, en algunas varida<strong>de</strong>s z y c).<br />

20. /t/: Fonema oclusivo (coronal-)alveolar sordo.<br />

21. /u/: Fonema vocálico velar <strong>de</strong> apertura mínima.<br />

22. /y/: Fonema sonorante palatal (grafía y, en las zonas yeístas también correspon<strong>de</strong> a ll.<br />

Cuadro 3.1: Fonemas <strong>de</strong>l habla española<br />

17


3.1.5. Categorias Fonéticas<br />

Las categorías asignadas a los fonemas estarán basadas en la similitud fonética <strong>de</strong> los fonemas,<br />

viendo aspectos <strong>de</strong> lugar <strong>de</strong> articulación y modo <strong>de</strong> articulación (Ver cuadros 3.2 y 3.3). Así por<br />

ejemplo los fonemas /p/ y /b/ se encontrarían <strong>de</strong>ntro <strong>de</strong> una misma categoría <strong>de</strong>bido a que ambos<br />

son articulados en la zona labial con un modo <strong>de</strong> articulación oclusivo, lo cual los hace similares<br />

fonéticamente.<br />

Vocal Anteriores Central posteriores<br />

Altas (Cerradas) i u<br />

Medias e o<br />

Baja (Abierta)<br />

a<br />

Cuadro 3.2: Fonemas Vocálicos<br />

Lugar <strong>de</strong> articulación Labial Coronal Dorsal<br />

Modo <strong>de</strong> articulación Bilabial Labio-Dental Dental Albeolar Palatal Velar<br />

Nasal m n<br />

Oclusiva p b t d kg<br />

Fricativa f (v) s z y<br />

Aproximante<br />

j<br />

Vibrante múltiple<br />

rr<br />

Vibrante simple<br />

r<br />

Aproximante lateral<br />

l<br />

Cuadro 3.3: Fonemas <strong>de</strong> Consonantes<br />

3.2. Algoritmos <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud verbal<br />

Para la i<strong>de</strong>ntificación <strong>de</strong> la similitud verbal entre marcas comerciales se utilizan como herramientas<br />

a los algoritmos, los algoritmos que se han utilizado para la i<strong>de</strong>ntificación <strong>de</strong> la similitud<br />

entre marcas comerciales son principalmente <strong>de</strong> dos tipos, los que se basan en las letras <strong>de</strong>ntro <strong>de</strong><br />

palabra y las que se basan en el aspecto fonético (Fall-GiraudCarrier, [1]).<br />

3.2.1. Algoritmos basados en el or<strong>de</strong>n <strong>de</strong> letras en una ca<strong>de</strong>na<br />

Edit Distance Es un algoritmo que establece como elemento <strong>de</strong> medida para la similitud entre<br />

palabras a la distancia que existe entre estas, está distancia está <strong>de</strong>finida por número <strong>de</strong> inserciones,<br />

cambios o eliminaciones <strong>de</strong> letras necesario para que la palabra evaluada sea igual a la palabra<br />

blanco (Fischer - Zell , [7]), asignando una distancia <strong>de</strong> uno por cada inserción, eliminación o<br />

cambio <strong>de</strong> palabra necesitado. Por ejemplo para marcas comerciales veamos que la distancia entre<br />

18


Autores Año Método Título<br />

Fischer I, Zell A [7] 2000 Edit Distance String averages and self-organizing maps for<br />

strings<br />

Wu S, Manber U [8] 1992 Modified Distance<br />

Fast text searching allowing errors<br />

Zobel J, Dart P. [3] 1995 N-Grams Finding approximate matches in large lexicons<br />

E. Ukkonen [4] 1992 N-Grams Approximate string-matching with q-grams and<br />

maximal matches<br />

Holmes D, McCabe<br />

MC [6]<br />

2002 Soun<strong>de</strong>x Improving precision and recall for soun<strong>de</strong>x retrieval.<br />

Zobel J, Dart P. [3] 1995 Phonix Finding approximate matches in large lexicons<br />

Zobel J, Dart P [9] 1996 Editex Pho<strong>net</strong>ic string matching: lessons from information<br />

retrieval<br />

Kukich, Karen [15] 1992 Re<strong>de</strong>s Neuronales<br />

Cuadro 3.4: Marco ConceptualInstrumental<br />

Techniques for Automatically Correcting<br />

Words<br />

Figura 3.1: Ejemplo Edit Distance<br />

la marca Kolinos y la marca Kornos vendría a ser <strong>de</strong> 2 ya que se eliminaría la letra i y se cambiaría<br />

la letra l por la r, el ejemplo se encuentra ilustrado en la figura 3.1.<br />

Esta basado en la siguiente relación <strong>de</strong> recurrencia:<br />

Figura 3.2: Relacion <strong>de</strong> recurrencia<br />

Modified Edit Es similar al algoritmo Edit Distance pero la diferencia esta en que la permutación<br />

<strong>de</strong> dos letras contiguas vendría a tener una distancia <strong>de</strong> 1, mientras que para el algoritmo Edit<br />

Distance esta vendría a consi<strong>de</strong>rarse como 2 intercambios <strong>de</strong> letras por tanto una distancia <strong>de</strong> 2<br />

(Wu - Manber, [8] ). Por ejemplo la distancia entre las marcas Palmolive y Pamlolive sería <strong>de</strong> 2<br />

para Edit Distance y 1 para Modified Edit (Ver figura 3.3).<br />

19


Figura 3.3: Ejemplo Modified Edit<br />

N-grams Don<strong>de</strong> el n-gram <strong>de</strong> una ca<strong>de</strong>na es cualquier subca<strong>de</strong>na <strong>de</strong> esta cuya longitud sea n, y<br />

el conjunto <strong>de</strong> estos n-grams <strong>de</strong> la ca<strong>de</strong>na s es <strong>de</strong>finido por Gs (Zobel - Dart, [3]).Por ejemplo Gs<br />

<strong>de</strong> la ca<strong>de</strong>na KIMBO para n=2 sería KI, IM, MB, BO . La similitud entre dos ca<strong>de</strong>nas pue<strong>de</strong> ser<br />

medida a través <strong>de</strong> la siguiente expresión:<br />

Figura 3.4: n-gram formula 1<br />

Por ejemplo para las ca<strong>de</strong>nas KIMBO y KUMBOR, don<strong>de</strong> GKIMBO = KI, IM, MB, BO y<br />

GKUMBOR = KU, UM, MB, BO, OR la similitud sería <strong>de</strong> 2, ya que ambos contienen a los<br />

n-grams ”MB ”BO”.<br />

2<br />

Figura 3.5: n-gram formula 2<br />

Pero cuando una ca<strong>de</strong>na contiene a otra como KIMBOMAX y KIMBO, la similitud sería la<br />

misma que la que tiene la ca<strong>de</strong>na KIMBO consigo misma. Para esto se <strong>de</strong>sarrolló una nueva medida<br />

<strong>de</strong> distancia (Ukkonen, [4]):<br />

don<strong>de</strong> s[g] vendría a ser el numero <strong>de</strong> veces que aparece el n-gram g en la ca<strong>de</strong>na s. Así por<br />

ejemplo la distancia entre las ca<strong>de</strong>nas KIMBO y KIMBOMAX sería <strong>de</strong> 3 ya que los n-grams KI,<br />

IM, MB, BO aparecen una vez en cada ca<strong>de</strong>na por tanto su suma es cero mientras que los n-grams<br />

OM,MA,AX solo aparecen en la ca<strong>de</strong>na KIMBOMAX por lo tanto la suma sería <strong>de</strong> 3, y al hallar<br />

la suma total esta sería exactamente 3.<br />

20


3.2.2. Algoritmos basados en aspectos fonéticos<br />

Soun<strong>de</strong>x Este algoritmo esta basado en el sonido <strong>de</strong> cada una <strong>de</strong> las letras para convertir una<br />

ca<strong>de</strong>na en una forma canónica (Holmes - McCabe, [6]). Los códigos que utiliza son los mostrados<br />

en la siguiente tabla:<br />

Co<strong>de</strong> Caracteres<br />

0 a e i g o u w y<br />

1 b f p v<br />

2 c g j k q s x z<br />

3 d t<br />

4 l<br />

5 m n<br />

6 r<br />

Cuadro 3.5: Codificación Soun<strong>de</strong>x<br />

El algoritmo lo que hace es conservar la primera letra <strong>de</strong> la ca<strong>de</strong>na y remplazar las siguientes<br />

por su correspondiente código, para luego eliminar los códigos que se repiten <strong>de</strong> forma consecutiva<br />

y todas las ocurrencias <strong>de</strong>l codigo cero. Finalmente toma los cuatro primeros caracteres <strong>de</strong> la<br />

ca<strong>de</strong>na resultante completando con ceros si es necesario. Así por ejemplo la ca<strong>de</strong>na PALMOLIVE<br />

estaría representada por P454 y la ca<strong>de</strong>na KIMBO por K510.<br />

Phonix Es similar al algoritmo Soun<strong>de</strong>x, pero como se muestra en el cuadro 3.6 este agrupa a<br />

las letras en 8 grupos fonéticos en vez <strong>de</strong> 6 (Zobel - Dart, [3]), a<strong>de</strong>más cuenta con 160 transformaciones<br />

para grupos <strong>de</strong> letras que se utilizan en el Ingles por lo tanto su uso se restringe a este<br />

idioma.<br />

Co<strong>de</strong> Caracteres<br />

0 a e i h o u w y<br />

1 b p<br />

2 c g j k q<br />

3 d t<br />

4 l<br />

5 m n<br />

6 r<br />

7 f v<br />

8 s x z<br />

Cuadro 3.6: Codificación Phonix<br />

Editex Este algoritmo combina la medida <strong>de</strong> distancia <strong>de</strong>l algoritmo Edit Distance con la estrategia<br />

<strong>de</strong> agrupamiento <strong>de</strong> Soun<strong>de</strong>x y Phonix (Zobel - Dart, [9]). Se utiliza una relación <strong>de</strong> recurrencia<br />

21


similar a la <strong>de</strong> edit distance solo que ahora se <strong>de</strong>fine una nueva función d(a,b), y los valores para<br />

r(a,b) son: 0 si a = b, 1 si a y b pertenecen al mismo grupo y 2 si ocurre <strong>de</strong> otra forma. Los valores<br />

para d(a,b) se dan <strong>de</strong> igual forma solo que para a igual a h o w y dado que a es diferente <strong>de</strong> b su<br />

valor será <strong>de</strong> 1.<br />

Figura 3.6: formula editex<br />

Los grupos fonéticos para este algoritmo son los siguientes:<br />

Co<strong>de</strong> Caracteres<br />

0 a e i o u y<br />

1 b p<br />

2 c k q<br />

3 d t<br />

4 l r<br />

5 m n<br />

6 g j<br />

7 f p v<br />

8 s x z<br />

9 c s z<br />

Cuadro 3.7: Codificación Soun<strong>de</strong>x<br />

Re<strong>de</strong>s Neuronales Una <strong>de</strong> las funciones principales <strong>de</strong> las re<strong>de</strong>s neuronales es el reconocimiento<br />

<strong>de</strong> patrones (Konohen, [14]) don<strong>de</strong> el criterio principal <strong>de</strong> <strong>de</strong>sempeño es la minimización <strong>de</strong>l<br />

número <strong>de</strong> errores <strong>de</strong> clasificación. Uno <strong>de</strong> sus principales fundamentos teóricos es la teoría <strong>de</strong> promedio<br />

condicional <strong>de</strong> perdida en la toma <strong>de</strong> <strong>de</strong>cisiones el cual se basa en la teoría <strong>de</strong> probabilidad<br />

<strong>de</strong> Bayes. Una red neuronal suele trabajar como una caja negra, la cual recibe una serie <strong>de</strong> signos<br />

<strong>de</strong> observación constituyendo así el vector <strong>de</strong> entrada x, y produce una respuesta rh en alguno <strong>de</strong><br />

sus puertos <strong>de</strong> salida i, cada puerto es asignado a una diferente clase <strong>de</strong> objetos observados. Se<br />

han hecho aplicaciones <strong>de</strong> re<strong>de</strong>s neuronales para la <strong>de</strong>terminación <strong>de</strong> errores <strong>de</strong> escritura a través<br />

<strong>de</strong>l uso <strong>de</strong> N-Grams (Kukich, [15]), don<strong>de</strong> los N-Grams pue<strong>de</strong>n ser utilizados como neuronas <strong>de</strong><br />

entrada y los nodos <strong>de</strong> salida vendrían a ser todas las palabras en la base <strong>de</strong> datos y los valores<br />

<strong>de</strong> las capas entre un nodo <strong>de</strong> entrada y un nodo <strong>de</strong> palabra <strong>de</strong> salida serían los índices por cada<br />

elemento <strong>de</strong> la matriz. Estos enlaces podrían ser pesados <strong>de</strong> forma individual o normalizados a 1.<br />

En los test realizados (Kukich, [16])utilizando este método se logró conseguir niveles <strong>de</strong> eficacia<br />

<strong>de</strong> 75.88 % con 521 palabras <strong>de</strong>l diccionario y 75.29 % con 1 142 palabras <strong>de</strong>l diccionario.<br />

22


3.3. Estudios Realizados Anteriormente<br />

Autores Año Método Título<br />

Brodda B. [10] 1990 Computational Corpus work with PC beta: a presentation<br />

Linguistics<br />

McAllister R, Brodda<br />

B [11]<br />

2002 Brodda algorithm Development of a new speech comprehension<br />

test with a phonological distance metric<br />

Erikson K [12] 1997 Algorithms Approximate swedish name matching survey<br />

and test of different algorithms<br />

Hodge VJ, Austin J. 2001 Pho<strong>net</strong>ex An evaluation of pho<strong>net</strong>ic spell checkers<br />

[13]<br />

C J Fall C. Giraud-<br />

Carrier[1]<br />

2005 Algoritmos hibridos<br />

Searching tra<strong>de</strong>mark databases for verbal similarities<br />

Cuadro 3.8: Antece<strong>de</strong>ntes <strong>de</strong> Investigación<br />

3.3.1. Desarrollo <strong>de</strong> una comparación computarizada <strong>de</strong> similitud fonológica<br />

entre marcas comerciales en Suecia<br />

Los estudios realizados fueron li<strong>de</strong>rados por Benny Broda durante los años 1960 a 1970 en la<br />

oficina <strong>de</strong> patentes <strong>de</strong> Suecia, don<strong>de</strong> se realizaron estudios para <strong>de</strong>terminar distancias fonológicas<br />

entre marcas comerciales, se estableció en esta oficina que el nuevo registro <strong>de</strong> una marca comercial<br />

<strong>de</strong>pendía parcialmente <strong>de</strong> que esta no fuese similar fonológicamente a una ya existente.<br />

Posteriormente se llegó a establecer y refinar un procedimiento para <strong>de</strong>terminar estas distancias<br />

fonológicas (Brodda, [10]). A<strong>de</strong>más se implementó un test <strong>de</strong> comprensión a través <strong>de</strong>l uso <strong>de</strong> una<br />

métrica <strong>de</strong> distancia fonológica (McAllister-Brodda, [11])<br />

3.3.2. Sistema <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre nombres en directorios<br />

telefónicos<br />

En esta investigación se busca i<strong>de</strong>ntificar los nombres que son fonéticamente iguales <strong>de</strong>ntro <strong>de</strong><br />

un directorio telefónico (Erikson, [12]) a través <strong>de</strong>l uso <strong>de</strong> algunos <strong>de</strong> los algoritmos mostrados<br />

anteriormente y a<strong>de</strong>más <strong>de</strong> otros y algunas combinaciones <strong>de</strong> estos. En esta investigación se tienen<br />

3 criterios <strong>de</strong> evaluación los cuales son: Precisión, Proporción <strong>de</strong> nombre i<strong>de</strong>ntificadas que son<br />

realmente similares. Reconocimiento, Proporción <strong>de</strong> nombres similares que son realmente i<strong>de</strong>ntificados.<br />

Velocidad, relacionado al tiempo en que es utilizado tanto por el usuario como por el<br />

sistema.<br />

23


3.3.3. Correctores fonéticos <strong>de</strong> escritura.<br />

En esta investigación se <strong>de</strong>sarrolla un corrector fonético <strong>de</strong> escritura, llamado Pho<strong>net</strong>ex el cual<br />

adopta la metodología Phonix y su aproximación a la combinación <strong>de</strong> tipos <strong>de</strong> códigos <strong>de</strong> Soun<strong>de</strong>x<br />

con reglas <strong>de</strong> transformación fonética para producir un código fonético para cada palabra. Para<br />

esto se estudió la etimología <strong>de</strong>l ingles <strong>de</strong>tallada en el Diccionario <strong>de</strong> Ingles <strong>de</strong> Oxford. Pho<strong>net</strong>ex<br />

llega a tener más grupos fonéticos que los que tienen Soun<strong>de</strong>x, Phonix o Editex, en total 14 grupos:<br />

3.3.4. Buscando en las bases <strong>de</strong> datos <strong>de</strong> marcas comerciales por similitud<br />

verbal<br />

En esta investigación lo que se busca es establecer la variabilidad <strong>de</strong> resultados que se pue<strong>de</strong><br />

obtener <strong>de</strong> usar los diferentes algoritmos, especificando que cada uno <strong>de</strong> estos permite i<strong>de</strong>ntificar<br />

<strong>de</strong>terminadas similitu<strong>de</strong>s, por tanto plantea que se utilice algoritmos híbridos, es <strong>de</strong>cir algoritmos<br />

que tomen las características y fortalezas <strong>de</strong> un algoritmo y las combinen con las <strong>de</strong> otro algoritmo<br />

para así mejorar su nivel <strong>de</strong> reconocimiento. Para el caso <strong>de</strong> las marcas comerciales tienen mayor<br />

importancia el nivel <strong>de</strong> reconocimiento (Fall - GiraudCarrier, [1]), esto <strong>de</strong>bido a que es más importante<br />

i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong> marcas similares aunque con esto se consiga un mayor<br />

numero <strong>de</strong> falsos positivos.<br />

24


Capítulo 4<br />

Metodología <strong>de</strong> la Investigación<br />

4.1. Tipo <strong>de</strong> Investigación<br />

Al inicio la investigación tendrá un alcance <strong>de</strong>scriptivo <strong>de</strong>bido a que no hay <strong>de</strong>finiciones exactas<br />

<strong>de</strong>l problema, si bien es cierto el tema ha sido abordado, la investigación realizada en este tema<br />

a lo más a abordado la comparación <strong>de</strong> algunos <strong>de</strong> los métodos usados en el reconocimiento <strong>de</strong><br />

similitud fonética entre nombres propios pero aplicados a marcas comerciales. La investigación<br />

a <strong>de</strong> tener un alcance correlacional al final ya que nos va a permitir ver que tan relacionadas<br />

están las categorías fonéticas usadas para la codificación y el tamaño <strong>de</strong> las subca<strong>de</strong>nas en que las<br />

palabras claves vana ser divididas con el nivel <strong>de</strong> precisión y reconocimiento que la herramienta<br />

va a alcanzar.<br />

25


Capítulo 5<br />

Diseño <strong>de</strong> la investigación<br />

5.1. Objeto <strong>de</strong> la Investigación<br />

En esta investigación lo que se busca es encontrar una herramienta que nos permita <strong>de</strong> forma<br />

automática i<strong>de</strong>ntificar la existencia <strong>de</strong> similitud fonética entre los nombres <strong>de</strong> marcas, por lo que el<br />

objeto <strong>de</strong> investigación vendría a ser el nombre en texto <strong>de</strong> la marca <strong>de</strong> la cual se han <strong>de</strong> aprovechar<br />

sus características fonéticas.<br />

5.1.1. Población<br />

La población <strong>de</strong>l experimento esta compuesta por los nombres en texto <strong>de</strong> todas las marcas que<br />

se encuentran registradas en la base <strong>de</strong> datos <strong>de</strong> In<strong>de</strong>copi. Los atributos a tomarse <strong>de</strong> estos registros<br />

serán el número <strong>de</strong> registro <strong>de</strong> la marca, nombre <strong>de</strong> la marca, nombre <strong>de</strong>l propietario e imagen <strong>de</strong><br />

la marca. Se tiene que tomar en cuenta que una <strong>de</strong> las características principales <strong>de</strong> los nombres <strong>de</strong><br />

la marcas es que estas tienen que ser únicas y no ser similares fonéticamente a otros nombres <strong>de</strong><br />

marcas.<br />

5.1.2. Tamaño <strong>de</strong> la población<br />

Se tiene que las marcas <strong>de</strong> productos y servicios son registradas <strong>de</strong>ntro <strong>de</strong> los registros <strong>de</strong> signos<br />

distintivos. Tenemos que <strong>de</strong>s<strong>de</strong> el año 2000 se ha aumentado el número <strong>de</strong> signos distintivos registrados,<br />

llegándose a la actualidad a tener alre<strong>de</strong>dor <strong>de</strong> 176 000 signos distintivos registrados.(Ver<br />

cuadro 5.1).<br />

5.1.3. Tamaño <strong>de</strong> la muestra<br />

Se va a utilizar la siguiente formula teniendo en cuenta que se va a trabajar con un 95 % <strong>de</strong><br />

confianza (Z=1.96) tolerando errores <strong>de</strong> 0.05.<br />

Tenemos que <strong>de</strong> las solicitu<strong>de</strong>s que se realizan un pequeño porcentaje es rechazado <strong>de</strong>bido a<br />

problemas <strong>de</strong> propiedad intelectual (similitud con marcas ya registradas)<br />

26


Año Solicitados Otorgados Acumulados<br />

2000 16565 12724 98830<br />

2001 14312 13258 112088<br />

2002 14601 11452 123540<br />

2003 14484 11424 134964<br />

2004 15564 11274 146238<br />

2005 14556 10606 156844<br />

2006 14373 10133 166977<br />

2007 14190 9659 176636<br />

Cuadro 5.1: Solicitu<strong>de</strong>s <strong>de</strong> registro <strong>de</strong> signos distintivos<br />

Figura 5.1: porcentaje <strong>de</strong> registros otorgados<br />

Usando la tabla 1 po<strong>de</strong>mos obtener que el numero <strong>de</strong> solicitu<strong>de</strong>s realizadas es entre los años<br />

2000 y 2007 fue <strong>de</strong> 118 645, <strong>de</strong> las cuales solo fueron otorgadas 90 530. De lo cual obtenemos que<br />

<strong>de</strong> las solicitu<strong>de</strong>s <strong>de</strong> registro realizadas solo el 76.30 % son otorgadas (Ver figura 5.1), <strong>de</strong> lo cual<br />

tenemos que p=0.763 y q=0.237.<br />

Entonces tenemos que el tamaño <strong>de</strong> la muestra será <strong>de</strong> 277.87 registros.<br />

5.2. Diseño <strong>de</strong> la investigación<br />

5.2.1. Tipo <strong>de</strong> diseño <strong>de</strong> la investigación<br />

La investigación será <strong>de</strong>l tipo experimental, se utilizarán re<strong>de</strong>s neuronales para la i<strong>de</strong>ntificación<br />

similitud fonética entre marcas, para introducir el aspecto fonético se habrá <strong>de</strong> utilizar las<br />

27


categorías fonéticas, se <strong>de</strong>terminará el nivel <strong>de</strong> precisión y reconocimiento <strong>de</strong> la herramienta en<br />

este proceso.<br />

5.2.2. Variables in<strong>de</strong>pendientes<br />

Variable In<strong>de</strong>pendiente Definiciones Conceptuales Definiciones Operacionales<br />

Categoría <strong>de</strong> los fonemas Agrupaciones <strong>de</strong> fonemas con sonidos<br />

similares.<br />

Sistema <strong>de</strong> trascripción fonética<br />

<strong>de</strong>l español IPA.<br />

Tamaño ”n”<strong>de</strong> los n- Tamaño <strong>de</strong>finido para las subca<strong>de</strong>nas<br />

grams.<br />

<strong>de</strong> los n-grams.<br />

Cuadro 5.2: Variables In<strong>de</strong>pendientes<br />

Categorías <strong>de</strong> fonemas Las categorías asignadas a los fonemas estarán basadas en la similitud<br />

fonética <strong>de</strong> los fonemas, viendo aspectos <strong>de</strong> lugar <strong>de</strong> articulación y modo <strong>de</strong> articulación. Así por<br />

ejemplo los fonemas /p/ y /b/ se encontrarían <strong>de</strong>ntro <strong>de</strong> una misma categoría <strong>de</strong>bido a que ambos<br />

son articulados en la zona labial con un modo <strong>de</strong> articulación oclusivo, lo cual los hace similares<br />

fonéticamente.<br />

Tamaño ”n”<strong>de</strong> los n-grams Tamaño <strong>de</strong> las subca<strong>de</strong>nas en que los tokens <strong>de</strong> las marcas comerciales<br />

van a ser divididas, esta variable <strong>de</strong>termina el numero <strong>de</strong> los n-grams que se van a obtener.<br />

5.2.3. Variables <strong>de</strong>pendientes<br />

Variable Dependiente Definiciones Conceptuales Definiciones Operacionales<br />

Precisión<br />

Proporción <strong>de</strong> marcas reconocidas<br />

que realmente son similares.<br />

Comparación y conteo con casos <strong>de</strong><br />

In<strong>de</strong>copi.<br />

Reconocimiento Proporción <strong>de</strong> marcas similares que<br />

han sido reconocidas.<br />

Comparación y conteo con casos <strong>de</strong><br />

In<strong>de</strong>copi.<br />

Cuadro 5.3: Variables Dependientes<br />

Precisión Viene a ser la proporción <strong>de</strong> marcas reconocidas que realmente son similares, mediante<br />

esta variable se va a po<strong>de</strong>r medir la eficiencia <strong>de</strong> la herramienta presentada.<br />

Reconocimiento Viene a ser la proporción <strong>de</strong> marcas similares que han sido reconocidas, es<br />

<strong>de</strong>cir nos muestra <strong>de</strong> todas las marcas que han sido similares por In<strong>de</strong>copi, cuantas han sido reconocidas.<br />

Mediante esta variable se va a po<strong>de</strong>r medir la eficacia <strong>de</strong> la herramienta presentada.<br />

28


5.2.4. Variables <strong>de</strong>l mo<strong>de</strong>lo<br />

Después <strong>de</strong> una revisión se pudo resolver las siguientes variables que forman parte <strong>de</strong>l Mo<strong>de</strong>lo.<br />

Variable <strong>de</strong>l Mo<strong>de</strong>lo Definiciones Conceptuales Definiciones Operacionales<br />

Fonema<br />

Abstracciones mentales o abstracciones<br />

formales <strong>de</strong> los sonidos <strong>de</strong>l<br />

habla.<br />

Sistema <strong>de</strong> trascripción fonética <strong>de</strong>l<br />

español IPA.<br />

Posición <strong>de</strong> los fonemas<br />

Ubicación <strong>de</strong>terminada <strong>de</strong> un fonema<br />

<strong>de</strong>ntro <strong>de</strong> una palabra<br />

Cuadro 5.4: Variables <strong>de</strong>l Mo<strong>de</strong>lo<br />

Conteo <strong>de</strong> posiciones<br />

Fonema Estos fonemas nos permiten representar <strong>de</strong> forma un tanto abstracta la pronunciación<br />

<strong>de</strong> una palabra, así por ejemplo la palabra profesor se podría representar mediante fonemas como<br />

/p, /r/, /o/, /f/, /e/, /s/, /o/, /r/. Se utilizarán los fonemas empleados en el habla española, <strong>de</strong> esta<br />

forma se logrará a<strong>de</strong>cuar la investigación a nuestro contexto.<br />

Posición <strong>de</strong> los fonemas La posición <strong>de</strong> un fonema en particular está <strong>de</strong>terminado por la ubicación<br />

<strong>de</strong>l fonema en la palabra, la posición se da <strong>de</strong> izquierda a <strong>de</strong>recha y esta podría empezar tanto<br />

en cero como en uno. Para esta investigación se tomará al uno como posición <strong>de</strong> inicio.<br />

5.3. Diseño <strong>de</strong> la investigación<br />

Se van a utilizar dos diferentes categorizaciones <strong>de</strong> los fonemas uno tomado <strong>de</strong>l método Phonix<br />

y el otro basado en el IPA en español, Así como el tamaño <strong>de</strong> las subca<strong>de</strong>nas <strong>de</strong> los n-grams,<br />

pudiéndose medir con eso el nivel <strong>de</strong> precisión y reconocimiento <strong>de</strong> la herramienta en el proceso.<br />

Figura 5.2: Diseño <strong>de</strong> la Investigación<br />

29


5.4. Hipotesis<br />

5.4.1. Indicadores<br />

Indicadores <strong>de</strong> Eficacia <strong>de</strong> la i<strong>de</strong>ntificación <strong>de</strong> similitud fonética:<br />

Nivel <strong>de</strong> Reconocimiento.- Este indicador permite ver el grado con el que las marcas similares<br />

han sido i<strong>de</strong>ntificadas, con respecto al número <strong>de</strong> marcas que realmente <strong>de</strong>berían haber sido<br />

i<strong>de</strong>ntificadas, este i<strong>de</strong>ntificador hace énfasis en la i<strong>de</strong>ntificación <strong>de</strong>l mayor numero <strong>de</strong> marcas similares<br />

albergando con esto falsos positivos, es <strong>de</strong>cir marcas i<strong>de</strong>ntificadas como similares pero que<br />

realmente no lo son.<br />

Nivel <strong>de</strong> Reconocimiento = N o marcas similares reconocidas<br />

N o total marcas similares<br />

(5.1)<br />

Nivel <strong>de</strong> Precisión.- Este indicador permite ver el grado <strong>de</strong> precisión con el que las marcas son<br />

i<strong>de</strong>ntificadas, es <strong>de</strong>cir nos permite observar que cantidad <strong>de</strong> todas las marcas i<strong>de</strong>ntificadas han sido<br />

correctas, este i<strong>de</strong>ntificador hace énfasis en la i<strong>de</strong>ntificación <strong>de</strong>l menor número <strong>de</strong> marcas similares<br />

albergando con esto falsos negativos, es <strong>de</strong>cir marcas no han sido i<strong>de</strong>ntificadas como similares pero<br />

que realmente lo son.<br />

Nivel <strong>de</strong> P recision = N o marcas similares reconocidas<br />

N o total marcas reconocidas<br />

(5.2)<br />

Figura 5.3: Indicadores<br />

30


5.4.2. Hipótesis<br />

Para plantear la i<strong>de</strong>ntificación <strong>de</strong> la similitud fonética entre palabras, es <strong>de</strong> vital importancia<br />

<strong>de</strong>scubrir las variables que intervienen y permiten que esta similitud se <strong>de</strong>. Para resolver este primer<br />

punto que forma parte <strong>de</strong> una <strong>de</strong> las preguntas <strong>de</strong> investigación planteadas anteriormente se va a<br />

plantear la siguiente hipótesis.<br />

Hi1 = Los fonemas <strong>de</strong> una palabra, las categorías a la que pertenecen y la posición <strong>de</strong> estos<br />

mismos <strong>de</strong>terminan el grado <strong>de</strong> similitud entre dos palabras.<br />

Hi2 = Mediante el uso <strong>de</strong> re<strong>de</strong>s neuronales se pue<strong>de</strong> alcanzar un nivel <strong>de</strong> eficacia <strong>de</strong> 97 % para<br />

la i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre marcas comerciales<br />

5.4.3. Contraste <strong>de</strong> hipótesis<br />

Para el estudio se plantean dos hipótesis nulas, ya que hay dos hipótesis ya anunciadas.<br />

Hi1 = Los fonemas <strong>de</strong> una palabra, las categorías a la que pertenecen y la posición <strong>de</strong> estos<br />

mismos no <strong>de</strong>terminan el grado <strong>de</strong> similitud entre dos palabras.<br />

Hi2 = Mediante el uso <strong>de</strong> re<strong>de</strong>s neuronales no se pue<strong>de</strong> alcanzar un nivel <strong>de</strong> eficacia <strong>de</strong> 97 %<br />

para la i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre marcas comerciales<br />

5.4.4. Pruebas estadísticas<br />

Año<br />

DECISION<br />

NO RECHAZAR LA HI-<br />

POTESIS H2<br />

RECHAZAR LA HIPO-<br />

TESIS H2<br />

Situación verda<strong>de</strong>ra<br />

LA HIPOTESIS H2 ES VERDA- LA HIPOTESIS H2 ES FALSA<br />

DERA<br />

NO EXISTE ERROR PROB=95 % ERROR DEL TIPO II PROB=3 %<br />

Confianza <strong>de</strong> la prueba<br />

ERROR DEL TIPO I PROB=5 % NO EXISTE ERROR PROB=97 %<br />

Nivel <strong>de</strong> significancia<br />

Potencia<br />

Cuadro 5.5: Pruebas estadísticas<br />

31


Capítulo 6<br />

Mo<strong>de</strong>lo <strong>de</strong> solución<br />

6.1. Mo<strong>de</strong>lo <strong>de</strong> solución<br />

1. Pretratamiento: Durante el pretratamiento se eliminan todos los caracteres <strong>de</strong>ntro <strong>de</strong>l nombre<br />

en texto <strong>de</strong> la marca que no tienen significado fonético, tales como números, signos <strong>de</strong> puntuación,<br />

etc. <strong>de</strong>ntro <strong>de</strong>l nombre.<br />

2. Parsing: Se elaboran a partir <strong>de</strong>l nombre <strong>de</strong> la marca las palabras clave (Tokens) basándose<br />

en el número <strong>de</strong> palabras que tenga este y una combinación <strong>de</strong> las mismas. Por ejemplo para la<br />

marca ”sello <strong>de</strong> oro”, los tokens serian: ”sello”, ”<strong>de</strong>”, ”oro”, ”sello<strong>de</strong>”, ”<strong>de</strong>oro”, ”sello<strong>de</strong>oro”.<br />

3. I<strong>de</strong>ntificación <strong>de</strong> elementos no significativos: A través <strong>de</strong>l uso <strong>de</strong> un diccionario <strong>de</strong> palabras<br />

se separan <strong>de</strong> las palabras claves no trascen<strong>de</strong>ntes, por ejemplo <strong>de</strong> los tokens anteriores ”<strong>de</strong>”no<br />

tiene trascen<strong>de</strong>ncia, por los que los tokens significativos finales serían: ”sello”, ”oro”, ”sello<strong>de</strong>”,<br />

”<strong>de</strong>oro”, ”sello<strong>de</strong>oro”.<br />

4. Pre-tratamiento fonético <strong>de</strong> los Tokens: Se realiza la simplificación fonética <strong>de</strong> los tokens,<br />

para la cual se va a remplazar las letras o conjunto <strong>de</strong> letras que no se encuentren <strong>de</strong>ntro <strong>de</strong>l<br />

universo <strong>de</strong> fonemas <strong>de</strong>finido por sus similares. Para esto se va a reemplazar letras juntas que<br />

tienen similitud fonética con una sola letra. Por ejemplo la marca Macson sería remplazada por<br />

su similar Maxon. Serian reemplazados: ”LL”por ”Y”, ”SC”por ”X”, ”QU”por ”K”por ejemplo.<br />

”seyo”, ”oro”, ”seyo<strong>de</strong>”, ”<strong>de</strong>oro”, ”seyo<strong>de</strong>oro”.<br />

5. Generación <strong>de</strong> n-grams: Se van a generar una serie <strong>de</strong> n-grams para cada uno <strong>de</strong> tokens<br />

simplificados para ser usados como neuronas <strong>de</strong> entrada para la red neuronal, con n ¡tamaño <strong>de</strong>l<br />

token simplificado. Por ejemplo para el token ”seyo<strong>de</strong>oro con n=6, se obtendría los siguientes<br />

n-grams.<br />

(seyo<strong>de</strong>o) (eyo<strong>de</strong>or) (yo<strong>de</strong>oro)<br />

2<br />

32


6. Codificación <strong>de</strong> los n-grams: Se asigna un valor numérico a cada letra <strong>de</strong> los n-grams <strong>de</strong><br />

acuerdo a un valor establecido, don<strong>de</strong> se agrupan las palabras con similitud fonética.<br />

(seyo<strong>de</strong>o) (10 1 12 0 5 1 0)<br />

(eyo<strong>de</strong>or) (1 12 0 5 1 0 6)<br />

(yo<strong>de</strong>oro) (12 0 5 1 0 6 0)<br />

Código Caracter<br />

0 A O<br />

1 E I<br />

2 U<br />

3 B V<br />

4 C K<br />

5 D T<br />

6 L R<br />

7 M N<br />

8 G J<br />

9 F P<br />

10 S Z<br />

11 X<br />

12 Y<br />

Cuadro 6.1: Codificación fonética<br />

7.- codificación inversa <strong>de</strong> n-grams: Se va a <strong>de</strong>signar la similitud inversa entre grupos <strong>de</strong> letras,<br />

esto es grupos <strong>de</strong> letras que suenan completamente diferente o por lo menos lo más diferente<br />

posible.<br />

(seyo<strong>de</strong>o) (9 0 11 2 6 0 2)<br />

(eyo<strong>de</strong>or) (0 11 2 6 0 2 5)<br />

(yo<strong>de</strong>oro) (11 2 6 0 2 5 2)<br />

8.- Entrenamiento <strong>de</strong> la red neuronal: Para este entrenamiento se van a usar como entradas los<br />

n-grams codificados y sus inversos, obtenidos en los pasos 5 y 6. De tal forma que para los n-grams<br />

codificados su valor <strong>de</strong> clase será 0, y para sus inversos será <strong>de</strong> 1.<br />

33


Código Caracter<br />

0 E I<br />

1 U<br />

2 A O<br />

3 M N<br />

4 G J<br />

5 L R<br />

6 D T<br />

7 B V<br />

8 C K<br />

9 S Z<br />

10 F P<br />

11 Y<br />

12 X<br />

Cuadro 6.2: Codificación fonética inversa<br />

9.- Test: Se hace un test con los n-grams codificados <strong>de</strong> las marcas que se ya están registradas<br />

en la base <strong>de</strong> datos <strong>de</strong> in<strong>de</strong>copi y los n-grams codificados <strong>de</strong> las marcas que han sido encontradas<br />

como similares en los casos tratados por In<strong>de</strong>copi. La red neuronal va clasificar a los casos que<br />

encuentre como similares como 0 y a los que no consi<strong>de</strong>re similares como 1.<br />

10.- Análisis <strong>de</strong> los resultados: Se va a obtener los indicadores <strong>de</strong> reconocimiento y precisión<br />

34


Figura 6.1: Mo<strong>de</strong>lo <strong>de</strong> Solucion<br />

35


Capítulo 7<br />

Instrumentos <strong>de</strong> Medición<br />

7.1. Operacionalización <strong>de</strong> las variables.<br />

Variable Definiciones Conceptuales Definiciones Operacionales<br />

Categoría <strong>de</strong> los fonemas Agrupaciones <strong>de</strong> fonemas con sonidos<br />

similares.<br />

Sistema <strong>de</strong> trascripción fonética<br />

<strong>de</strong>l español IPA.<br />

Tamaño ”n”<strong>de</strong> los n- Tamaño <strong>de</strong>finido para las subca<strong>de</strong>nas<br />

grams.<br />

<strong>de</strong> los n-grams.<br />

Precisión<br />

Proporción <strong>de</strong> marcas reconocidas<br />

que realmente son similares.<br />

Comparación y conteo con casos<br />

<strong>de</strong> In<strong>de</strong>copi.<br />

Reconocimiento<br />

Proporción <strong>de</strong> marcas similares que<br />

han sido reconocidas.<br />

Comparación y conteo con casos<br />

<strong>de</strong> In<strong>de</strong>copi.<br />

Fonema<br />

Abstracciones mentales o abstracciones<br />

formales <strong>de</strong> los sonidos <strong>de</strong>l<br />

Sistema <strong>de</strong> trascripción fonética<br />

<strong>de</strong>l español IPA.<br />

habla.<br />

Posición <strong>de</strong> los fonemas Ubicación <strong>de</strong>terminada <strong>de</strong> un fonema<br />

<strong>de</strong>ntro <strong>de</strong> una palabra<br />

Conteo <strong>de</strong> posiciones<br />

Cuadro 7.1: Operacionalizacion <strong>de</strong> las Variables<br />

36


7.2. Instrumentos <strong>de</strong> medición<br />

Variable Tipo Escala Descripción<br />

Categoría <strong>de</strong> los fonemas<br />

Cualitativa Nominal Categoria Phonix, Según la fuente usación<br />

dicotómica Categoria IPA da para su elabora-<br />

Tamaño n <strong>de</strong> los n-<br />

grams<br />

cuantitativa discreta 4,5,6 tamaño <strong>de</strong> las subca<strong>de</strong>nas<br />

que se <strong>de</strong>see<br />

utilizar para los n-<br />

gram<br />

Precisión cuantitativa continua <strong>de</strong>s<strong>de</strong> 0 hasta 1 Según la proporcion<br />

<strong>de</strong> marcas i<strong>de</strong>ntificadas<br />

que realmente<br />

son similares<br />

Reconocimiento cuantitativa continua <strong>de</strong>s<strong>de</strong> 0 hasta 2 Según la proporcion<br />

<strong>de</strong> marcas similares<br />

que han sido i<strong>de</strong>ntificadas<br />

Fonema cuantitativa discreta son 22 fonemas Según la letra a la<br />

que representa el fonema<br />

Posición <strong>de</strong> los fonemas<br />

cuantitativa discreta Des<strong>de</strong> 0 hasta el<br />

tamño <strong>de</strong> la ca<strong>de</strong>na<br />

Cuadro 7.2: Variables<br />

Según la ubicación<br />

en la que se encuentre<br />

el fonema<br />

7.3. Muestreo<br />

El muestreo vendría a ser probabilístico, teniendose como poblacion la que esta compuesta<br />

por los nombres en texto <strong>de</strong> todas las marcas que se encuentran registradas en la base <strong>de</strong> datos<br />

<strong>de</strong> In<strong>de</strong>copi, el muestreo será aleatorio simple, no se i<strong>de</strong>ntifican estratos. Se utilizará los números<br />

aleatorios como procedimiento <strong>de</strong> selección.<br />

37


Capítulo 8<br />

Planificación <strong>de</strong> la investigación<br />

8.1. Descripción <strong>de</strong> activida<strong>de</strong>s - etapas<br />

Suscripción a revistas Se va a realizar la suscripción a ACM i a la IEE para tener acceso los informes<br />

publicaciones y libros que hay referidos al tema que es reconocimiento <strong>de</strong> similitud fonética<br />

entre marcas comerciales.<br />

Análisis <strong>de</strong> Viabilidad Se va a hacer un análisis <strong>de</strong> que tan posibles es realizar la investigación,<br />

viendo por un lado los costos y la extensión <strong>de</strong> esta.<br />

Marco Teórico Se va a realizar la revisión bibliográfica, buscado los conceptos que van servir<br />

<strong>de</strong> base para la investigación, se va a buscar información sobre los instrumentos o algoritmos que<br />

se utilizan para realizar la i<strong>de</strong>ntificación <strong>de</strong> similitud entre marcas comerciales.<br />

Problema, Objetivo, Justificación, Alcances, Tipo <strong>de</strong> Investigación Se <strong>de</strong>fine la problemática<br />

y el problema, planteándose como objetivos resolver el problema siendo las consecuencias <strong>de</strong> esta<br />

solución el mejoramiento <strong>de</strong> la problemática, se <strong>de</strong>fine a<strong>de</strong>más hasta don<strong>de</strong> se va a llegar, que<br />

temas se va abarcar y el contexto en que se va a realizar la investigación.<br />

Objeto <strong>de</strong> Investigación, Población, Muestra Se i<strong>de</strong>ntifica el objetivo <strong>de</strong> investigación así como<br />

la población a la que pertenece y <strong>de</strong> la cual se han <strong>de</strong> tomar los datos, que no va a ser <strong>de</strong>l<br />

100<br />

Variables in<strong>de</strong>pendientes, <strong>de</strong>pendientes, diseño experimental, hipótesis Se i<strong>de</strong>ntifican las variables<br />

<strong>de</strong>pendientes e in<strong>de</strong>pendientes que forman parte <strong>de</strong> la investigación, se plantean las hipótesis<br />

las cuales respon<strong>de</strong>n a los objetivos planteados anteriormente.<br />

Mo<strong>de</strong>lo <strong>de</strong> Solución Se plantea un mo<strong>de</strong>lo <strong>de</strong> solución que especifica los pasos a seguir para<br />

resolver el problema <strong>de</strong> investigación.<br />

38


Plan <strong>de</strong> trabajo, costos, financiamiento Se establecen y <strong>de</strong>scriben las etapas <strong>de</strong> la investigación,<br />

especificando los costos en los que se va a incurrir durante la investigación así como la forma qu<br />

que se va afinanciar este.<br />

8.2. Cronograma <strong>de</strong> trabajo<br />

8.3. Presupuesto <strong>de</strong> la Investigacion<br />

Concepto Costo unitario (Dolares) Costo Total (Dolares)<br />

Sueldo <strong>de</strong>l Investigador 800 4800<br />

Inscripción al portal ACM 100 600<br />

Inscripción a la IEEE 35 210<br />

Capacitación al Personal 90 90<br />

Costos Operativos 50 300<br />

Contratación <strong>de</strong> Personal 300 1800<br />

Libros Científicos 50 300<br />

Computador Personal 800 800<br />

TOTAL 8900<br />

Cuadro 8.1: Presupuesto<br />

8.3.1. Fuentes <strong>de</strong> Financiamiento<br />

El financiamiento será propio<br />

39


40<br />

Figura 8.1: Cronograma <strong>de</strong> activida<strong>de</strong>s


Capítulo 9<br />

Conclusiones<br />

9.1. Conclusiones<br />

1. La eficacia <strong>de</strong>l proceso manual para la i<strong>de</strong>ntificacion <strong>de</strong> marcas similares tiene un nivel <strong>de</strong><br />

tan solo 89 % (Ver cuadro 2.2).<br />

2. El procentaje <strong>de</strong> marcas solicitadas que son similares a las ya registradas es <strong>de</strong> 23.70 % (Ver<br />

figura 5.1).<br />

3. En promedio se tratan alre<strong>de</strong>dor <strong>de</strong> 419 casos <strong>de</strong> <strong>de</strong>nuncias por infracciones <strong>de</strong> similitud<br />

fo<strong>net</strong>ica entre marcas (Ver cuadro 2.2).<br />

4. el tratamiento <strong>de</strong> estos casos <strong>de</strong>viene en costos <strong>de</strong> mas <strong>de</strong> S/131 000.00 soles anuales (Ver<br />

cuadro 2.2).<br />

5. En el estudio se tiene que dar mayor prepon<strong>de</strong>rancia al nivel <strong>de</strong> reconocimiento sobre el nivel<br />

<strong>de</strong> precisión, esto va a permitir que el mayor número <strong>de</strong> marcas similares sean i<strong>de</strong>ntificadas.<br />

41


Bibliografía<br />

[1] C J Fall, C. Giraud-Carrier. Searching tra<strong>de</strong>mark databases for verbal similarities, World<br />

Patent Information 27 (2005) 135-143.<br />

[2] Bugdahl V. Markenrecherchen - eine subjective Momen - taufnahme. MarkenR<br />

2003;05/2003:169-80<br />

[3] Zobel J, Dart P. Finding approximate matches in large lexicons. Software-Practice Experience<br />

1995;25:331-45<br />

[4] E. Ukkonen, ’Approximate string-matching with q-grams and maximal matches’, Theoretical<br />

Computer Science, 92, 191-211 (1992).<br />

[5] World Intellectual Property Organization, Un<strong>de</strong>rstanding Industrial Property: WIPO Publication<br />

No. 895(E) ISBN 92-805-1257-9<br />

[6] Holmes D, McCabe MC. Improving precision and recall for soun<strong>de</strong>x retrieval. Proceedings<br />

of the International Conference on Information Technology: Coding and Computing.<br />

Las Vegas, Nevada: IEEE Computer Society; 2002. p. 22-7<br />

[7] Fischer I, Zell A. String averages and self-organizing maps for strings. In: Proceedings of<br />

the Second ICSC Symposium on Neural Computation-NCÕ2000. Canada/Switzerland:<br />

ICSC Aca<strong>de</strong>mic Press; 2000. p. 208-15<br />

[8] Wu S, Manber U. Fast text searching allowing errors. Común ACM 1992;35:83-91.<br />

[9] Zobel J, Dart P. Pho<strong>net</strong>ic string matching: lessons from information retrieval. In: Frei<br />

H-P, Harman D, Schäble P, Wilkinson R, editors. Proceedings of the 19th International<br />

Conference on Research and Development in Information Retrieval. Zurich, Switzerland:<br />

ACM Press; 1996. p. 166-72<br />

[10] Brodda B. Corpus work with PC beta: a presentation. Proceedings of the 13th conference<br />

on computational linguistics, vol. 3. Mor- ristown, NJ: Association for Computational<br />

Linguistics; 1990. p. 405-9<br />

[11] McAllister R, Brodda B. Development of a new speech comprehension test with a phonological<br />

distance metric. Proceedings of Fo<strong>net</strong>ik 2002, the XVth Swedish Pho<strong>net</strong>ics<br />

42


Conference, Fysik-centrum, Stockholm, May 29-31, 2002, vol. 44. Stockholm, Swe<strong>de</strong>n:<br />

KTH; 2002. p. 149-51.<br />

[12] Erikson K. Approximate swedish name matching survey and test of different algorithms.<br />

MasterÕs thesis, Department of Numerical Analysis and Computing Science, KTH, Royal<br />

Insti- tute of Technology, Nada, S-100 44 Stockholm, Swe<strong>de</strong>n, 1997<br />

[13] Hodge VJ, Austin J. An evaluation of pho<strong>net</strong>ic spell checkers, 2001.<br />

[14] Teuvo Kohonen. An Introduction to Neural Computing, Helsinki University of Technology,<br />

Neural Networks. Vol. 1. pp. 3-16. 1988<br />

[15] Kukich, Karen. Techniques for Automatically Correcting Words in: ACM Computing<br />

Surveys, Vol 24(4) Dec. 1992, pp 377-439<br />

[16] Kukich, Karen. A Comparison of Some Novel and Traditional Lexical Distance Metrics<br />

for Spelling Correction. In: Proceedings of INNC-90-Paris, Paris, France, July 1990, pp<br />

309-313<br />

43

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!