Universidad Nacional de Ingenierıa - Wiphala.net
Universidad Nacional de Ingenierıa - Wiphala.net
Universidad Nacional de Ingenierıa - Wiphala.net
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Universidad</strong> <strong>Nacional</strong> <strong>de</strong> Ingeniería<br />
Facultad <strong>de</strong> Ingeniería Industrial y <strong>de</strong> Sistemas<br />
Escuela Profesional <strong>de</strong> Ingeniería <strong>de</strong> Sistemas<br />
Propuesta <strong>de</strong> Tesis presentada para obtener el grado <strong>de</strong><br />
Ingeniero <strong>de</strong> Sistemas<br />
I<strong>de</strong>ntificación Automatica <strong>de</strong> Similitud Fonética entre Marcas<br />
Comerciales<br />
por<br />
Saucedo Ascona Edwin Manuel<br />
20030056I<br />
Lima - Lima<br />
Enero <strong>de</strong> 2008
I<strong>de</strong>ntificación Automatica <strong>de</strong> Similitud Fonética entre<br />
Marcas Comerciales<br />
Saucedo Ascona Edwin Manuel<br />
4 <strong>de</strong> febrero <strong>de</strong> 2008
I<strong>de</strong>ntificación Automatica <strong>de</strong> Similitud<br />
Fonética entre Marcas Comerciales<br />
Saucedo Ascona Edwin Manuel<br />
20030056I<br />
Facultad <strong>de</strong> Ingeniería Industrial y <strong>de</strong> Sistemas, 2007<br />
Asesor <strong>de</strong> Tesis: Mag. Samuel Alonso Oporto Díaz<br />
La investigación preten<strong>de</strong> establecer como objetivo validar un instrumento para medir el nivel<br />
<strong>de</strong> similitud fonética entre marcas comerciales. Se preten<strong>de</strong> utilizar las Re<strong>de</strong>s Neuronales para este<br />
propósito Se va a utilizar las marcas registradas en In<strong>de</strong>copi para realizar el entrenamiento <strong>de</strong> la<br />
red neuronal y para realizar el Test se utilizará las marcas comerciales presentados en los casos<br />
tratados por In<strong>de</strong>copi. Se medirá el nivel <strong>de</strong> reconocimiento y precisión <strong>de</strong> dicha herramienta,<br />
enfatizando el nivel <strong>de</strong> reconocimiento para así reducir los falsos negativos que vendrían a ser las<br />
marcas que son similares pero que no fueron i<strong>de</strong>ntificadas pero sin <strong>de</strong>scuidar <strong>de</strong>masiado el nivel<br />
<strong>de</strong> precisión. Se presenta el mo<strong>de</strong>lo <strong>de</strong> solución en el cual se realiza una serie <strong>de</strong> tratamientos a las<br />
marcas comerciales (nombre en texto) empleando para la investigación dos diferentes categorías<br />
la primera la establecida por el algoritmo Phonix y la segunda elaborada con base en el Sistema <strong>de</strong><br />
trascripción fonética <strong>de</strong>l español IPA.
Automatic I<strong>de</strong>ntification of Pho<strong>net</strong>ic<br />
Similarity Between Tra<strong>de</strong>marks<br />
Saucedo Ascona Edwin Manuel<br />
20030056I<br />
Faculty of Industrial Engineering and Systems, 2007<br />
Major Professor: Samuel Alonso Oporto Díaz, Msc<br />
This Investigation pretends to establish as objective to validate a tool to measure the pho<strong>net</strong>ic<br />
similarity level between tra<strong>de</strong>marks. It’s preten<strong>de</strong>d to use neural <strong>net</strong>works to this purpose. Tra<strong>de</strong>marks<br />
registered in In<strong>de</strong>copi will be used to do the neural <strong>net</strong>work training and tra<strong>de</strong>marks<br />
presented in the cases treated by In<strong>de</strong>copi will be used to do the Test. Precision level and recall<br />
level of the tool will be measured, emphasizing the recall level to reduce false negatives which<br />
are the tra<strong>de</strong>mark that are similar and were not retrieved, but without forget the precision level.<br />
A solution mo<strong>de</strong>l in which a set of treatments are used on tra<strong>de</strong>marks (name in text), using for<br />
two pho<strong>net</strong>ic categories for the investigation, the first category is one established by the Phonix<br />
algorithm and the second one elaborated based in Spanish pho<strong>net</strong>ic transcription system IPA.
Índice general<br />
1. Introducción 8<br />
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
1.2. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />
1.3. Alcances y Limitaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.3.1. Alcances <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.3.2. Limitaciones <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . 10<br />
2. Formulación <strong>de</strong>l problema 11<br />
2.1. Descripción <strong>de</strong> la situación problemática . . . . . . . . . . . . . . . . . . . . . . . 11<br />
2.2. Descripción <strong>de</strong>l problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
2.3. Objetivo <strong>de</strong> la Investigacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
2.3.1. Objetivo superior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
2.3.2. Objetivo principal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
2.3.3. Objetivos específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
2.4. Árbol <strong>de</strong> problemas y objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
2.4.1. Árbol <strong>de</strong> problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
2.4.2. Árbol <strong>de</strong> objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
3. Revisión <strong>de</strong> la bibliografía 16<br />
3.1. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />
3.1.1. Definición <strong>de</strong> Marca Comercial . . . . . . . . . . . . . . . . . . . . . . . 16<br />
3.1.2. Funciones <strong>de</strong> las marcas comerciales . . . . . . . . . . . . . . . . . . . . 16<br />
3.1.3. Reglas <strong>de</strong> similitud entre marcas comerciales . . . . . . . . . . . . . . . . 17<br />
3.1.4. Fonemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
3.1.5. Categorias Fonéticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
3.2. Algoritmos <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud verbal . . . . . . . . . . . . . . . . . . . 18<br />
3.2.1. Algoritmos basados en el or<strong>de</strong>n <strong>de</strong> letras en una ca<strong>de</strong>na . . . . . . . . . . . 18<br />
3.2.2. Algoritmos basados en aspectos fonéticos . . . . . . . . . . . . . . . . . . 21<br />
3.3. Estudios Realizados Anteriormente . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
3.3.1. Desarrollo <strong>de</strong> una comparación computarizada <strong>de</strong> similitud fonológica entre<br />
marcas comerciales en Suecia . . . . . . . . . . . . . . . . . . . . . . 23<br />
3.3.2. Sistema <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre nombres en directorios<br />
telefónicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
3
3.3.3. Correctores fonéticos <strong>de</strong> escritura. . . . . . . . . . . . . . . . . . . . . . . 24<br />
3.3.4. Buscando en las bases <strong>de</strong> datos <strong>de</strong> marcas comerciales por similitud verbal 24<br />
4. Metodología <strong>de</strong> la Investigación 25<br />
4.1. Tipo <strong>de</strong> Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
5. Diseño <strong>de</strong> la investigación 26<br />
5.1. Objeto <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
5.1.1. Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
5.1.2. Tamaño <strong>de</strong> la población . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
5.1.3. Tamaño <strong>de</strong> la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />
5.2. Diseño <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
5.2.1. Tipo <strong>de</strong> diseño <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . 27<br />
5.2.2. Variables in<strong>de</strong>pendientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
5.2.3. Variables <strong>de</strong>pendientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
5.2.4. Variables <strong>de</strong>l mo<strong>de</strong>lo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />
5.3. Diseño <strong>de</strong> la investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />
5.4. Hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
5.4.1. Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
5.4.2. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
5.4.3. Contraste <strong>de</strong> hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
5.4.4. Pruebas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
6. Mo<strong>de</strong>lo <strong>de</strong> solución 32<br />
6.1. Mo<strong>de</strong>lo <strong>de</strong> solución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
7. Instrumentos <strong>de</strong> Medición 36<br />
7.1. Operacionalización <strong>de</strong> las variables. . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
7.2. Instrumentos <strong>de</strong> medición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
7.3. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
8. Planificación <strong>de</strong> la investigación 38<br />
8.1. Descripción <strong>de</strong> activida<strong>de</strong>s - etapas . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />
8.2. Cronograma <strong>de</strong> trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
8.3. Presupuesto <strong>de</strong> la Investigacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
8.3.1. Fuentes <strong>de</strong> Financiamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
9. Conclusiones 41<br />
9.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />
4
Índice <strong>de</strong> cuadros<br />
2.1. Registro <strong>de</strong> Marcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />
2.2. Nivel <strong>de</strong> Eficacia y Costos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
3.1. Fonemas <strong>de</strong>l habla española . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />
3.2. Fonemas Vocálicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
3.3. Fonemas <strong>de</strong> Consonantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
3.4. Marco ConceptualInstrumental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
3.5. Codificación Soun<strong>de</strong>x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
3.6. Codificación Phonix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />
3.7. Codificación Soun<strong>de</strong>x . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
3.8. Antece<strong>de</strong>ntes <strong>de</strong> Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
5.1. Solicitu<strong>de</strong>s <strong>de</strong> registro <strong>de</strong> signos distintivos . . . . . . . . . . . . . . . . . . . . . 27<br />
5.2. Variables In<strong>de</strong>pendientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
5.3. Variables Dependientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
5.4. Variables <strong>de</strong>l Mo<strong>de</strong>lo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />
5.5. Pruebas estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />
6.1. Codificación fonética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
6.2. Codificación fonética inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />
7.1. Operacionalizacion <strong>de</strong> las Variables . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />
7.2. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />
8.1. Presupuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />
5
Índice <strong>de</strong> figuras<br />
1.1. Registro <strong>de</strong> Signos distintivos Acumulados . . . . . . . . . . . . . . . . . . . . . 9<br />
1.2. Casos por infracciones resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
2.1. Registro <strong>de</strong> Marcas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />
2.2. Arbol <strong>de</strong> Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />
2.3. Arbol <strong>de</strong> Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
3.1. Ejemplo Edit Distance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
3.2. Relacion <strong>de</strong> recurrencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
3.3. Ejemplo Modified Edit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
3.4. n-gram formula 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
3.5. n-gram formula 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
3.6. formula editex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
5.1. porcentaje <strong>de</strong> registros otorgados . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
5.2. Diseño <strong>de</strong> la Investigación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />
5.3. Indicadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
6.1. Mo<strong>de</strong>lo <strong>de</strong> Solucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
8.1. Cronograma <strong>de</strong> activida<strong>de</strong>s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
6
Capítulo 1<br />
Introducción<br />
1.1. Introducción<br />
Al hablar <strong>de</strong> una marca comercial hablamos <strong>de</strong> un signo distintivo que permite distinguir un<br />
producto o servicio <strong>de</strong> otros, a través <strong>de</strong> su registro una persona o empresa pue<strong>de</strong> evitar el mal<br />
uso <strong>de</strong> esta por terceros, esto es evitar que estos terceros utilicen el prestigio ya adquirido <strong>de</strong> una<br />
marca para su propio beneficio. Esto se pue<strong>de</strong> dar <strong>de</strong> dos formas: directa que es cuando el consumidor<br />
adquiere un producto confundiendo su nombre con el <strong>de</strong> una marca prestigiosa, o indirecta<br />
cuando el consumidor confun<strong>de</strong> el origen <strong>de</strong> un producto. En la actualidad es In<strong>de</strong>copi a través <strong>de</strong><br />
su oficina <strong>de</strong> signos distintivos quien se encarga <strong>de</strong> ver estos aspectos <strong>de</strong> propiedad intelectual <strong>de</strong><br />
marcas comerciales. Sin embargo, el método que emplean para evaluar la registrabilidad <strong>de</strong> una<br />
marca (ver si hay alguna marca ya registrada con la que la marca a registrase tenga cierto grado <strong>de</strong><br />
similitud fonética) tiene tan solo un 89 % <strong>de</strong> eficacia, esto es <strong>de</strong> las 100 marcas similares que <strong>de</strong>bieron<br />
ser <strong>de</strong>tectadas tan solo 89 lo han sido, mientras que las restantes son registradas generando<br />
posteriormente <strong>de</strong>nuncias por casos <strong>de</strong> similitud. En promedio se tratan alre<strong>de</strong>dor <strong>de</strong> 419 casos <strong>de</strong><br />
<strong>de</strong>nuncias por infracciones <strong>de</strong> similitud fonética entre marcas, el tratamiento <strong>de</strong> estos casos <strong>de</strong>viene<br />
en costos <strong>de</strong> más <strong>de</strong> S/131’000.00 soles anuales, costos que son asumidos por las empresas las<br />
cuales tienen que realizar la solicitud <strong>de</strong> oposición <strong>de</strong> estas marcas para <strong>de</strong>fen<strong>de</strong>r sus <strong>de</strong>rechos. Lo<br />
que se busca con el planteamiento <strong>de</strong> esta Tesis es encontrar una herramienta que permita incrementar<br />
la eficacia hasta llegar a un 97 % en la i<strong>de</strong>ntificación <strong>de</strong> similitud entre marcas comerciales<br />
con esto se podrá reducir en un 70 % el numero <strong>de</strong> casos <strong>de</strong> marcas similares registradas así como<br />
los costos por su tratamiento.<br />
1.2. Justificación<br />
El presente estudio brindará una herramienta que permita tratar la creciente <strong>de</strong>manda <strong>de</strong> registros<br />
distintivos en dos aspectos principales: eficacia (Presición y reconocimiento) y velocidad.<br />
Debido a la naturaleza acumulativa <strong>de</strong> las marcas comerciales, cada vez hay un mayor número <strong>de</strong><br />
estas (ver figura 1.1) en la actualidad hay alre<strong>de</strong>dor <strong>de</strong> 170 000 marcas registradas, por lo que se<br />
hace más difícil el evaluar la registrabilidad <strong>de</strong> las mismas. Cada vez quedan menos opciones para<br />
nombres <strong>de</strong> marcas por lo que se incrementa el riesgo <strong>de</strong> similitud con las ya registradas. Lo cual<br />
8
se manifiesta en el incremento <strong>de</strong> casos que se tienen que tratar anualmente (ver figura 1.2). De no<br />
implementarse una solución el numero <strong>de</strong> casos a tratar continuará incrementándose y con esto los<br />
costos implicados con la resolución <strong>de</strong> los mismos.<br />
Figura 1.1: Registro <strong>de</strong> Signos distintivos Acumulados<br />
Figura 1.2: Casos por infracciones resueltos<br />
9
1.3. Alcances y Limitaciones<br />
1.3.1. Alcances <strong>de</strong> la Investigación<br />
La investigación estará orientada al registro <strong>de</strong> marcas comerciales que se realiza en el Perú teniendo<br />
en cuenta la legislación peruana. Por otro lado la investigación a realizarse estará limitada<br />
al idioma castellano, <strong>de</strong>bido a que se utilizará como base para el estudio fonético la trascripción<br />
fonética con el IPA y <strong>de</strong>bido a que este es el idioma que se utiliza en el Perú. A<strong>de</strong>más para<br />
un estudio <strong>de</strong> similitud fonético se requiere realizar una adaptación al idioma <strong>de</strong> interés (Fall-<br />
GiraudCarrier, [1]).<br />
1.3.2. Limitaciones <strong>de</strong> la Investigación<br />
En primer lugar la i<strong>de</strong>ntificación <strong>de</strong> similitud no entrará en la parte grafica, sino se buscará i<strong>de</strong>ntificar<br />
la similitud fonética como se especifica en el titulo <strong>de</strong> la investigación. Por tanto no se<br />
verá los casos <strong>de</strong> similitud entre logos o imágenes que se utilizan para las marcas comerciales. La<br />
investigación no podrá ser valida para marcas comerciales que utilicen números o signos <strong>de</strong> puntuación<br />
en su escritura. La investigación tendrá mayor prioridad sobre el nivel <strong>de</strong> reconocimiento<br />
que el <strong>de</strong> precisión, ya que con esto se podrá conseguir i<strong>de</strong>ntificar el mayor número <strong>de</strong> marcas<br />
similares permitiéndose falsos positivos en la i<strong>de</strong>ntificación, los cuales vendrían a ser marcas no<br />
similares que serían i<strong>de</strong>ntificadas como si lo fueran.<br />
10
Capítulo 2<br />
Formulación <strong>de</strong>l problema<br />
2.1. Descripción <strong>de</strong> la situación problemática<br />
In<strong>de</strong>copi a través <strong>de</strong> su oficina <strong>de</strong> signos distintivos tiene que procesar 419 casos anual <strong>de</strong>bido<br />
a problemas con imitación <strong>de</strong> marcas o alto grado <strong>de</strong> similitud entre estas, se gasta S/ 131 012.00<br />
anualmente en resolver casos <strong>de</strong> este tipo (Ver cuadro 2.2). El número <strong>de</strong> marcas que se registran<br />
mensualmente es alto, son en promedio 1236 solicitu<strong>de</strong>s <strong>de</strong> registro <strong>de</strong> marcas mensualmente,<br />
<strong>de</strong> las cuales solo 943 son otorgadas (Ver cuadro 2.1). A<strong>de</strong>más al haber marcas similares en el<br />
mercado se corre el riesgo <strong>de</strong> que se confunda al consumidor, ya que este podría confundir una<br />
marca ya registrada con la <strong>de</strong> un competidor y adquirir esta por equivocación.<br />
Año Solicitados Otorgados Rechazados<br />
2000 16565 12724 3841<br />
2001 14312 13258 1054<br />
2002 14601 11452 3149<br />
2003 14484 11424 3060<br />
2004 15564 11274 4290<br />
2005 14556 10606 3950<br />
2006 14373 10133 4240<br />
2007 14190 9659 4531<br />
Cuadro 2.1: Registro <strong>de</strong> Marcas<br />
En la figura 2.1 se muestra el numero <strong>de</strong> solicitu<strong>de</strong>s <strong>de</strong> marcas en In<strong>de</strong>copi durante los meses<br />
<strong>de</strong>s<strong>de</strong> el año 2000 hasta el 2007. Siendo los años 2005, 2006 y 2007 proyecciones <strong>de</strong> los valores<br />
<strong>de</strong> los años anteriores.<br />
11
Figura 2.1: Registro <strong>de</strong> Marcas<br />
2.2. Descripción <strong>de</strong>l problema<br />
El problema es que el método usado para la evaluación <strong>de</strong> registrabilidad, esto es evaluar la<br />
similitud tanto fonética como grafica <strong>de</strong> una marca por registrar con una ya registrada, tiene un<br />
porcentaje <strong>de</strong> 89 % <strong>de</strong> eficacia (Ver cuadro 2.2). Por tanto muchas marcas similares a las ya registradas<br />
pasan este examen <strong>de</strong> registrabilidad y son registradas, estamos hablando <strong>de</strong> un promedio<br />
<strong>de</strong> 419 marcas similares registradas anualmente. A<strong>de</strong>más este proceso toma gran tiempo, estamos<br />
hablando <strong>de</strong> 25 días hábiles <strong>de</strong> espera <strong>de</strong>spués <strong>de</strong> la publicación <strong>de</strong> la marca en el diario El Peruano<br />
y alre<strong>de</strong>dor <strong>de</strong> 7 días para la finalización <strong>de</strong>l registro en caso la marca haya pasado el examen <strong>de</strong><br />
registrabilidad y no haya habido un empresa que solicite oposición por similitud con su propia<br />
marca.<br />
2.3. Objetivo <strong>de</strong> la Investigacion<br />
2.3.1. Objetivo superior<br />
El objetivo superior <strong>de</strong> esta propuesta <strong>de</strong> tesis es el <strong>de</strong> reducir el número <strong>de</strong> juicios por casos<br />
<strong>de</strong> marcas similares en más <strong>de</strong> 70 % y con esto reducir los costos que se dan <strong>de</strong>bido a estos<br />
juicios también en un 70 %. Cabe especificar que el estudio a realizarse servirá <strong>de</strong> base para la<br />
implementación <strong>de</strong> una solución que permitirá la consecución <strong>de</strong>l el objetivo antes mencionado.<br />
12
2.3.2. Objetivo principal<br />
Año Casos % Eficacia Costo<br />
2000 303 92.69 S/. 85,234<br />
2001 254 80.58 S/. 73,914<br />
2002 323 90.70 S/. 97,126<br />
2003 415 88.06 S/. 124,791<br />
2004 453 90.45 S/. 140,611<br />
2005 488 89.00 S/. 156,209<br />
2006 534 88.81 S/. 176,113<br />
2007 580 88.65 S/. 194,097<br />
Cuadro 2.2: Nivel <strong>de</strong> Eficacia y Costos<br />
El objetivo principal que se va a plantear para esta Tesis será el <strong>de</strong> encontrar una herramienta<br />
que permita i<strong>de</strong>ntificar las marcas que tengan similitud fonética con una marca ya registrada con<br />
un nivel <strong>de</strong> reconocimiento mayor al 97 %, es <strong>de</strong>cir que i<strong>de</strong>ntifique <strong>de</strong> 100 marcas con similitud<br />
fonética como mínimo 97 <strong>de</strong> estas.<br />
Nivel <strong>de</strong> Reconocimiento = N o marcas similares reconocidas<br />
N o total marcas similares<br />
(2.1)<br />
2.3.3. Objetivos específicos<br />
I<strong>de</strong>ntificar y analizar las variables que dan lugar a la similitud fonética entre marcas comerciales.<br />
Adaptar las herramientas vinculadas a similitud fonética entre palabras para la i<strong>de</strong>ntificación<br />
<strong>de</strong> similitud fonética entre marcas comerciales.<br />
Desarrollar una herramienta basada en re<strong>de</strong>s neuronales para la i<strong>de</strong>ntificación <strong>de</strong> similitud<br />
fonética entre marcas comerciales.<br />
Evaluar el nivel <strong>de</strong> reconocimiento y precisión <strong>de</strong> las herramientas propuestas.<br />
13
2.4. Árbol <strong>de</strong> problemas y objetivos<br />
2.4.1. Árbol <strong>de</strong> problemas<br />
Figura 2.2: Arbol <strong>de</strong> Problemas<br />
14
2.4.2. Árbol <strong>de</strong> objetivos<br />
Figura 2.3: Arbol <strong>de</strong> Objetivos<br />
15
Capítulo 3<br />
Revisión <strong>de</strong> la bibliografía<br />
3.1. Conceptos Básicos<br />
3.1.1. Definición <strong>de</strong> Marca Comercial<br />
Una marca según la <strong>de</strong>finición <strong>de</strong> la WIPO (World Intellectual Property Organization) vendría<br />
a ser un signo o conjunto <strong>de</strong> signos que permiten diferenciar los productos o servicios <strong>de</strong> una<br />
empresa <strong>de</strong> los <strong>de</strong> las otras.<br />
3.1.2. Funciones <strong>de</strong> las marcas comerciales<br />
Las cuatro funciones principales <strong>de</strong> las marcas comerciales son:<br />
Para distinguir los productos o servicios que ofrece una empresa <strong>de</strong> los que son ofrecidos<br />
por las <strong>de</strong>más, le permite a los consumidores i<strong>de</strong>ntificar los productos conocidos por ellos o<br />
<strong>de</strong> los que vieron anuncios publicitarios.<br />
Para i<strong>de</strong>ntificar la fuente u origen <strong>de</strong>l producto o servicio, esto quiere <strong>de</strong>cir para i<strong>de</strong>ntificar a<br />
la empresa que brinda el producto o servicio, la marca comercial va a permitir la diferenciación<br />
<strong>de</strong> fuentes para productos similares.<br />
Para referirse a la calidad especifica <strong>de</strong> un producto o servicio usado, <strong>de</strong> tal forma que el<br />
cliente pueda confiar en la calidad <strong>de</strong> un producto porque este está apoyado por la marca<br />
bajo la cual este se esta produciendo.<br />
Para promover el marketing y la venta <strong>de</strong> los productos y que los servicios puedan ser brindados,<br />
la marca comercial muchas veces estimula la venta <strong>de</strong> los productos, creando así interés<br />
e inspirando en los clientes un sentimiento <strong>de</strong> confi<strong>de</strong>ncialidad.<br />
16
3.1.3. Reglas <strong>de</strong> similitud entre marcas comerciales<br />
Existen 18 reglas principales que se utilizan como criterio para establecer la similitud verbal<br />
entre marcas comerciales (Bugdahl, [2]). Entre ellas tenemos las reglas para las marcas que:<br />
Son idénticas. Terminan o empiezan <strong>de</strong> forma similar. Tienen vocales idénticas. Una contiene<br />
a la otra. Una tiene una letra o más insertadas. Una tiene una o más letras eliminadas. Tienen las<br />
silabas permutadas. Suenan <strong>de</strong> forma similar. Tienen las mismas consonantes. Tienen consonantes<br />
que suenan <strong>de</strong> forma similar. Tienen las mismas vocales y las primeras consonantes. Tienen las<br />
letras permutadas.<br />
3.1.4. Fonemas<br />
Se utilizarán los fonemas empleados en el habla española, <strong>de</strong> esta forma se logrará a<strong>de</strong>cuar la<br />
investigación a nuestro contexto los cuales están especificados en el cuadro 3.1.<br />
Fonema<br />
1. /a/: Fonema vocálico <strong>de</strong> apertura máxima.<br />
2. /B/: Fonema obstruyente bilabial sonoro (grafías: b, v y w, alófonos: [b], [ß]).<br />
3. /c/: Fonema africado palatal (grafía ch).<br />
4. /D/: Fonema obstruyente coronal-alveolar sonoro.<br />
5. /e/: Fonema vocálico palatal <strong>de</strong> apertura media.<br />
6. /f/: Fonema fricativo labio-<strong>de</strong>ntal, en muchas zonas se realiza fricativo bilabial.<br />
7. /G/: Fonema obstruyente velar sonoro.<br />
8. /i/: Fonema vocálico palatal y apertura mínima.<br />
9. /x/: Fonema fricativo velar.<br />
10. /k/: Fonema oclusivo velar sordo (grafías c y qu).<br />
11. /l/: Fonema lateral (coronal-alveolar).<br />
12. /m/: Fonema nasal labial.<br />
13. /n/: Fonema nasal (coronal-alveolar).<br />
14. /ñ/: Fonema nasal palatal.<br />
15. /o/: Fonema vocálico velar <strong>de</strong> apertura media.<br />
16. /p/: Fonema oclusivo (bi)labial sordo<br />
17. /?/: Fonema vibrante simple (grafía -r-, -r).<br />
18. /r/(rr): Fonema vibrante múltiple (grafía -rr-, r-).<br />
19. /s/: Fonema fricativo (coronal-)alveolar (grafía s, en algunas varida<strong>de</strong>s z y c).<br />
20. /t/: Fonema oclusivo (coronal-)alveolar sordo.<br />
21. /u/: Fonema vocálico velar <strong>de</strong> apertura mínima.<br />
22. /y/: Fonema sonorante palatal (grafía y, en las zonas yeístas también correspon<strong>de</strong> a ll.<br />
Cuadro 3.1: Fonemas <strong>de</strong>l habla española<br />
17
3.1.5. Categorias Fonéticas<br />
Las categorías asignadas a los fonemas estarán basadas en la similitud fonética <strong>de</strong> los fonemas,<br />
viendo aspectos <strong>de</strong> lugar <strong>de</strong> articulación y modo <strong>de</strong> articulación (Ver cuadros 3.2 y 3.3). Así por<br />
ejemplo los fonemas /p/ y /b/ se encontrarían <strong>de</strong>ntro <strong>de</strong> una misma categoría <strong>de</strong>bido a que ambos<br />
son articulados en la zona labial con un modo <strong>de</strong> articulación oclusivo, lo cual los hace similares<br />
fonéticamente.<br />
Vocal Anteriores Central posteriores<br />
Altas (Cerradas) i u<br />
Medias e o<br />
Baja (Abierta)<br />
a<br />
Cuadro 3.2: Fonemas Vocálicos<br />
Lugar <strong>de</strong> articulación Labial Coronal Dorsal<br />
Modo <strong>de</strong> articulación Bilabial Labio-Dental Dental Albeolar Palatal Velar<br />
Nasal m n<br />
Oclusiva p b t d kg<br />
Fricativa f (v) s z y<br />
Aproximante<br />
j<br />
Vibrante múltiple<br />
rr<br />
Vibrante simple<br />
r<br />
Aproximante lateral<br />
l<br />
Cuadro 3.3: Fonemas <strong>de</strong> Consonantes<br />
3.2. Algoritmos <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud verbal<br />
Para la i<strong>de</strong>ntificación <strong>de</strong> la similitud verbal entre marcas comerciales se utilizan como herramientas<br />
a los algoritmos, los algoritmos que se han utilizado para la i<strong>de</strong>ntificación <strong>de</strong> la similitud<br />
entre marcas comerciales son principalmente <strong>de</strong> dos tipos, los que se basan en las letras <strong>de</strong>ntro <strong>de</strong><br />
palabra y las que se basan en el aspecto fonético (Fall-GiraudCarrier, [1]).<br />
3.2.1. Algoritmos basados en el or<strong>de</strong>n <strong>de</strong> letras en una ca<strong>de</strong>na<br />
Edit Distance Es un algoritmo que establece como elemento <strong>de</strong> medida para la similitud entre<br />
palabras a la distancia que existe entre estas, está distancia está <strong>de</strong>finida por número <strong>de</strong> inserciones,<br />
cambios o eliminaciones <strong>de</strong> letras necesario para que la palabra evaluada sea igual a la palabra<br />
blanco (Fischer - Zell , [7]), asignando una distancia <strong>de</strong> uno por cada inserción, eliminación o<br />
cambio <strong>de</strong> palabra necesitado. Por ejemplo para marcas comerciales veamos que la distancia entre<br />
18
Autores Año Método Título<br />
Fischer I, Zell A [7] 2000 Edit Distance String averages and self-organizing maps for<br />
strings<br />
Wu S, Manber U [8] 1992 Modified Distance<br />
Fast text searching allowing errors<br />
Zobel J, Dart P. [3] 1995 N-Grams Finding approximate matches in large lexicons<br />
E. Ukkonen [4] 1992 N-Grams Approximate string-matching with q-grams and<br />
maximal matches<br />
Holmes D, McCabe<br />
MC [6]<br />
2002 Soun<strong>de</strong>x Improving precision and recall for soun<strong>de</strong>x retrieval.<br />
Zobel J, Dart P. [3] 1995 Phonix Finding approximate matches in large lexicons<br />
Zobel J, Dart P [9] 1996 Editex Pho<strong>net</strong>ic string matching: lessons from information<br />
retrieval<br />
Kukich, Karen [15] 1992 Re<strong>de</strong>s Neuronales<br />
Cuadro 3.4: Marco ConceptualInstrumental<br />
Techniques for Automatically Correcting<br />
Words<br />
Figura 3.1: Ejemplo Edit Distance<br />
la marca Kolinos y la marca Kornos vendría a ser <strong>de</strong> 2 ya que se eliminaría la letra i y se cambiaría<br />
la letra l por la r, el ejemplo se encuentra ilustrado en la figura 3.1.<br />
Esta basado en la siguiente relación <strong>de</strong> recurrencia:<br />
Figura 3.2: Relacion <strong>de</strong> recurrencia<br />
Modified Edit Es similar al algoritmo Edit Distance pero la diferencia esta en que la permutación<br />
<strong>de</strong> dos letras contiguas vendría a tener una distancia <strong>de</strong> 1, mientras que para el algoritmo Edit<br />
Distance esta vendría a consi<strong>de</strong>rarse como 2 intercambios <strong>de</strong> letras por tanto una distancia <strong>de</strong> 2<br />
(Wu - Manber, [8] ). Por ejemplo la distancia entre las marcas Palmolive y Pamlolive sería <strong>de</strong> 2<br />
para Edit Distance y 1 para Modified Edit (Ver figura 3.3).<br />
19
Figura 3.3: Ejemplo Modified Edit<br />
N-grams Don<strong>de</strong> el n-gram <strong>de</strong> una ca<strong>de</strong>na es cualquier subca<strong>de</strong>na <strong>de</strong> esta cuya longitud sea n, y<br />
el conjunto <strong>de</strong> estos n-grams <strong>de</strong> la ca<strong>de</strong>na s es <strong>de</strong>finido por Gs (Zobel - Dart, [3]).Por ejemplo Gs<br />
<strong>de</strong> la ca<strong>de</strong>na KIMBO para n=2 sería KI, IM, MB, BO . La similitud entre dos ca<strong>de</strong>nas pue<strong>de</strong> ser<br />
medida a través <strong>de</strong> la siguiente expresión:<br />
Figura 3.4: n-gram formula 1<br />
Por ejemplo para las ca<strong>de</strong>nas KIMBO y KUMBOR, don<strong>de</strong> GKIMBO = KI, IM, MB, BO y<br />
GKUMBOR = KU, UM, MB, BO, OR la similitud sería <strong>de</strong> 2, ya que ambos contienen a los<br />
n-grams ”MB ”BO”.<br />
2<br />
Figura 3.5: n-gram formula 2<br />
Pero cuando una ca<strong>de</strong>na contiene a otra como KIMBOMAX y KIMBO, la similitud sería la<br />
misma que la que tiene la ca<strong>de</strong>na KIMBO consigo misma. Para esto se <strong>de</strong>sarrolló una nueva medida<br />
<strong>de</strong> distancia (Ukkonen, [4]):<br />
don<strong>de</strong> s[g] vendría a ser el numero <strong>de</strong> veces que aparece el n-gram g en la ca<strong>de</strong>na s. Así por<br />
ejemplo la distancia entre las ca<strong>de</strong>nas KIMBO y KIMBOMAX sería <strong>de</strong> 3 ya que los n-grams KI,<br />
IM, MB, BO aparecen una vez en cada ca<strong>de</strong>na por tanto su suma es cero mientras que los n-grams<br />
OM,MA,AX solo aparecen en la ca<strong>de</strong>na KIMBOMAX por lo tanto la suma sería <strong>de</strong> 3, y al hallar<br />
la suma total esta sería exactamente 3.<br />
20
3.2.2. Algoritmos basados en aspectos fonéticos<br />
Soun<strong>de</strong>x Este algoritmo esta basado en el sonido <strong>de</strong> cada una <strong>de</strong> las letras para convertir una<br />
ca<strong>de</strong>na en una forma canónica (Holmes - McCabe, [6]). Los códigos que utiliza son los mostrados<br />
en la siguiente tabla:<br />
Co<strong>de</strong> Caracteres<br />
0 a e i g o u w y<br />
1 b f p v<br />
2 c g j k q s x z<br />
3 d t<br />
4 l<br />
5 m n<br />
6 r<br />
Cuadro 3.5: Codificación Soun<strong>de</strong>x<br />
El algoritmo lo que hace es conservar la primera letra <strong>de</strong> la ca<strong>de</strong>na y remplazar las siguientes<br />
por su correspondiente código, para luego eliminar los códigos que se repiten <strong>de</strong> forma consecutiva<br />
y todas las ocurrencias <strong>de</strong>l codigo cero. Finalmente toma los cuatro primeros caracteres <strong>de</strong> la<br />
ca<strong>de</strong>na resultante completando con ceros si es necesario. Así por ejemplo la ca<strong>de</strong>na PALMOLIVE<br />
estaría representada por P454 y la ca<strong>de</strong>na KIMBO por K510.<br />
Phonix Es similar al algoritmo Soun<strong>de</strong>x, pero como se muestra en el cuadro 3.6 este agrupa a<br />
las letras en 8 grupos fonéticos en vez <strong>de</strong> 6 (Zobel - Dart, [3]), a<strong>de</strong>más cuenta con 160 transformaciones<br />
para grupos <strong>de</strong> letras que se utilizan en el Ingles por lo tanto su uso se restringe a este<br />
idioma.<br />
Co<strong>de</strong> Caracteres<br />
0 a e i h o u w y<br />
1 b p<br />
2 c g j k q<br />
3 d t<br />
4 l<br />
5 m n<br />
6 r<br />
7 f v<br />
8 s x z<br />
Cuadro 3.6: Codificación Phonix<br />
Editex Este algoritmo combina la medida <strong>de</strong> distancia <strong>de</strong>l algoritmo Edit Distance con la estrategia<br />
<strong>de</strong> agrupamiento <strong>de</strong> Soun<strong>de</strong>x y Phonix (Zobel - Dart, [9]). Se utiliza una relación <strong>de</strong> recurrencia<br />
21
similar a la <strong>de</strong> edit distance solo que ahora se <strong>de</strong>fine una nueva función d(a,b), y los valores para<br />
r(a,b) son: 0 si a = b, 1 si a y b pertenecen al mismo grupo y 2 si ocurre <strong>de</strong> otra forma. Los valores<br />
para d(a,b) se dan <strong>de</strong> igual forma solo que para a igual a h o w y dado que a es diferente <strong>de</strong> b su<br />
valor será <strong>de</strong> 1.<br />
Figura 3.6: formula editex<br />
Los grupos fonéticos para este algoritmo son los siguientes:<br />
Co<strong>de</strong> Caracteres<br />
0 a e i o u y<br />
1 b p<br />
2 c k q<br />
3 d t<br />
4 l r<br />
5 m n<br />
6 g j<br />
7 f p v<br />
8 s x z<br />
9 c s z<br />
Cuadro 3.7: Codificación Soun<strong>de</strong>x<br />
Re<strong>de</strong>s Neuronales Una <strong>de</strong> las funciones principales <strong>de</strong> las re<strong>de</strong>s neuronales es el reconocimiento<br />
<strong>de</strong> patrones (Konohen, [14]) don<strong>de</strong> el criterio principal <strong>de</strong> <strong>de</strong>sempeño es la minimización <strong>de</strong>l<br />
número <strong>de</strong> errores <strong>de</strong> clasificación. Uno <strong>de</strong> sus principales fundamentos teóricos es la teoría <strong>de</strong> promedio<br />
condicional <strong>de</strong> perdida en la toma <strong>de</strong> <strong>de</strong>cisiones el cual se basa en la teoría <strong>de</strong> probabilidad<br />
<strong>de</strong> Bayes. Una red neuronal suele trabajar como una caja negra, la cual recibe una serie <strong>de</strong> signos<br />
<strong>de</strong> observación constituyendo así el vector <strong>de</strong> entrada x, y produce una respuesta rh en alguno <strong>de</strong><br />
sus puertos <strong>de</strong> salida i, cada puerto es asignado a una diferente clase <strong>de</strong> objetos observados. Se<br />
han hecho aplicaciones <strong>de</strong> re<strong>de</strong>s neuronales para la <strong>de</strong>terminación <strong>de</strong> errores <strong>de</strong> escritura a través<br />
<strong>de</strong>l uso <strong>de</strong> N-Grams (Kukich, [15]), don<strong>de</strong> los N-Grams pue<strong>de</strong>n ser utilizados como neuronas <strong>de</strong><br />
entrada y los nodos <strong>de</strong> salida vendrían a ser todas las palabras en la base <strong>de</strong> datos y los valores<br />
<strong>de</strong> las capas entre un nodo <strong>de</strong> entrada y un nodo <strong>de</strong> palabra <strong>de</strong> salida serían los índices por cada<br />
elemento <strong>de</strong> la matriz. Estos enlaces podrían ser pesados <strong>de</strong> forma individual o normalizados a 1.<br />
En los test realizados (Kukich, [16])utilizando este método se logró conseguir niveles <strong>de</strong> eficacia<br />
<strong>de</strong> 75.88 % con 521 palabras <strong>de</strong>l diccionario y 75.29 % con 1 142 palabras <strong>de</strong>l diccionario.<br />
22
3.3. Estudios Realizados Anteriormente<br />
Autores Año Método Título<br />
Brodda B. [10] 1990 Computational Corpus work with PC beta: a presentation<br />
Linguistics<br />
McAllister R, Brodda<br />
B [11]<br />
2002 Brodda algorithm Development of a new speech comprehension<br />
test with a phonological distance metric<br />
Erikson K [12] 1997 Algorithms Approximate swedish name matching survey<br />
and test of different algorithms<br />
Hodge VJ, Austin J. 2001 Pho<strong>net</strong>ex An evaluation of pho<strong>net</strong>ic spell checkers<br />
[13]<br />
C J Fall C. Giraud-<br />
Carrier[1]<br />
2005 Algoritmos hibridos<br />
Searching tra<strong>de</strong>mark databases for verbal similarities<br />
Cuadro 3.8: Antece<strong>de</strong>ntes <strong>de</strong> Investigación<br />
3.3.1. Desarrollo <strong>de</strong> una comparación computarizada <strong>de</strong> similitud fonológica<br />
entre marcas comerciales en Suecia<br />
Los estudios realizados fueron li<strong>de</strong>rados por Benny Broda durante los años 1960 a 1970 en la<br />
oficina <strong>de</strong> patentes <strong>de</strong> Suecia, don<strong>de</strong> se realizaron estudios para <strong>de</strong>terminar distancias fonológicas<br />
entre marcas comerciales, se estableció en esta oficina que el nuevo registro <strong>de</strong> una marca comercial<br />
<strong>de</strong>pendía parcialmente <strong>de</strong> que esta no fuese similar fonológicamente a una ya existente.<br />
Posteriormente se llegó a establecer y refinar un procedimiento para <strong>de</strong>terminar estas distancias<br />
fonológicas (Brodda, [10]). A<strong>de</strong>más se implementó un test <strong>de</strong> comprensión a través <strong>de</strong>l uso <strong>de</strong> una<br />
métrica <strong>de</strong> distancia fonológica (McAllister-Brodda, [11])<br />
3.3.2. Sistema <strong>de</strong> i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre nombres en directorios<br />
telefónicos<br />
En esta investigación se busca i<strong>de</strong>ntificar los nombres que son fonéticamente iguales <strong>de</strong>ntro <strong>de</strong><br />
un directorio telefónico (Erikson, [12]) a través <strong>de</strong>l uso <strong>de</strong> algunos <strong>de</strong> los algoritmos mostrados<br />
anteriormente y a<strong>de</strong>más <strong>de</strong> otros y algunas combinaciones <strong>de</strong> estos. En esta investigación se tienen<br />
3 criterios <strong>de</strong> evaluación los cuales son: Precisión, Proporción <strong>de</strong> nombre i<strong>de</strong>ntificadas que son<br />
realmente similares. Reconocimiento, Proporción <strong>de</strong> nombres similares que son realmente i<strong>de</strong>ntificados.<br />
Velocidad, relacionado al tiempo en que es utilizado tanto por el usuario como por el<br />
sistema.<br />
23
3.3.3. Correctores fonéticos <strong>de</strong> escritura.<br />
En esta investigación se <strong>de</strong>sarrolla un corrector fonético <strong>de</strong> escritura, llamado Pho<strong>net</strong>ex el cual<br />
adopta la metodología Phonix y su aproximación a la combinación <strong>de</strong> tipos <strong>de</strong> códigos <strong>de</strong> Soun<strong>de</strong>x<br />
con reglas <strong>de</strong> transformación fonética para producir un código fonético para cada palabra. Para<br />
esto se estudió la etimología <strong>de</strong>l ingles <strong>de</strong>tallada en el Diccionario <strong>de</strong> Ingles <strong>de</strong> Oxford. Pho<strong>net</strong>ex<br />
llega a tener más grupos fonéticos que los que tienen Soun<strong>de</strong>x, Phonix o Editex, en total 14 grupos:<br />
3.3.4. Buscando en las bases <strong>de</strong> datos <strong>de</strong> marcas comerciales por similitud<br />
verbal<br />
En esta investigación lo que se busca es establecer la variabilidad <strong>de</strong> resultados que se pue<strong>de</strong><br />
obtener <strong>de</strong> usar los diferentes algoritmos, especificando que cada uno <strong>de</strong> estos permite i<strong>de</strong>ntificar<br />
<strong>de</strong>terminadas similitu<strong>de</strong>s, por tanto plantea que se utilice algoritmos híbridos, es <strong>de</strong>cir algoritmos<br />
que tomen las características y fortalezas <strong>de</strong> un algoritmo y las combinen con las <strong>de</strong> otro algoritmo<br />
para así mejorar su nivel <strong>de</strong> reconocimiento. Para el caso <strong>de</strong> las marcas comerciales tienen mayor<br />
importancia el nivel <strong>de</strong> reconocimiento (Fall - GiraudCarrier, [1]), esto <strong>de</strong>bido a que es más importante<br />
i<strong>de</strong>ntificar la mayor cantidad <strong>de</strong> marcas similares aunque con esto se consiga un mayor<br />
numero <strong>de</strong> falsos positivos.<br />
24
Capítulo 4<br />
Metodología <strong>de</strong> la Investigación<br />
4.1. Tipo <strong>de</strong> Investigación<br />
Al inicio la investigación tendrá un alcance <strong>de</strong>scriptivo <strong>de</strong>bido a que no hay <strong>de</strong>finiciones exactas<br />
<strong>de</strong>l problema, si bien es cierto el tema ha sido abordado, la investigación realizada en este tema<br />
a lo más a abordado la comparación <strong>de</strong> algunos <strong>de</strong> los métodos usados en el reconocimiento <strong>de</strong><br />
similitud fonética entre nombres propios pero aplicados a marcas comerciales. La investigación<br />
a <strong>de</strong> tener un alcance correlacional al final ya que nos va a permitir ver que tan relacionadas<br />
están las categorías fonéticas usadas para la codificación y el tamaño <strong>de</strong> las subca<strong>de</strong>nas en que las<br />
palabras claves vana ser divididas con el nivel <strong>de</strong> precisión y reconocimiento que la herramienta<br />
va a alcanzar.<br />
25
Capítulo 5<br />
Diseño <strong>de</strong> la investigación<br />
5.1. Objeto <strong>de</strong> la Investigación<br />
En esta investigación lo que se busca es encontrar una herramienta que nos permita <strong>de</strong> forma<br />
automática i<strong>de</strong>ntificar la existencia <strong>de</strong> similitud fonética entre los nombres <strong>de</strong> marcas, por lo que el<br />
objeto <strong>de</strong> investigación vendría a ser el nombre en texto <strong>de</strong> la marca <strong>de</strong> la cual se han <strong>de</strong> aprovechar<br />
sus características fonéticas.<br />
5.1.1. Población<br />
La población <strong>de</strong>l experimento esta compuesta por los nombres en texto <strong>de</strong> todas las marcas que<br />
se encuentran registradas en la base <strong>de</strong> datos <strong>de</strong> In<strong>de</strong>copi. Los atributos a tomarse <strong>de</strong> estos registros<br />
serán el número <strong>de</strong> registro <strong>de</strong> la marca, nombre <strong>de</strong> la marca, nombre <strong>de</strong>l propietario e imagen <strong>de</strong><br />
la marca. Se tiene que tomar en cuenta que una <strong>de</strong> las características principales <strong>de</strong> los nombres <strong>de</strong><br />
la marcas es que estas tienen que ser únicas y no ser similares fonéticamente a otros nombres <strong>de</strong><br />
marcas.<br />
5.1.2. Tamaño <strong>de</strong> la población<br />
Se tiene que las marcas <strong>de</strong> productos y servicios son registradas <strong>de</strong>ntro <strong>de</strong> los registros <strong>de</strong> signos<br />
distintivos. Tenemos que <strong>de</strong>s<strong>de</strong> el año 2000 se ha aumentado el número <strong>de</strong> signos distintivos registrados,<br />
llegándose a la actualidad a tener alre<strong>de</strong>dor <strong>de</strong> 176 000 signos distintivos registrados.(Ver<br />
cuadro 5.1).<br />
5.1.3. Tamaño <strong>de</strong> la muestra<br />
Se va a utilizar la siguiente formula teniendo en cuenta que se va a trabajar con un 95 % <strong>de</strong><br />
confianza (Z=1.96) tolerando errores <strong>de</strong> 0.05.<br />
Tenemos que <strong>de</strong> las solicitu<strong>de</strong>s que se realizan un pequeño porcentaje es rechazado <strong>de</strong>bido a<br />
problemas <strong>de</strong> propiedad intelectual (similitud con marcas ya registradas)<br />
26
Año Solicitados Otorgados Acumulados<br />
2000 16565 12724 98830<br />
2001 14312 13258 112088<br />
2002 14601 11452 123540<br />
2003 14484 11424 134964<br />
2004 15564 11274 146238<br />
2005 14556 10606 156844<br />
2006 14373 10133 166977<br />
2007 14190 9659 176636<br />
Cuadro 5.1: Solicitu<strong>de</strong>s <strong>de</strong> registro <strong>de</strong> signos distintivos<br />
Figura 5.1: porcentaje <strong>de</strong> registros otorgados<br />
Usando la tabla 1 po<strong>de</strong>mos obtener que el numero <strong>de</strong> solicitu<strong>de</strong>s realizadas es entre los años<br />
2000 y 2007 fue <strong>de</strong> 118 645, <strong>de</strong> las cuales solo fueron otorgadas 90 530. De lo cual obtenemos que<br />
<strong>de</strong> las solicitu<strong>de</strong>s <strong>de</strong> registro realizadas solo el 76.30 % son otorgadas (Ver figura 5.1), <strong>de</strong> lo cual<br />
tenemos que p=0.763 y q=0.237.<br />
Entonces tenemos que el tamaño <strong>de</strong> la muestra será <strong>de</strong> 277.87 registros.<br />
5.2. Diseño <strong>de</strong> la investigación<br />
5.2.1. Tipo <strong>de</strong> diseño <strong>de</strong> la investigación<br />
La investigación será <strong>de</strong>l tipo experimental, se utilizarán re<strong>de</strong>s neuronales para la i<strong>de</strong>ntificación<br />
similitud fonética entre marcas, para introducir el aspecto fonético se habrá <strong>de</strong> utilizar las<br />
27
categorías fonéticas, se <strong>de</strong>terminará el nivel <strong>de</strong> precisión y reconocimiento <strong>de</strong> la herramienta en<br />
este proceso.<br />
5.2.2. Variables in<strong>de</strong>pendientes<br />
Variable In<strong>de</strong>pendiente Definiciones Conceptuales Definiciones Operacionales<br />
Categoría <strong>de</strong> los fonemas Agrupaciones <strong>de</strong> fonemas con sonidos<br />
similares.<br />
Sistema <strong>de</strong> trascripción fonética<br />
<strong>de</strong>l español IPA.<br />
Tamaño ”n”<strong>de</strong> los n- Tamaño <strong>de</strong>finido para las subca<strong>de</strong>nas<br />
grams.<br />
<strong>de</strong> los n-grams.<br />
Cuadro 5.2: Variables In<strong>de</strong>pendientes<br />
Categorías <strong>de</strong> fonemas Las categorías asignadas a los fonemas estarán basadas en la similitud<br />
fonética <strong>de</strong> los fonemas, viendo aspectos <strong>de</strong> lugar <strong>de</strong> articulación y modo <strong>de</strong> articulación. Así por<br />
ejemplo los fonemas /p/ y /b/ se encontrarían <strong>de</strong>ntro <strong>de</strong> una misma categoría <strong>de</strong>bido a que ambos<br />
son articulados en la zona labial con un modo <strong>de</strong> articulación oclusivo, lo cual los hace similares<br />
fonéticamente.<br />
Tamaño ”n”<strong>de</strong> los n-grams Tamaño <strong>de</strong> las subca<strong>de</strong>nas en que los tokens <strong>de</strong> las marcas comerciales<br />
van a ser divididas, esta variable <strong>de</strong>termina el numero <strong>de</strong> los n-grams que se van a obtener.<br />
5.2.3. Variables <strong>de</strong>pendientes<br />
Variable Dependiente Definiciones Conceptuales Definiciones Operacionales<br />
Precisión<br />
Proporción <strong>de</strong> marcas reconocidas<br />
que realmente son similares.<br />
Comparación y conteo con casos <strong>de</strong><br />
In<strong>de</strong>copi.<br />
Reconocimiento Proporción <strong>de</strong> marcas similares que<br />
han sido reconocidas.<br />
Comparación y conteo con casos <strong>de</strong><br />
In<strong>de</strong>copi.<br />
Cuadro 5.3: Variables Dependientes<br />
Precisión Viene a ser la proporción <strong>de</strong> marcas reconocidas que realmente son similares, mediante<br />
esta variable se va a po<strong>de</strong>r medir la eficiencia <strong>de</strong> la herramienta presentada.<br />
Reconocimiento Viene a ser la proporción <strong>de</strong> marcas similares que han sido reconocidas, es<br />
<strong>de</strong>cir nos muestra <strong>de</strong> todas las marcas que han sido similares por In<strong>de</strong>copi, cuantas han sido reconocidas.<br />
Mediante esta variable se va a po<strong>de</strong>r medir la eficacia <strong>de</strong> la herramienta presentada.<br />
28
5.2.4. Variables <strong>de</strong>l mo<strong>de</strong>lo<br />
Después <strong>de</strong> una revisión se pudo resolver las siguientes variables que forman parte <strong>de</strong>l Mo<strong>de</strong>lo.<br />
Variable <strong>de</strong>l Mo<strong>de</strong>lo Definiciones Conceptuales Definiciones Operacionales<br />
Fonema<br />
Abstracciones mentales o abstracciones<br />
formales <strong>de</strong> los sonidos <strong>de</strong>l<br />
habla.<br />
Sistema <strong>de</strong> trascripción fonética <strong>de</strong>l<br />
español IPA.<br />
Posición <strong>de</strong> los fonemas<br />
Ubicación <strong>de</strong>terminada <strong>de</strong> un fonema<br />
<strong>de</strong>ntro <strong>de</strong> una palabra<br />
Cuadro 5.4: Variables <strong>de</strong>l Mo<strong>de</strong>lo<br />
Conteo <strong>de</strong> posiciones<br />
Fonema Estos fonemas nos permiten representar <strong>de</strong> forma un tanto abstracta la pronunciación<br />
<strong>de</strong> una palabra, así por ejemplo la palabra profesor se podría representar mediante fonemas como<br />
/p, /r/, /o/, /f/, /e/, /s/, /o/, /r/. Se utilizarán los fonemas empleados en el habla española, <strong>de</strong> esta<br />
forma se logrará a<strong>de</strong>cuar la investigación a nuestro contexto.<br />
Posición <strong>de</strong> los fonemas La posición <strong>de</strong> un fonema en particular está <strong>de</strong>terminado por la ubicación<br />
<strong>de</strong>l fonema en la palabra, la posición se da <strong>de</strong> izquierda a <strong>de</strong>recha y esta podría empezar tanto<br />
en cero como en uno. Para esta investigación se tomará al uno como posición <strong>de</strong> inicio.<br />
5.3. Diseño <strong>de</strong> la investigación<br />
Se van a utilizar dos diferentes categorizaciones <strong>de</strong> los fonemas uno tomado <strong>de</strong>l método Phonix<br />
y el otro basado en el IPA en español, Así como el tamaño <strong>de</strong> las subca<strong>de</strong>nas <strong>de</strong> los n-grams,<br />
pudiéndose medir con eso el nivel <strong>de</strong> precisión y reconocimiento <strong>de</strong> la herramienta en el proceso.<br />
Figura 5.2: Diseño <strong>de</strong> la Investigación<br />
29
5.4. Hipotesis<br />
5.4.1. Indicadores<br />
Indicadores <strong>de</strong> Eficacia <strong>de</strong> la i<strong>de</strong>ntificación <strong>de</strong> similitud fonética:<br />
Nivel <strong>de</strong> Reconocimiento.- Este indicador permite ver el grado con el que las marcas similares<br />
han sido i<strong>de</strong>ntificadas, con respecto al número <strong>de</strong> marcas que realmente <strong>de</strong>berían haber sido<br />
i<strong>de</strong>ntificadas, este i<strong>de</strong>ntificador hace énfasis en la i<strong>de</strong>ntificación <strong>de</strong>l mayor numero <strong>de</strong> marcas similares<br />
albergando con esto falsos positivos, es <strong>de</strong>cir marcas i<strong>de</strong>ntificadas como similares pero que<br />
realmente no lo son.<br />
Nivel <strong>de</strong> Reconocimiento = N o marcas similares reconocidas<br />
N o total marcas similares<br />
(5.1)<br />
Nivel <strong>de</strong> Precisión.- Este indicador permite ver el grado <strong>de</strong> precisión con el que las marcas son<br />
i<strong>de</strong>ntificadas, es <strong>de</strong>cir nos permite observar que cantidad <strong>de</strong> todas las marcas i<strong>de</strong>ntificadas han sido<br />
correctas, este i<strong>de</strong>ntificador hace énfasis en la i<strong>de</strong>ntificación <strong>de</strong>l menor número <strong>de</strong> marcas similares<br />
albergando con esto falsos negativos, es <strong>de</strong>cir marcas no han sido i<strong>de</strong>ntificadas como similares pero<br />
que realmente lo son.<br />
Nivel <strong>de</strong> P recision = N o marcas similares reconocidas<br />
N o total marcas reconocidas<br />
(5.2)<br />
Figura 5.3: Indicadores<br />
30
5.4.2. Hipótesis<br />
Para plantear la i<strong>de</strong>ntificación <strong>de</strong> la similitud fonética entre palabras, es <strong>de</strong> vital importancia<br />
<strong>de</strong>scubrir las variables que intervienen y permiten que esta similitud se <strong>de</strong>. Para resolver este primer<br />
punto que forma parte <strong>de</strong> una <strong>de</strong> las preguntas <strong>de</strong> investigación planteadas anteriormente se va a<br />
plantear la siguiente hipótesis.<br />
Hi1 = Los fonemas <strong>de</strong> una palabra, las categorías a la que pertenecen y la posición <strong>de</strong> estos<br />
mismos <strong>de</strong>terminan el grado <strong>de</strong> similitud entre dos palabras.<br />
Hi2 = Mediante el uso <strong>de</strong> re<strong>de</strong>s neuronales se pue<strong>de</strong> alcanzar un nivel <strong>de</strong> eficacia <strong>de</strong> 97 % para<br />
la i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre marcas comerciales<br />
5.4.3. Contraste <strong>de</strong> hipótesis<br />
Para el estudio se plantean dos hipótesis nulas, ya que hay dos hipótesis ya anunciadas.<br />
Hi1 = Los fonemas <strong>de</strong> una palabra, las categorías a la que pertenecen y la posición <strong>de</strong> estos<br />
mismos no <strong>de</strong>terminan el grado <strong>de</strong> similitud entre dos palabras.<br />
Hi2 = Mediante el uso <strong>de</strong> re<strong>de</strong>s neuronales no se pue<strong>de</strong> alcanzar un nivel <strong>de</strong> eficacia <strong>de</strong> 97 %<br />
para la i<strong>de</strong>ntificación <strong>de</strong> similitud fonética entre marcas comerciales<br />
5.4.4. Pruebas estadísticas<br />
Año<br />
DECISION<br />
NO RECHAZAR LA HI-<br />
POTESIS H2<br />
RECHAZAR LA HIPO-<br />
TESIS H2<br />
Situación verda<strong>de</strong>ra<br />
LA HIPOTESIS H2 ES VERDA- LA HIPOTESIS H2 ES FALSA<br />
DERA<br />
NO EXISTE ERROR PROB=95 % ERROR DEL TIPO II PROB=3 %<br />
Confianza <strong>de</strong> la prueba<br />
ERROR DEL TIPO I PROB=5 % NO EXISTE ERROR PROB=97 %<br />
Nivel <strong>de</strong> significancia<br />
Potencia<br />
Cuadro 5.5: Pruebas estadísticas<br />
31
Capítulo 6<br />
Mo<strong>de</strong>lo <strong>de</strong> solución<br />
6.1. Mo<strong>de</strong>lo <strong>de</strong> solución<br />
1. Pretratamiento: Durante el pretratamiento se eliminan todos los caracteres <strong>de</strong>ntro <strong>de</strong>l nombre<br />
en texto <strong>de</strong> la marca que no tienen significado fonético, tales como números, signos <strong>de</strong> puntuación,<br />
etc. <strong>de</strong>ntro <strong>de</strong>l nombre.<br />
2. Parsing: Se elaboran a partir <strong>de</strong>l nombre <strong>de</strong> la marca las palabras clave (Tokens) basándose<br />
en el número <strong>de</strong> palabras que tenga este y una combinación <strong>de</strong> las mismas. Por ejemplo para la<br />
marca ”sello <strong>de</strong> oro”, los tokens serian: ”sello”, ”<strong>de</strong>”, ”oro”, ”sello<strong>de</strong>”, ”<strong>de</strong>oro”, ”sello<strong>de</strong>oro”.<br />
3. I<strong>de</strong>ntificación <strong>de</strong> elementos no significativos: A través <strong>de</strong>l uso <strong>de</strong> un diccionario <strong>de</strong> palabras<br />
se separan <strong>de</strong> las palabras claves no trascen<strong>de</strong>ntes, por ejemplo <strong>de</strong> los tokens anteriores ”<strong>de</strong>”no<br />
tiene trascen<strong>de</strong>ncia, por los que los tokens significativos finales serían: ”sello”, ”oro”, ”sello<strong>de</strong>”,<br />
”<strong>de</strong>oro”, ”sello<strong>de</strong>oro”.<br />
4. Pre-tratamiento fonético <strong>de</strong> los Tokens: Se realiza la simplificación fonética <strong>de</strong> los tokens,<br />
para la cual se va a remplazar las letras o conjunto <strong>de</strong> letras que no se encuentren <strong>de</strong>ntro <strong>de</strong>l<br />
universo <strong>de</strong> fonemas <strong>de</strong>finido por sus similares. Para esto se va a reemplazar letras juntas que<br />
tienen similitud fonética con una sola letra. Por ejemplo la marca Macson sería remplazada por<br />
su similar Maxon. Serian reemplazados: ”LL”por ”Y”, ”SC”por ”X”, ”QU”por ”K”por ejemplo.<br />
”seyo”, ”oro”, ”seyo<strong>de</strong>”, ”<strong>de</strong>oro”, ”seyo<strong>de</strong>oro”.<br />
5. Generación <strong>de</strong> n-grams: Se van a generar una serie <strong>de</strong> n-grams para cada uno <strong>de</strong> tokens<br />
simplificados para ser usados como neuronas <strong>de</strong> entrada para la red neuronal, con n ¡tamaño <strong>de</strong>l<br />
token simplificado. Por ejemplo para el token ”seyo<strong>de</strong>oro con n=6, se obtendría los siguientes<br />
n-grams.<br />
(seyo<strong>de</strong>o) (eyo<strong>de</strong>or) (yo<strong>de</strong>oro)<br />
2<br />
32
6. Codificación <strong>de</strong> los n-grams: Se asigna un valor numérico a cada letra <strong>de</strong> los n-grams <strong>de</strong><br />
acuerdo a un valor establecido, don<strong>de</strong> se agrupan las palabras con similitud fonética.<br />
(seyo<strong>de</strong>o) (10 1 12 0 5 1 0)<br />
(eyo<strong>de</strong>or) (1 12 0 5 1 0 6)<br />
(yo<strong>de</strong>oro) (12 0 5 1 0 6 0)<br />
Código Caracter<br />
0 A O<br />
1 E I<br />
2 U<br />
3 B V<br />
4 C K<br />
5 D T<br />
6 L R<br />
7 M N<br />
8 G J<br />
9 F P<br />
10 S Z<br />
11 X<br />
12 Y<br />
Cuadro 6.1: Codificación fonética<br />
7.- codificación inversa <strong>de</strong> n-grams: Se va a <strong>de</strong>signar la similitud inversa entre grupos <strong>de</strong> letras,<br />
esto es grupos <strong>de</strong> letras que suenan completamente diferente o por lo menos lo más diferente<br />
posible.<br />
(seyo<strong>de</strong>o) (9 0 11 2 6 0 2)<br />
(eyo<strong>de</strong>or) (0 11 2 6 0 2 5)<br />
(yo<strong>de</strong>oro) (11 2 6 0 2 5 2)<br />
8.- Entrenamiento <strong>de</strong> la red neuronal: Para este entrenamiento se van a usar como entradas los<br />
n-grams codificados y sus inversos, obtenidos en los pasos 5 y 6. De tal forma que para los n-grams<br />
codificados su valor <strong>de</strong> clase será 0, y para sus inversos será <strong>de</strong> 1.<br />
33
Código Caracter<br />
0 E I<br />
1 U<br />
2 A O<br />
3 M N<br />
4 G J<br />
5 L R<br />
6 D T<br />
7 B V<br />
8 C K<br />
9 S Z<br />
10 F P<br />
11 Y<br />
12 X<br />
Cuadro 6.2: Codificación fonética inversa<br />
9.- Test: Se hace un test con los n-grams codificados <strong>de</strong> las marcas que se ya están registradas<br />
en la base <strong>de</strong> datos <strong>de</strong> in<strong>de</strong>copi y los n-grams codificados <strong>de</strong> las marcas que han sido encontradas<br />
como similares en los casos tratados por In<strong>de</strong>copi. La red neuronal va clasificar a los casos que<br />
encuentre como similares como 0 y a los que no consi<strong>de</strong>re similares como 1.<br />
10.- Análisis <strong>de</strong> los resultados: Se va a obtener los indicadores <strong>de</strong> reconocimiento y precisión<br />
34
Figura 6.1: Mo<strong>de</strong>lo <strong>de</strong> Solucion<br />
35
Capítulo 7<br />
Instrumentos <strong>de</strong> Medición<br />
7.1. Operacionalización <strong>de</strong> las variables.<br />
Variable Definiciones Conceptuales Definiciones Operacionales<br />
Categoría <strong>de</strong> los fonemas Agrupaciones <strong>de</strong> fonemas con sonidos<br />
similares.<br />
Sistema <strong>de</strong> trascripción fonética<br />
<strong>de</strong>l español IPA.<br />
Tamaño ”n”<strong>de</strong> los n- Tamaño <strong>de</strong>finido para las subca<strong>de</strong>nas<br />
grams.<br />
<strong>de</strong> los n-grams.<br />
Precisión<br />
Proporción <strong>de</strong> marcas reconocidas<br />
que realmente son similares.<br />
Comparación y conteo con casos<br />
<strong>de</strong> In<strong>de</strong>copi.<br />
Reconocimiento<br />
Proporción <strong>de</strong> marcas similares que<br />
han sido reconocidas.<br />
Comparación y conteo con casos<br />
<strong>de</strong> In<strong>de</strong>copi.<br />
Fonema<br />
Abstracciones mentales o abstracciones<br />
formales <strong>de</strong> los sonidos <strong>de</strong>l<br />
Sistema <strong>de</strong> trascripción fonética<br />
<strong>de</strong>l español IPA.<br />
habla.<br />
Posición <strong>de</strong> los fonemas Ubicación <strong>de</strong>terminada <strong>de</strong> un fonema<br />
<strong>de</strong>ntro <strong>de</strong> una palabra<br />
Conteo <strong>de</strong> posiciones<br />
Cuadro 7.1: Operacionalizacion <strong>de</strong> las Variables<br />
36
7.2. Instrumentos <strong>de</strong> medición<br />
Variable Tipo Escala Descripción<br />
Categoría <strong>de</strong> los fonemas<br />
Cualitativa Nominal Categoria Phonix, Según la fuente usación<br />
dicotómica Categoria IPA da para su elabora-<br />
Tamaño n <strong>de</strong> los n-<br />
grams<br />
cuantitativa discreta 4,5,6 tamaño <strong>de</strong> las subca<strong>de</strong>nas<br />
que se <strong>de</strong>see<br />
utilizar para los n-<br />
gram<br />
Precisión cuantitativa continua <strong>de</strong>s<strong>de</strong> 0 hasta 1 Según la proporcion<br />
<strong>de</strong> marcas i<strong>de</strong>ntificadas<br />
que realmente<br />
son similares<br />
Reconocimiento cuantitativa continua <strong>de</strong>s<strong>de</strong> 0 hasta 2 Según la proporcion<br />
<strong>de</strong> marcas similares<br />
que han sido i<strong>de</strong>ntificadas<br />
Fonema cuantitativa discreta son 22 fonemas Según la letra a la<br />
que representa el fonema<br />
Posición <strong>de</strong> los fonemas<br />
cuantitativa discreta Des<strong>de</strong> 0 hasta el<br />
tamño <strong>de</strong> la ca<strong>de</strong>na<br />
Cuadro 7.2: Variables<br />
Según la ubicación<br />
en la que se encuentre<br />
el fonema<br />
7.3. Muestreo<br />
El muestreo vendría a ser probabilístico, teniendose como poblacion la que esta compuesta<br />
por los nombres en texto <strong>de</strong> todas las marcas que se encuentran registradas en la base <strong>de</strong> datos<br />
<strong>de</strong> In<strong>de</strong>copi, el muestreo será aleatorio simple, no se i<strong>de</strong>ntifican estratos. Se utilizará los números<br />
aleatorios como procedimiento <strong>de</strong> selección.<br />
37
Capítulo 8<br />
Planificación <strong>de</strong> la investigación<br />
8.1. Descripción <strong>de</strong> activida<strong>de</strong>s - etapas<br />
Suscripción a revistas Se va a realizar la suscripción a ACM i a la IEE para tener acceso los informes<br />
publicaciones y libros que hay referidos al tema que es reconocimiento <strong>de</strong> similitud fonética<br />
entre marcas comerciales.<br />
Análisis <strong>de</strong> Viabilidad Se va a hacer un análisis <strong>de</strong> que tan posibles es realizar la investigación,<br />
viendo por un lado los costos y la extensión <strong>de</strong> esta.<br />
Marco Teórico Se va a realizar la revisión bibliográfica, buscado los conceptos que van servir<br />
<strong>de</strong> base para la investigación, se va a buscar información sobre los instrumentos o algoritmos que<br />
se utilizan para realizar la i<strong>de</strong>ntificación <strong>de</strong> similitud entre marcas comerciales.<br />
Problema, Objetivo, Justificación, Alcances, Tipo <strong>de</strong> Investigación Se <strong>de</strong>fine la problemática<br />
y el problema, planteándose como objetivos resolver el problema siendo las consecuencias <strong>de</strong> esta<br />
solución el mejoramiento <strong>de</strong> la problemática, se <strong>de</strong>fine a<strong>de</strong>más hasta don<strong>de</strong> se va a llegar, que<br />
temas se va abarcar y el contexto en que se va a realizar la investigación.<br />
Objeto <strong>de</strong> Investigación, Población, Muestra Se i<strong>de</strong>ntifica el objetivo <strong>de</strong> investigación así como<br />
la población a la que pertenece y <strong>de</strong> la cual se han <strong>de</strong> tomar los datos, que no va a ser <strong>de</strong>l<br />
100<br />
Variables in<strong>de</strong>pendientes, <strong>de</strong>pendientes, diseño experimental, hipótesis Se i<strong>de</strong>ntifican las variables<br />
<strong>de</strong>pendientes e in<strong>de</strong>pendientes que forman parte <strong>de</strong> la investigación, se plantean las hipótesis<br />
las cuales respon<strong>de</strong>n a los objetivos planteados anteriormente.<br />
Mo<strong>de</strong>lo <strong>de</strong> Solución Se plantea un mo<strong>de</strong>lo <strong>de</strong> solución que especifica los pasos a seguir para<br />
resolver el problema <strong>de</strong> investigación.<br />
38
Plan <strong>de</strong> trabajo, costos, financiamiento Se establecen y <strong>de</strong>scriben las etapas <strong>de</strong> la investigación,<br />
especificando los costos en los que se va a incurrir durante la investigación así como la forma qu<br />
que se va afinanciar este.<br />
8.2. Cronograma <strong>de</strong> trabajo<br />
8.3. Presupuesto <strong>de</strong> la Investigacion<br />
Concepto Costo unitario (Dolares) Costo Total (Dolares)<br />
Sueldo <strong>de</strong>l Investigador 800 4800<br />
Inscripción al portal ACM 100 600<br />
Inscripción a la IEEE 35 210<br />
Capacitación al Personal 90 90<br />
Costos Operativos 50 300<br />
Contratación <strong>de</strong> Personal 300 1800<br />
Libros Científicos 50 300<br />
Computador Personal 800 800<br />
TOTAL 8900<br />
Cuadro 8.1: Presupuesto<br />
8.3.1. Fuentes <strong>de</strong> Financiamiento<br />
El financiamiento será propio<br />
39
40<br />
Figura 8.1: Cronograma <strong>de</strong> activida<strong>de</strong>s
Capítulo 9<br />
Conclusiones<br />
9.1. Conclusiones<br />
1. La eficacia <strong>de</strong>l proceso manual para la i<strong>de</strong>ntificacion <strong>de</strong> marcas similares tiene un nivel <strong>de</strong><br />
tan solo 89 % (Ver cuadro 2.2).<br />
2. El procentaje <strong>de</strong> marcas solicitadas que son similares a las ya registradas es <strong>de</strong> 23.70 % (Ver<br />
figura 5.1).<br />
3. En promedio se tratan alre<strong>de</strong>dor <strong>de</strong> 419 casos <strong>de</strong> <strong>de</strong>nuncias por infracciones <strong>de</strong> similitud<br />
fo<strong>net</strong>ica entre marcas (Ver cuadro 2.2).<br />
4. el tratamiento <strong>de</strong> estos casos <strong>de</strong>viene en costos <strong>de</strong> mas <strong>de</strong> S/131 000.00 soles anuales (Ver<br />
cuadro 2.2).<br />
5. En el estudio se tiene que dar mayor prepon<strong>de</strong>rancia al nivel <strong>de</strong> reconocimiento sobre el nivel<br />
<strong>de</strong> precisión, esto va a permitir que el mayor número <strong>de</strong> marcas similares sean i<strong>de</strong>ntificadas.<br />
41
Bibliografía<br />
[1] C J Fall, C. Giraud-Carrier. Searching tra<strong>de</strong>mark databases for verbal similarities, World<br />
Patent Information 27 (2005) 135-143.<br />
[2] Bugdahl V. Markenrecherchen - eine subjective Momen - taufnahme. MarkenR<br />
2003;05/2003:169-80<br />
[3] Zobel J, Dart P. Finding approximate matches in large lexicons. Software-Practice Experience<br />
1995;25:331-45<br />
[4] E. Ukkonen, ’Approximate string-matching with q-grams and maximal matches’, Theoretical<br />
Computer Science, 92, 191-211 (1992).<br />
[5] World Intellectual Property Organization, Un<strong>de</strong>rstanding Industrial Property: WIPO Publication<br />
No. 895(E) ISBN 92-805-1257-9<br />
[6] Holmes D, McCabe MC. Improving precision and recall for soun<strong>de</strong>x retrieval. Proceedings<br />
of the International Conference on Information Technology: Coding and Computing.<br />
Las Vegas, Nevada: IEEE Computer Society; 2002. p. 22-7<br />
[7] Fischer I, Zell A. String averages and self-organizing maps for strings. In: Proceedings of<br />
the Second ICSC Symposium on Neural Computation-NCÕ2000. Canada/Switzerland:<br />
ICSC Aca<strong>de</strong>mic Press; 2000. p. 208-15<br />
[8] Wu S, Manber U. Fast text searching allowing errors. Común ACM 1992;35:83-91.<br />
[9] Zobel J, Dart P. Pho<strong>net</strong>ic string matching: lessons from information retrieval. In: Frei<br />
H-P, Harman D, Schäble P, Wilkinson R, editors. Proceedings of the 19th International<br />
Conference on Research and Development in Information Retrieval. Zurich, Switzerland:<br />
ACM Press; 1996. p. 166-72<br />
[10] Brodda B. Corpus work with PC beta: a presentation. Proceedings of the 13th conference<br />
on computational linguistics, vol. 3. Mor- ristown, NJ: Association for Computational<br />
Linguistics; 1990. p. 405-9<br />
[11] McAllister R, Brodda B. Development of a new speech comprehension test with a phonological<br />
distance metric. Proceedings of Fo<strong>net</strong>ik 2002, the XVth Swedish Pho<strong>net</strong>ics<br />
42
Conference, Fysik-centrum, Stockholm, May 29-31, 2002, vol. 44. Stockholm, Swe<strong>de</strong>n:<br />
KTH; 2002. p. 149-51.<br />
[12] Erikson K. Approximate swedish name matching survey and test of different algorithms.<br />
MasterÕs thesis, Department of Numerical Analysis and Computing Science, KTH, Royal<br />
Insti- tute of Technology, Nada, S-100 44 Stockholm, Swe<strong>de</strong>n, 1997<br />
[13] Hodge VJ, Austin J. An evaluation of pho<strong>net</strong>ic spell checkers, 2001.<br />
[14] Teuvo Kohonen. An Introduction to Neural Computing, Helsinki University of Technology,<br />
Neural Networks. Vol. 1. pp. 3-16. 1988<br />
[15] Kukich, Karen. Techniques for Automatically Correcting Words in: ACM Computing<br />
Surveys, Vol 24(4) Dec. 1992, pp 377-439<br />
[16] Kukich, Karen. A Comparison of Some Novel and Traditional Lexical Distance Metrics<br />
for Spelling Correction. In: Proceedings of INNC-90-Paris, Paris, France, July 1990, pp<br />
309-313<br />
43