12.07.2013 Views

jegyzet gyomlált változata - Eötvös Loránd Tudományegyetem

jegyzet gyomlált változata - Eötvös Loránd Tudományegyetem

jegyzet gyomlált változata - Eötvös Loránd Tudományegyetem

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

karakterhalmaz megfelelő elemére. Ha az -s kapcsoló esetén a program összevonja az<br />

egymás után álló egyforma karaktereket.<br />

10.2.2. Oszlop kivágása, összefűzése<br />

Az adatfájloknak gyakran túl sok oszlopa van. Ilyenkor az adatfeldolgozás során ki kell<br />

törölni a felesleges sorokat. Erre szolgál a cut parancs. A -d kapcsolóval megadhatjuk,<br />

hogy az oszlopokat mi választja el egymástól, a -f kapcsoló pedig kijelöli a szükséges<br />

oszlopokat.<br />

Előfordulhat az is, hogy a szükséges adatok több fájlban vannak. Ekkor használhatjuk<br />

a paste programot, amely soronként összepárosítja a különböző adatfájlokat.<br />

10.3. Adatok rendezése<br />

A sort parancs<br />

A sort utasítás minden sor legelső karaktere szerint működik. Ha az első karakterek<br />

megegyeznek, akkor a második, harmadik, stb. karaktereket hasonlítja össze. A rendezés<br />

a szokásos ASCII kódok esetén az írásjelek – számok – nagybetűk – kisbetűk sorrend<br />

szerint történik. Az -r kapcsolóval a rendezési sorrendet teljesen megfordíthatjuk. Az<br />

-n kapcsolóval numerikusan rendezhetjük a sorokat. Az állomány sorai néha oszlopokba<br />

rendezett adatok mezőit tartalmazzák. A mezők között valamilyen határoló vagy elválasztó<br />

jelnek kell állnia, ez alapesetben a szóköz vagy a tabulátor. Ha a sort parancsot<br />

a +Szám kapcsolóval használjuk, a Szám által meghatározott mezőt kihagyva végzi a<br />

sorba rendezést. A -Szám hatására a rendezés a Számnál megadott mezőnél ér véget.<br />

A sort parancsnak számos alkalmazási lehetősége van. Az egyik legfontosabb az<br />

adatok mediánjának megkeresése. A medián az az érték, aminél az adatok fele kisebb,<br />

fele nagyobb. Páratlan számú adatnál ez éppen a sorba rendezett adatsor középső eleme,<br />

páros számú adatnál pedig a két középső elem.<br />

Másik lehetőség az adatok ún. kumulatív gyakoriságeloszlásának meghatározása.<br />

A wc parancs<br />

A betűk, szavak, és sorok leszámlálására használjuk a wc (word count) parancsot. Ha<br />

tehát a középső elemet keressük, akkor először számláljuk le az adatokat a wc paranccsal,<br />

majd osszuk el a kapott értéket kettővel.<br />

A uniq parancs<br />

A uniq parancs kiszűri az egy állományban található egymás után ismétlődő sorokat, és<br />

csak egyszer írja ki az ismétlődő sort (célszerű lehet ezért az állományt először a sort<br />

122

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!