jegyzet gyomlált változata - Eötvös Loránd Tudományegyetem
jegyzet gyomlált változata - Eötvös Loránd Tudományegyetem
jegyzet gyomlált változata - Eötvös Loránd Tudományegyetem
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
karakterhalmaz megfelelő elemére. Ha az -s kapcsoló esetén a program összevonja az<br />
egymás után álló egyforma karaktereket.<br />
10.2.2. Oszlop kivágása, összefűzése<br />
Az adatfájloknak gyakran túl sok oszlopa van. Ilyenkor az adatfeldolgozás során ki kell<br />
törölni a felesleges sorokat. Erre szolgál a cut parancs. A -d kapcsolóval megadhatjuk,<br />
hogy az oszlopokat mi választja el egymástól, a -f kapcsoló pedig kijelöli a szükséges<br />
oszlopokat.<br />
Előfordulhat az is, hogy a szükséges adatok több fájlban vannak. Ekkor használhatjuk<br />
a paste programot, amely soronként összepárosítja a különböző adatfájlokat.<br />
10.3. Adatok rendezése<br />
A sort parancs<br />
A sort utasítás minden sor legelső karaktere szerint működik. Ha az első karakterek<br />
megegyeznek, akkor a második, harmadik, stb. karaktereket hasonlítja össze. A rendezés<br />
a szokásos ASCII kódok esetén az írásjelek – számok – nagybetűk – kisbetűk sorrend<br />
szerint történik. Az -r kapcsolóval a rendezési sorrendet teljesen megfordíthatjuk. Az<br />
-n kapcsolóval numerikusan rendezhetjük a sorokat. Az állomány sorai néha oszlopokba<br />
rendezett adatok mezőit tartalmazzák. A mezők között valamilyen határoló vagy elválasztó<br />
jelnek kell állnia, ez alapesetben a szóköz vagy a tabulátor. Ha a sort parancsot<br />
a +Szám kapcsolóval használjuk, a Szám által meghatározott mezőt kihagyva végzi a<br />
sorba rendezést. A -Szám hatására a rendezés a Számnál megadott mezőnél ér véget.<br />
A sort parancsnak számos alkalmazási lehetősége van. Az egyik legfontosabb az<br />
adatok mediánjának megkeresése. A medián az az érték, aminél az adatok fele kisebb,<br />
fele nagyobb. Páratlan számú adatnál ez éppen a sorba rendezett adatsor középső eleme,<br />
páros számú adatnál pedig a két középső elem.<br />
Másik lehetőség az adatok ún. kumulatív gyakoriságeloszlásának meghatározása.<br />
A wc parancs<br />
A betűk, szavak, és sorok leszámlálására használjuk a wc (word count) parancsot. Ha<br />
tehát a középső elemet keressük, akkor először számláljuk le az adatokat a wc paranccsal,<br />
majd osszuk el a kapott értéket kettővel.<br />
A uniq parancs<br />
A uniq parancs kiszűri az egy állományban található egymás után ismétlődő sorokat, és<br />
csak egyszer írja ki az ismétlődő sort (célszerű lehet ezért az állományt először a sort<br />
122