Každý, kto sa rád zaoberá dátami, určite počul o výraze „regular expression“ (po slovensky: regulárny výraz). Čo sú vlastne regulárne výrazy, ako fungujú a ako sú nám nápomocné? Na prvý pohľad to vyzerá zložito, avšak pri bližšom pohľade zistíme, že ide o celkom jednoduchú, a najmä veľmi užitočnú pomôcku vhodnú nielen pre online marketingových špecialistov.
„Regular expressions“ sa používajú:
- pri vytváraní reportov (napríklad Google Analytics),
- pri tvorbe segmentov v Google Analytics,
- pri vytváraní cieľov/konverzií,
- pri tvorbe filtrov.
Bodka
.
Jeden z najčastejších znakov používaných v rámci „regular expressions“. Pomocou bodky vieme priradiť hocijaký znak, napríklad keď chceme vo vyhľadávacích dopytoch nájsť slová týkajúce sa dovolenky vrátane preklepov alebo českého výrazu „dovolená“. V podstate máme dve možnosti. Pri prvej stačí napísať výraz „.dovo“ a nájdeme všetky výrazy týkajúce sa dovolenky (aj viacslovné). Pozor však na to, že pomocou bodky si vytiahneme všetky výrazy, ktoré obsahujú „dovo“.
Bodka a hviezdička
.*
Regulárne výrazy sú kombinovateľné medzi sebou a pomocou rôznych kombinácií sa vieme dostať k veľmi zaujímavým výsledkom. Medzi najúčinnejšie a najvyužívanejšie kombinácie patrí bodka a hviezdička. Najčastejšie túto kombináciu využívame pri tvorbe konverzie/cieľa v Google Analytics. Často sa stáva, že thankyou page je dynamicky generovaná URL a môže vyzerať aj takto:
„/thankyoupage/index/success-order?ref=2017120027“
Ak chceme bezpečne merať konverzie, stačí príslušnú URL prepísať do takéhoto tvaru:
„/thankyoupage/index/success-order.*“
Otáznik
?
V spomínanej URL adrese sa nachádza otáznik, ktorý spôsobuje problém pri sledovaní cieľov v Google Analytics. Otáznik (?) je takisto znak pre regulárny výraz a jeho funkcia spočíva v tom, že posledný znak alebo reťazec pred ním je ľubovoľný. Čiže otáznik pri tvorbe cieľa spôsobí to, že systém môže ignorovať celý reťazec, a konverzie nebudú teda zaznamenané. V takýchto prípadoch sa pred otáznik pridá opačná lomka (\), ktorá zabezpečí, že otáznik bude iba obyčajný znak a nie funkcia. URL bude teda vyzerať takto:
„/thankyoupage/index/success-order\?ref“
Opačná lomka
\
Opačná lomka slúži pri definovaní presného výrazu. Ak chceme napríklad zablokovať návštevnosť z určitej IP adresy, opačná lomka je vynikajúci pomocník. Bežná IP adresa má zhruba takýto tvar: 121.22.312.1 a bodky v takomto prípade spôsobia v rámci regulárnych výrazov to, že systém vyhľadá rôzne čísla, napríklad aj v takomto tvare: 12123313.1. Takéto číslo nie je nami požadovaná IP adresa, a to môže spôsobovať problémy. Práve pre takéto prípady sa používa „opačná lomka“.
Ak však daný reťazec čísel napíšeme v tomto tvare: 121\.22\.312\.1, pomocou opačnej lomky zrušíme funkciu bodky a zachováme presný reťazec čísel.
Hranaté zátvorky
[]
Hranaté zátvorky sú ideálnym pomocníkom pri vyhľadávaní viacerých položiek, ktoré sú si podobné, respektíve rozdielne v jednom znaku. Znaky nachádzajúce sa v hranatých zátvorkách [] budú pri vyhľadávaní brané do úvahy.
Ak by sme chceli „vytiahnuť“ organické vyhľadávacie dopyty napríklad pre vymyslenú značku „Značka“, ktoré obsahujú malé a veľké písmeno a zároveň s diakritikou či bez, zadáme požadovaný dopyt takto „[Zz]na[čc]ka“.
Hranaté zátvorky slúžia v podstate na definovanie viacerých znakov. Okrem práce s písmenami ich možno použiť pri párovaní čísel alebo vtedy, ak hľadáme výrazy iba s veľkými písmenami a podobne.
Zoskupovanie
() |
Klasické oblé zátvorky (v regulárnych výrazoch známe ako „parentheses“) umožňujú zoskupiť znaky a celé výrazy pod jeden. Ak by sme chceli napríklad vyfiltrovať kľúčové slová s mojím menom v oboch tvaroch (v skrátenom aj neskrátenom), môžeme príkaz zadať takto: Miro(slav)? Otáznik a zátvorky znamenajú v tomto prípade, že k výrazu „Miro“ sa nepripojí nič alebo iba výraz „slav“.
Samozrejme, existuje mnoho ďalších „regular expressions“, ktoré sa používajú najmä v programátorskom svete, ale dúfam, že výrazy uvedené v tomto článku vám aspoň troškou pomôžu a poodhalia ich funkciu a význam.