Megfelelő módszerek az ismétlődő oldalak eltávolítására. Az ismétlődő oldalak kezelése További intézkedések a CMS WordPress ismétlődéseinek kezelésére

Mik azok az ismétlődő oldalak- ezek az oldalak teljesen azonos tartalommal és különböző URL-ekkel.

Több oka is lehet a duplikált oldalak előfordulásának az oldalon, de ezek szinte mindegyike valamilyen módon kapcsolódik az oldal tartalomkezelő rendszeréhez. A legjobb, ha intézkedéseket tesz az ismétlődő oldalak megjelenésének megakadályozására a webhely létrehozásának szakaszában. Ha webhelye már működik, feltétlenül ellenőrizze, hogy nincsenek-e rajta duplikált oldalak, különben nem kerülhetők el az indexeléssel és a SEO-val kapcsolatos komoly problémák.

Többféle módon is megszabadulhat az ismétlődő webhelyoldalaktól. Egyesek segíthetnek a már megjelent oldalak másolatai elleni küzdelemben, mások segítenek elkerülni a jövőbeni megjelenésüket.

Hogyan találhatunk ismétlődő oldalakat a webhelyen?

Először azonban ellenőriznie kell, hogy vannak-e ismétlődő oldalak az erőforráson, és ha igen, milyen típusúak ezek az oldalak. Hogyan kell csinálni?

  • 1. módszer. Lekérdezés a "site:" keresésben

Használhatja a "site:" parancsot. Ez a parancs egy adott webhely keresési eredményeit adja vissza. Ha beírja a site:www.yoursite.com/page1 címet, látni fogja, hogy vannak-e ismétlődései ennek az oldalnak a keresésben.

  • 2. módszer. Keresés cikkrészlet alapján

Kijelölünk egy kis szövegrészt az oldalról, amelyhez ismétlődést keresünk, és beillesztjük a keresésbe. A keresési eredmények azonnal megjelenítik a kívánt oldal összes indexelt másolatát.

Hogyan kezeljük az ismétlődő oldalakat?

301-es átirányítás

A duplikátumok kezelésének egyik leghatékonyabb, de egyben legnehezebb módja a 301-es átirányítás, amely összeragasztja a megadott oldalakat, és a duplikátumok végül eltűnnek a keresőmotor indexéből.

Amikor egy keresőrobot egy ismétlődő oldalra talál 301-es átirányítással, a webszerver automatikusan átirányítja az eredeti oldalra. Minden átirányítás a .htaccess fájlban van regisztrálva, amely a webhely gyökérkönyvtárában található. Ne használjon 301-es átirányítást (állandó átirányítást), ha a jövőben valamilyen módon használni kívánja a másolóoldalt. Ehhez használhat 302-es (ideiglenes) átirányítást. Akkor az oldalak nem tapadnak össze.

Ha 301-es átirányítást használ a törléshez oldal ismétlődései Az indexből mindenekelőtt el kell döntenie a webhely fő tükrét. Például főtükörként jelezzük http://site.ru Csak módosítania kell webhelye címét

  • 301 Átirányítás a www.site.ru webhelyről a site.ru oldalra

Ehhez a .htaccess fájlban (a fájl a webhely gyökerében található) adja hozzá a következő sorokat közvetlenül a RewriteEngine On után:

RewriteCond %(HTTP_HOST) ^www.site.ru$ RewriteRule ^(.*)$ http://site.ru/$1

  • 301 átirányítás a site.ru/index.php webhelyről a site.ru oldalra


RewriteRule ^index\.php$ http://site.ru/

Hasonlóképpen megszabadulhat a következő típusú ismétlődésektől:

http://site.ru/index
http://site.ru/index.html
http://site.ru/index.htm

Ha például a http://site.ru és a http://site.ru /page123 oldalakat szeretné összeragasztani, akkor a következőket kell beírni a .htaccess fájlba:

Átirányítás 301 /page123 http://site.ru

Most, amikor megpróbál felkeresni a http://site.ru/page123 oldalt, működni fog az átirányítás a fő oldalra.

Az eredeti feltüntetésének másik módja, hogy a duplikált oldalakra írjuk az ún. kanonikus linkek. Ezek hivatkozások az attribútumhoz rel=canonical Más szóval egy ilyen oldal fejblokkja ezt írja:

Ha a keresőmotorok találkoznak egy ilyen hivatkozással, megértik, hogy a számos oldal másolata közül melyik az eredeti, és indexelik.

Például a fenti példában a webhelynek 2 ismétlődő oldala volt:

http://site.ru/load
http://site.ru/load/

A rel=canonical attribútum megadásával a http://site.ru/load oldalon megmutatjuk a keresőmotoroknak, hogy ez az oldal a fő oldal, és indexelni kell.

Egyes CMS-ek (például a Joomla!) automatikusan létrehozhatnak ilyen hivatkozásokat, mások számára ezt a műveletet különféle bővítmények hajtják végre. Azonban még akkor sem, ha webhelyének minden újonnan létrehozott oldalmásolata kanonikus hivatkozásokat tartalmaz, ez nem segít megoldani a már meglévő ismétlődések problémáját.

robots.txt

Az ismétlődő oldalak problémáját részben megoldja a robots.txt fájl, amely ajánlásokat tartalmaz a keresőmotorok számára, felsorolva azokat a fájlokat és mappákat, amelyeket nem szabad indexelni. Miért részben? Mivel ez a fájl ajánlásokat tartalmaz, nem szabályokat, és egyes keresőmotorok figyelmen kívül hagyják ezeket az ajánlásokat.

Például ahhoz, hogy a Yandex eltávolítsa a régi ismétlődő oldalakat az indexből, elegendő regisztrálni az indexelést tiltó megfelelő szabályokat a robots.txt fájlban. A Google esetében kicsit bonyolultabb a helyzet. Ugyanezeket a szabályokat bele kell foglalni a Google speciális eszköztárába is, amelyet kifejezetten a webmesterek számára készítettek. A Google-ban a webmesternek be kell állítania a szükséges linkparamétereket a „Feltérképezés” részben.

A robots.txt létrehozásakor a disallow direktívát kell használnunk.

  • Javítsa ki a robots.txt fájlt a Joomla számára

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Webhelytérkép: http://site.ru/sitemap.xml Felhasználói ügynök: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

  • Javítsa ki a robots.txt fájlt a Wordpress számára

Felhasználói ügynök: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Webhelytérkép: http://site.ru/sitemap.xml Felhasználói ügynök: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Házigazda: site.ru
Webhelytérkép: http://site.ru/sitemap.xml

Mit jelentenek ezek a sorok:

  • User-agent: *- az e sor alatt leírt szabályok minden keresőrobotra érvényesek
  • Felhasználói ügynök: Yandex- a szabályok csak a Yandex robotra vonatkoznak
  • lehetővé teszi:- indexelés engedélyezése (általában nem írt)
  • Letiltás: tilos indexelni azokat az oldalakat, amelyek címében a sorban leírtak szerepelnek.
  • Házigazda: site.ru- Főoldal tükör
  • oldaltérkép:- link XML oldaltérképre
  • "*" - bármilyen karaktersorozat az oldal címében

Duplikált oldalak kezelése a Wordpressben

Mi legyen a robots.txt fájl a Wordpress számára, fentebb már tárgyaltuk. És most beszéljünk azokról a bővítményekről, amelyek lehetővé teszik az ismétlődések kezelését, és általában nélkülözhetetlenek a webhely-optimalizáló számára ezen a motoron.

Yoast SEO- A Wordpress egyik legnépszerűbb bővítménye, amely lehetővé teszi az ismétlődések problémájának kezelését. Használható arra, hogy a Wordpresst kanonikus hivatkozások írására kényszerítse, oldalszámozott oldalak (kategóriák) indexelésének letiltására, szerzői archívumok elrejtésére, /kategória/ eltávolítására az URL-ekből és még sok másra.

Minden egy Seo Packben- Hasonló bővítmény, nem kevésbé népszerű és hasonló funkciókat lát el. Ön dönti el, hogy melyiket használja.

Az ismétlődő oldalak eltávolítása a Joomlában

Annak ellenére, hogy a Joomla! támogatja a kanonikus hivatkozások automatikus létrehozását, egyes duplikátumok továbbra is a keresőmotor indexébe kerülhetnek. A Joomla! használhatja a robots.txt fájlt és a 301-es átirányítást. A megfelelő rorbots.txt fájl leírása fent található.

Nos, a CNC (ember által érthető URL-ek) engedélyezéséhez a Joomlában, egyszerűen nevezze át a htaccess.txt fájlt .htaccess névre, és adja hozzá közvetlenül a RewriteEngine On után:

RewriteCond %(HTTP_HOST) ^www.site.ru$
RewriteRule ^(.*)$ http://site.ru/$1 RewriteCond %(THE_REQUEST) ^(3,9)\ /index\.php\ HTTP/
RewriteRule ^index\.php$ http://site.ru/

És a webhely beállításaiban is jelölje be a négyzeteket az alábbiak szerint:

Így megszabadulunk a duplikátumoktól, mint pl www.site.ru és site.ru /index.php, mert ennek a CMS-nek ilyen problémái vannak a duplikátumokkal. És a keresőmotorok gyakran indexelnek olyan oldalakat, mint a site.ru/index.php. Most, az összes manipuláció után, amikor megpróbál belépni egy oldalra, például a www.site.ru oldalra, a látogató átkerül a fő oldalra, azaz. site.ru.

A Joomla bővítményei közül tudok tanácsot adni JL Nincs páros- A bővítmény eltávolítja az ismétlődő oldalakat a com_content komponensben. Lehetséges 301-es átirányítás a megfelelő oldalra, vagy 404-es hibaüzenet.

Speciális szolgáltatások robots.txt és .htaccess létrehozásához

Ha még csak most kezdi el elsajátítani a webhelyépítést, próbálja meg igénybe venni a speciális szolgáltatások szolgáltatásait, amelyek segítenek érvényes robots.txt és .htaccess fájlok létrehozásában:

seolib.ru- Rajta nem csak létrehozhatod, hanem tesztelheted is a robots.txt-edet

htaccess.com - az egyik legnépszerűbb szolgáltatás, ahol különféle lehetőségeket hozhat létre és választhat a generált .htaccess fájlhoz

Tudja, hogy bármely webhelyen találhat másolatokat? Persze, ha korábban senki nem győzte le őket. Most elmondom, hogyan távolíthatja el őket egyszer és… természetesen nem örökre, ahogy újak jelennek meg. Ezt a problémát folyamatosan figyelemmel kell kísérni. Hidd el nekem, kifizetődő lesz a meglévő ismétlődésekre adott időben adott válasz, valamint az újak megelőzése.

Egy kis összefoglaló („Az előző sorozatban”): már értesültünk róluk, arról, hogy mivel fenyegetik az oldalt; amelyekről természetesen nem akarnak megtalálni. Rád akarnak szállni.

A duplikált tartalom minden következménye érthető, de ez nem könnyíti meg a dolgot. Tehát harcolnia kell, és a saját kezébe kell vennie a webhely indexelését.

A belső másolatok kezelésének módszerei

  • 404-es hiba
  • Ez az ismétlődő oldal egyszerű eltávolítása. Ez a módszer csak akkor alkalmas, ha az oldal nem hoz semmilyen hasznot az oldal látogatóinak. Opcionálisan eltávolíthatja ezt az oldalt a Google Webmester indexéből. Fontos, hogy a webhely más oldalai ne hivatkozzanak a törölt oldalra, ellenkező esetben a robot újra és újra megpróbálja indexelni, és rendszeresen indexelési hibát ad ki a Webmesterben és a webhelyen - 404 (). Ha mindent jól csinálunk, egy idő után az oldal feledésbe merül.

    Egy plusz: nincs ismétlődő oldal - nincs probléma.

    Mínusz: az oldal legyen teljesen használhatatlan (miért készítsünk ilyet?), és ne legyenek linkek rá.

  • 301-es átirányítás
  • Ez azt jelenti, hogy az oldal véglegesen elköltözött (szemben a 302-vel, amikor az oldalt ideiglenesen áthelyezték). A 301-es átirányítás akkor megfelelő, ha a duplikált oldal nem teljesen használhatatlan, hanem éppen ellenkezőleg, forgalmat hoz, és vannak visszamutató linkjei. A súlyt egyik oldalról a másikra viszi át. Ám a közkeletű tévhittel ellentétben a súly nem száll át teljesen, egy része mégis elveszik. 301-es átirányítást írhat egy fájlba .htaccess, általában így fog kinézni:

    RedirectPermanent /old-page http://www.site.ru/new-page/

    A 301-es átirányítások nem csak a duplikált tartalom kezelésére alkalmasak, hanem ideiglenes oldalakhoz is (például a webhely olyan állományoldalaihoz, amelyeket nem archiválnak, hanem egyszerűen törölnek, és 404-es hibát adnak), amelyeken ismét lehetnek visszamutató hivatkozások. Jobb, ha az ilyen oldalakat a webhely más, legrelevánsabb oldalaira irányítja át. Ha nincs ilyen, mehet a főbe.

    Egy plusz: oldalakat ragaszt, univerzális és kiválóan alkalmas a www-vel és www nélküli oldalak problémáinak megoldására is.

    Mínusz: A 301-es átirányítás elérhetetlenné teszi azt az oldalt, amelyről küldték. De ha szüksége van rá, akkor ez egyáltalán nem mínusz.

  • Rel=canonical
  • 2009 óta a Google, majd később a Yandex is bevezette ezt a címkét. Megmondja a keresőrobotoknak, hogy 2 vagy több oldal közül melyiket kell rangsorolni. A címkébe írt kanonikus minden oldal, amelyre vonatkozik. Ez így néz ki:

    Fontos, hogy minden kanonizált oldal (azaz, amelyen a rel=canonical címke regisztrálva van) ugyanarra az oldalra mutasson (amely rangsorolódik), de semmi esetre sem önmagára, különben az egész lényeg elvész . Amikor a robot egy rel=canonical címkét tartalmazó oldalra érkezik, ezt az oldalt hozzákapcsolja a címkében megadotthoz, és összeragasztja őket. Tehát, ha beírja a cache:site.ru/stranitsa-dublicat a Google-ba, és látja a site.ru/kanon gyorsítótárát, mindent jól csinált.

    Egy plusz: két vagy több oldal lesz elérhető a webhely felhasználói számára, de csak egy - a keresőmotorok számára, és ez csalás nélkül történik.

    Mínusz: Nem látok semmilyen hátrányt. Ki fogja megmondani?

  • Robots.txt
  • Az ismétlődő oldalak a robots.txt fájlban is letilthatók. Így nem fogják őket indexelni a keresőrobotok, hanem elérhetőek lesznek az oldalon.

    Egy plusz: könnyű kezelhetőség.

    Mínusz: alaposan meg kell értenie, hogy mit tiltson meg, és hogyan jelenítse meg azt a robots.txt fájlban, hogy véletlenül ne tiltsa meg a webhely egy részének vagy a teljes webhely indexelését. Ráadásul a már indexelt oldalak robots.txt fájlban való tiltása nem távolítja el őket az indexből, ezt manuálisan kell megtennie a Webmesterben, ami elég kényelmetlen, ha sok ilyen oldal van.

    Innen a következtetés: a legjobb, ha előre betiltja a „kifogásolható” oldalakat, és ezt óvatosan tesszük.

  • Meta robotok
  • A webhely indexelését metarobotokkal is szabályozhatja: INDEX/NOINDEXés FOLLOW/NOFOLLOW. Általában minden oldal alapértelmezett értéke az INDEX, FOLLOW, ami azt jelenti: az oldal indexelve van, és a robot követi a hivatkozásokat róla. Az ismétlődő oldal eltávolításához beépítheti NOINDEX, NOFOLLOW címkékbe (az oldal nincs indexelve, és a robot sem követi a linkeket), de még jobb - NOINDEX, FOLLOW (az oldal nincs indexelve, hanem a robot követi a rajta található linkeket).

    A WordPress rendelkezik egy speciális bővítménnyel - WordPress Meta Robots -, amely segít metarobotok beállításában minden oldalhoz vagy bejegyzéshez.

    Az oldal NOINDEX-be zárása, a FOLLOW címkék jók a számozással ellátott oldalakhoz (ez az egyik módja a rajtuk lévő ismétlődések kezelésére).

    Egy plusz: ez a meta tag még a robots.txt-nél is könnyebb, mert külön oldalra van írva, és itt véletlenül sem lehet tiltani egy teljes szakasz indexelését.

    mínusz: ideális esetben természetesen a robotoknak helyesen kell megérteniük, hogy mit akarnak közölni velük. De előfordul, hogy a NOINDEX-et tartalmazó oldalak mégis bekerülnek az indexbe.

  • Oldal eltávolítása az indexből a Google Webmesterben
  • Ez az oldaleltávolító eszköz a Webmester > Webhelykonfiguráció > Robothozzáférés > URL eltávolítása menüpontban található. Ezt az eszközt utoljára és jobban kell használni más intézkedésekkel együtt. Több dolog is alapul szolgálhat az oldalak törléséhez (a Google számára): ha 404-es hibát adnak az oldalak, ha tiltják a robots.txt-ben vagy meta robotokat használnak. Ha nem tiltják sehol az oldalakat, akkor a Google természetesen kérésre eltávolítja őket, de csak 90 napra.

    Egy plusz: az oldalak indexből való eltávolításának felgyorsítása, ha már letiltotta őket valahol.

    Mínusz: munkaigényes, mivel minden URL-t manuálisan adnak hozzá a törlési sorhoz, és ez sokáig tarthat. Tehát ha sok szükségtelen oldal van az indexben, nem lehetséges mindegyik manuális törlése.

  • Blokkolási beállítások a Google Webmesterben
  • Megyünk Webmester > Webhely konfigurációja > URL-paraméterek

    Itt találja azoknak a dinamikus paramétereknek a listáját, amelyeket a Googlebot talált az Ön webhelyén, valamint ezek indexelési szabályait. Alapértelmezés szerint a Google maga dönti el, hogy indexeli-e a dinamikus paraméterekkel rendelkező oldalakat a címekben (az egyéb eszközökkel, például a robots.txt fájllal történő indexelés tilalma itt nem jelenik meg). Az indexelést a "Nem" opció kiválasztásával lehet letiltani, ami azt jelenti, hogy az oldal címéhez adott paraméterek nem változtatják meg annak tartalmát, azaz duplikált hoz létre.

    Egy plusz: könnyen letilthatja a dinamikus paraméterekkel rendelkező oldalak indexelését, amelyek általában fejfájást okoznak (pl. replytocom a WP-n). Még ebben az eszközben is találhat olyan paramétereket, amelyekről nem is tudta, hogy léteznek az oldalon.

    Mínusz: csak a Google érti ezt a tilalmat, ami azt jelenti, hogy a Yandex továbbra is indexeli a dinamikus paraméterekkel rendelkező oldalakat, hacsak nem tesznek más intézkedéseket (ugyanaz a robots.txt).

    2011 szeptemberében a Google bevezette a rel=Prev és a rel=Next funkciót, hogy segítsen a webmestereknek kezelni az ismétlődő tartalmat oldalszámozott oldalak jelenlétében.

    Mint minden más metaadat, ezek a címkék is be vannak írva oldalakat. A lényeg a következő:

    Egy plusz:Ön azt mondja a Google-nak, hogy oldalszámmal ellátott oldalai vannak, így nem tekinti ismétlődőnek azokat.

    Mínusz: Ismét csak a Google támogatja jelenleg ezeket a címkéket. Vannak, akik ezt a módszert nem tartják alkalmasnak a duplikátumok kezelésére, mivel az összes rel=Prev és rel=Next oldal súlya egyenletesen oszlik el, vagyis elméletileg a 15. oldalnak ugyanannyi esélye van a rangsorolásra, mint az 1.-nek.

    Küzdelem a külső másolatok ellen

    A külső másolatokat többnyire nem webmesterek készítik, de ezzel a jelenséggel nekik kell megküzdeniük. És itt van néhány módszer.

  • Forrás attribútum metacímkéi
  • 2010 novemberében a Google bevezette a metaforrás attribútumcímkéit. Hírekhez, ismertetőkhöz használják, amelyeket gyakran újra közzétesznek különböző oldalakon. A forrásattribútum metacímke így néz ki:

    Ez a címke a címkében van elhelyezve oldal, amely másolja a szöveget, és a tartalom határozza meg elsődleges forrás.

    Egy plusz: ez a metacímke megoldja a számos külső ismétlődés problémáját.

    Mínusz: A forrás attribútum metacímkéit csak a Google támogatja.

  • Domainek közötti rel-canonical
  • A rendszer ugyanaz, mint az oldalon belüli rel-canonical: egy másolat kanonizálja bármely szöveg, hír eredeti forrását.

    Egy plusz: a külső ismétlődések jelenlététől függetlenül webhelye nem fog szenvedni.

    Mínusz: csak a Google támogatja (valahol már hallottam ezt).

  • Élvezze a visszamutató linkek beszerzését
  • Mindenki tudja, hogy nagyon nehéz lehet rávenni a tartalomtolvajokat, hogy eltávolítsák webhelyükről. Ezért megnyugvást találhat magának: az oldalaikról származó visszamutató linkek, mivel sok tolvaj nemcsak a másolt cikkek szövegében hagy hivatkozásokat az Ön webhelyére, hanem nem zárja el őket az indexeléstől. Ezért (persze nem csak ezért) ne feledkezzünk meg belső linkelésről sem oldalaink és cikkeink között.

    Végül

  • Hivatkozások ismétlődő oldalakra
  • Ha az ismétlődő oldalakat „eltávolítják”, le kell állítania a rájuk mutató hivatkozásokat mind a külső forrásokból, mind pedig magáról a webhelyről. Ha 301-es átirányítást (vagy rel=canonical) állít be - a maximális hatás elérése érdekében hivatkozzon arra az oldalra, amelyre átirányítja. Ha nem indexel egy oldalt, hanem külső forrásból hivatkozik rá, akkor egymásnak ellentmondó utasításokat ad a keresőmotoroknak, ami problémákat okozhat.

  • Ne csinálj semmit
  • Csak hunyhatja a szemét a megkettőzött tartalom felett, és remélheti, hogy maguk a keresőmotorok is megértik, mit kell indexelni és mit nem. Ez rendben van, ha csak néhány ismétlődő oldala van, de bajba kerülhet, ha a webhely nagy és sok ismétlődő oldal van, vagy ha webhelyét kíméletlenül másolják. Végső soron ez rajtad múlik.

    Mit mondjunk a végén? Mindannyian egyediek akarunk lenni, és nem olyanok, mint bárki más. Miért rosszabbak a webhelyeink? Nekik is egyedinek kell lenniük, úgyhogy ne másold le őket és ne engedd másoknak! És igen, iratkozz fel a frissítésekre!

    Gyakran előfordul, hogy ugyanazon a webhelyen találhatók másolatok az oldalakról, és előfordulhat, hogy tulajdonosa nem tud erről. Amikor megnyitja őket, minden helyesen jelenik meg, de ha megnézi a webhely címét, akkor észreveheti, hogy különböző címek felelhetnek meg ugyanannak a tartalomnak.

    Mit is jelent ez? A hétköznapi moszkvai felhasználóknak semmi, mert nem azért jöttek az oldalára, hogy megnézzék az oldalak címét, hanem azért, mert a tartalom érdekelte őket. De ez nem mondható el a keresőmotorokról, mert ők egészen más megvilágításban érzékelik ezt az állapotot - az egymástól eltérő oldalakat azonos tartalommal látják.

    Ha a hétköznapi felhasználók esetleg nem veszik észre a duplikált oldalakat az oldalon, ez biztosan nem kerüli el a keresőmotorok figyelmét. Mihez vezethet ez? A keresőrobotok a másolatokat különböző oldalakként azonosítják, ennek eredményeként többé nem fogják egyedinek érzékelni a tartalmukat. Ha érdekli a webhely promóciója, akkor tudja, hogy ez minden bizonnyal befolyásolja a helyezést. Ezenkívül az ismétlődések jelenléte csökkenti a linklevet, amely az optimalizáló jelentős erőfeszítései eredményeként jelent meg, aki megpróbálta kiemelni a céloldalt. Az ismétlődő oldalak azt eredményezhetik, hogy a webhely egy teljesen más része kerül kiemelésre. Ez pedig jelentősen csökkentheti a külső hivatkozások és a belső linkek hatékonyságát.

    Károsak lehetnek az ismétlődő oldalak?

    Az ismétlődések megjelenéséért gyakran a CMS a felelős, amelynek rossz beállításai vagy az optimalizáló figyelmének hiánya egyértelmű másolatok keletkezéséhez vezethet. Az olyan webhelykezelő rendszerek, mint a Joomla, gyakran ezt teszik. Azonnal megjegyezzük, hogy egyszerűen nincs univerzális megoldás e jelenség leküzdésére, de telepítheti a másolatok megkeresésére és törlésére szolgáló beépülő modulok egyikét. Előfordulhatnak azonban homályos ismétlődések, amelyek tartalma nem egyezik teljesen. Ez leggyakrabban a webmester hibái miatt történik. Az internetes áruházakban gyakran megtalálhatók olyan oldalak, amelyeken a termékkártyák csak néhány mondatos leírásban térnek el egymástól, míg a többi, különböző elemekből és átívelő blokkokból álló tartalom ugyanaz. A szakértők gyakran egyetértenek abban, hogy bizonyos számú ismétlődés nem zavarja a webhelyet, de ha körülbelül fele vagy több van, akkor az erőforrás népszerűsítése sok problémát okoz. De még azokban az esetekben is, amikor több példány is található a webhelyen, jobb, ha megtalálja és megszünteti őket - így biztosan megszabadul az erőforráson található másolatoktól.

    Ismétlődő oldalak keresése

    Az ismétlődő oldalak megtalálásának többféle módja van. Maga a keresés előtt azonban jó lenne a keresők szemével megnézni az oldalát: hogyan képzelik el. Ehhez egyszerűen hasonlítsa össze oldalainak számát az indexükben szereplő oldalakkal. Ennek megtekintéséhez egyszerűen írja be a host:yoursite.ru kifejezést a Google vagy a Yandex keresőmezőjébe, majd értékelje az eredményeket.

    Ha egy ilyen egyszerű ellenőrzés eltérő adatokat szolgáltat, amelyek akár 10-szer vagy akár többször is eltérhetnek, akkor okkal feltételezhető, hogy az Ön elektronikus forrása ismétlődőket tartalmaz. Bár ez nem mindig a duplikált oldalak hibája, ez az ellenőrzés jó alapot nyújt a megtalálásukhoz. Ha a webhely kicsi, akkor önállóan kiszámíthatja a valódi oldalak számát, majd összehasonlíthatja az eredményt a keresőmotorokkal. A keresési eredmények között felkínált URL-ek használatával is kereshet ismétlődéseket. Ha CNC-t használ, akkor az URL-ben homályos karaktereket tartalmazó oldalak, például "index.php?c=0f6b3953d", azonnal felkeltik a figyelmét.

    Egy másik módszer az ismétlődések jelenlétének meghatározására a szövegtöredékek keresése. Egy ilyen ellenőrzés végrehajtásához be kell írnia az egyes oldalak több szavából származó szöveget a keresőmezőbe, majd egyszerűen elemeznie kell az eredményt. Azokban az esetekben, amikor két vagy több oldal kerül a kérdésbe, nyilvánvalóvá válik, hogy vannak másolatok. Ha csak egy oldal van a keresési eredmények között, akkor annak nincsenek ismétlődései. Természetesen ez az ellenőrzési technika csak egy kisebb, több oldalból álló webhelyen használható. Ha egy webhely több száz ilyet tartalmaz, az optimalizálója speciális programokat használhat, például a Xenu`s Link Sleuth-t.

    A webhely ellenőrzéséhez nyisson meg egy új projektet, lépjen a "Fájl" menübe, keresse meg az "URL ellenőrzése" lehetőséget, írja be az Önt érdeklő webhely címét, majd kattintson az "OK" gombra. Most a program elkezdi feldolgozni a megadott erőforrás összes URL-jét. A munka végeztével a kapott információkat meg kell nyitni bármely kényelmes szerkesztőben, és meg kell keresni a másolatokat. Az ismétlődő oldalak megtalálásának módszerei nem érnek véget: a Google Webmaster és a Yandex.Webmaster eszköztárában olyan eszközöket láthat, amelyek lehetővé teszik az oldalak indexelésének ellenőrzését. Segítségükkel másolatokat is találhat.

    Útban a probléma megoldása felé

    Ha megtalálja az összes másolatot, akkor az Ön feladata lesz eltüntetni őket. Számos lehetőség kínálkozik a probléma megoldására, és többféle módon is kiküszöbölheti az ismétlődő oldalakat.

    Az oldalak összeragasztása 301-es átirányítással történhet, ez olyan esetekben hatékony, amikor az URL-ek a www hiányában vagy meglétében különböznek. A másolt oldalakat kézzel is törölheti, de ez a módszer csak a manuálisan létrehozott ismétlődéseknél sikeres.

    A duplikátumok problémáját a fuzzy másolatokhoz használt kanonikus címkével oldhatja meg. Tehát egy online áruházban olyan árukategóriákhoz használható, amelyekhez duplikátumok vannak, és amelyek csak a különböző paraméterek szerinti válogatásban különböznek egymástól. Ezenkívül a kanonikus címke alkalmas nyomtatható oldalakon és hasonlókra. Használata egyáltalán nem nehéz - minden példányhoz egy attribútum rel=”canonical” formában van beállítva, a legrelevánsabb jellemzőkkel rendelkező kiemelt oldalhoz ez az attribútum nincs megadva. A kód hozzávetőleges nézete: link rel="canonical" href="http://site.ru/stranica-kopiya"/. A fejcímke területén kell elhelyezkednie.

    A megfelelően konfigurált robots.txt fájl azt is lehetővé teszi, hogy sikeres legyen a duplikációk elleni küzdelemben. A Disallow direktíva segítségével letilthatja a keresőrobotok hozzáférését az összes duplikált oldalhoz.

    Még a webhely szakmai fejlődése sem segít a TOP-ra kerülni, ha az erőforrás ismétlődő oldalakat tartalmaz. Manapság az oldalak másolása az egyik leggyakoribb buktató, amelytől a kezdők szenvednek. Ezek nagy száma az Ön webhelyén jelentős nehézségeket okoz a TOP-ra jutásban, vagy akár lehetetlenné is teszi.

    Előfordulhat, hogy a tulajdonos nem gyanítja, hogy webhelyének egyes oldalairól másolatok találhatók - leggyakrabban ez történik. Az oldalak megnyílnak, a tartalmuk rendben van, de ha csak az URL-re figyelsz, akkor észreveszed, hogy ugyanazon tartalom mellett a címek eltérőek. Mit jelent? Az élő felhasználók számára abszolút semmi, mivel érdeklik őket az oldalakon található információk, de a lelketlen keresők teljesen másképp érzékelik ezt a jelenséget - számukra ezek teljesen különböző, azonos tartalmú oldalak.

    Az ismétlődő oldalak károsak?

    Tehát, ha egy közönséges felhasználó még csak nem is veszi észre az ismétlődések jelenlétét az Ön webhelyén, akkor a keresőmotorok azonnal meghatározzák ezt. Milyen reakcióra számíthatsz tőlük? Mivel valójában a keresőrobotok a másolatokat különböző oldalaknak tekintik, a rajtuk lévő tartalom megszűnik egyedinek lenni. Ez pedig már negatívan befolyásolja a helyezést.

    Ezenkívül az ismétlődések jelenléte elmossa a linklevet, amelyet az optimalizáló a céloldalra próbált összpontosítani. Az ismétlődések miatt előfordulhat, hogy nem azon az oldalon van, ahová át akarták vinni. Vagyis a belső linkelés és a külső hivatkozások hatása sokszorosára csökkenhet.

    Az esetek túlnyomó többségében a CMS okolható a duplikációk előfordulásáért - a hibás beállítások és az optimalizáló figyelmének hiánya miatt egyértelmű másolatok keletkeznek. Sok CMS, például a Joomla, vétkezik ezzel. Nehéz univerzális receptet találni a probléma megoldására, de megpróbálhatja valamelyik beépülő modul használatával eltávolítani a másolatokat.

    A homályos ismétlődések előfordulása, amelyekben a tartalom nem teljesen azonos, általában a webmester hibájából következik be. Ilyen oldalak gyakran megtalálhatók az online áruházak oldalain, ahol a termékkártyás oldalak csak néhány mondatban különböznek a leírással együtt, és minden más, átívelő blokkokból és egyéb elemekből álló tartalom ugyanaz.

    Sok szakértő azzal érvel, hogy kis számú ismétlődés nem károsítja a webhelyet, de ha több mint 40-50% -a van, akkor komoly nehézségek várhatnak az erőforrásra a promóció során. Mindenesetre, ha nincs is olyan sok példány, érdemes gondoskodni az eltüntetésükről, így garantáltan megszabadul a duplikátumokkal kapcsolatos problémáktól.

    Másolatok keresése

    Többféle módon is megtalálhatja az ismétlődő oldalakat, de először is fel kell keresnie több keresőmotort, és megnéznie, hogyan látják az Ön webhelyét – csak össze kell hasonlítania az oldalak számát az indexben. Ezt meglehetősen egyszerű megtenni további eszközök igénybevétele nélkül: a Yandexben vagy a Google-ban elegendő beírni a host:yoursite.ru címet a keresősávba, és megnézni az eredmények számát.

    Ha egy ilyen egyszerű ellenőrzés után a szám nagyon eltérő lesz, 10-20-szor, akkor bizonyos fokú valószínűséggel ez jelezheti az egyik duplikátum tartalmát. Lehet, hogy az oldalak másolása nem okolható az ilyen különbségért, de ez további alaposabb keresést tesz lehetővé. Ha a webhely kicsi, akkor manuálisan kiszámíthatja a valódi oldalak számát, majd összehasonlíthatja a keresőmotorok mutatóival.

    A keresőmotor találatai között URL alapján kereshet ismétlődő oldalakat. Ha CNC-vel kell rendelkezniük, akkor a homályos karaktereket tartalmazó URL-eket tartalmazó oldalak azonnal kikerülnek az általános listából.

    Az ismétlődések jelenlétének keresőmotorok segítségével történő meghatározásának másik módja a szövegrészletekben történő keresés. Az ilyen ellenőrzés eljárása egyszerű: minden oldalról 10-15 szóból álló szövegrészletet kell beírnia a keresősávba, majd elemeznie kell az eredményt. Ha két vagy több oldal van a keresési eredmények között, akkor vannak másolatok, de ha csak egy találat van, akkor ennek az oldalnak nincsenek ismétlődései, és nem kell aggódnia.

    Logikus, hogy ha az oldal nagyszámú oldalból áll, akkor egy ilyen ellenőrzés az optimalizáló számára lehetetlen rutinná válhat. Az időköltségek minimalizálása érdekében speciális programokat használhat. Az egyik ilyen eszköz, amely valószínűleg ismerős a tapasztalt szakemberek számára, a Xenu`s Link Sleuth program.

    A webhely ellenőrzéséhez új projektet kell nyitnia a menü "Fájl" "URL ellenőrzése" kiválasztásával, írja be a címet, majd kattintson az "OK" gombra. Ezt követően a program elkezdi feldolgozni a webhely összes URL-jét. Az ellenőrzés végén exportálnia kell a kapott adatokat bármely kényelmes szerkesztőbe, és el kell kezdenie keresni a másolatokat.

    A fenti módszerek mellett a Yandex.Webmaster és a Google Webmaster Tools panelek eszközkészletében találhatók az oldalindexelés ellenőrzésére szolgáló eszközök, amelyek segítségével ismétlődőket kereshet.

    Problémamegoldó módszerek

    Miután az összes másolatot megtalálta, el kell távolítani azokat. Ezt is többféleképpen lehet megtenni, de minden konkrét esetnek saját módszere kell, elképzelhető, hogy mindegyiket használnia kell majd.

    A másolt oldalak manuálisan is törölhetők, de ez a módszer inkább csak azokhoz a másolatokhoz alkalmas, amelyeket a webmester tapintatlansága miatt manuálisan hoztak létre.

    A 301-es átirányítás kiválóan alkalmas olyan oldalak összeragasztására, amelyek URL-jei különböznek a www jelenlétében és hiányában.

    A kanonikus címkét használó duplikátumokkal kapcsolatos probléma megoldása alkalmazható fuzzy másolatokra. Például egy online áruház árukategóriáihoz, amelyeknek másodpéldányai vannak, amelyek különböző paraméterek szerint különböznek egymástól. A canonical is alkalmas az oldalak nyomtatható változataira és más hasonló esetekben. Alkalmazása meglehetősen egyszerű - minden másolatnál meg van adva a rel=”canonical” attribútum, de nem a főoldalra, amely a leginkább releváns. A kódnak valahogy így kell kinéznie: link rel="canonical" href="http://yoursite.ru/stranica-kopiya"/, és a head címkén belül kell lennie.

    Az ismétlődések elleni küzdelemben a robots.txt fájl beállítása segíthet. A Disallow direktíva lehetővé teszi, hogy blokkolja a keresőrobotok duplikátumokhoz való hozzáférését. A fájl szintaxisáról bővebben a levelezőlistánk 64. számában olvashat.

    következtetéseket

    Ha a felhasználók az ismétlődéseket egy oldalnak tekintik, amelyeknek különböző címei vannak, akkor a pókok esetében ezek más-más oldalak ismétlődő tartalommal. Az oldalak másolása az egyik leggyakoribb buktató, amelyet a kezdők nem tudnak megkerülni. A népszerűsített oldalon való tömeges jelenlétük elfogadhatatlan, mivel komoly akadályokat gördítenek a TOP-ba való bejutás elé.

    Megkettőzött oldalak webhelyeken vagy blogokon honnan származnak és milyen problémákat okozhatnak.
    Erről fogunk beszélni ebben a bejegyzésben, megpróbáljuk kezelni ezt a jelenséget, és megtalálni a módját, hogy minimalizáljuk azokat a lehetséges problémákat, amelyeket a webhely duplikált oldalai okozhatnak számunkra.

    Tehát folytassuk.

    Mik azok az ismétlődő oldalak?

    Oldalak megkettőzése bármely webes erőforráson ugyanazon információhoz való hozzáférést jelenti különböző címeken. Az ilyen oldalakat a webhely belső másolatainak is nevezik.

    Ha az oldalon lévő szövegek teljesen azonosak, akkor az ilyen másolatokat teljesnek vagy egyértelműnek nevezzük. Részleges meccsel a duplikátumokat hiányosnak vagy fuzzynak nevezzük.

    Hiányos felvételek- ezek kategóriaoldalak, terméklista oldalak és hasonló oldalak, amelyek az oldal anyagaival kapcsolatos közleményeket tartalmazzák.

    Teljes oldal másolatok- ezek a nyomtatott verziók, a különböző kiterjesztésű oldalak verziói, az archívumok oldalai, a webhelyen történő keresés, a megjegyzésekkel ellátott oldalak stb.

    Az ismétlődő oldalak forrásai.

    Jelenleg a legtöbb oldal ismétlődését a modern CMS használatával- tartalomkezelő rendszerek, ezeket oldalmotoroknak is nevezik.

    Ezt és WordPress és Joomla és DLEés más népszerű CMS-ek. Ez a jelenség súlyosan megterheli a webhely-optimalizálókat és a webmestereket, és további problémákat okoz számukra.

    Az online áruházakban duplikátumok jelenhetnek meg, amikor az árukat különféle részletek (termékgyártó, termék rendeltetése, gyártási dátum, ár stb.) szerint rendezik.

    Emlékeznünk kell a hírhedtekre is WWW előtagés döntse el, hogy használja-e a domain névben az oldal létrehozásakor, fejlesztésekor, népszerűsítésénél és népszerűsítésénél.

    Mint látható, a duplikátumok forrásai eltérőek lehetnek, csak a főbbeket soroltam fel, de ezek mind jól ismertek a szakemberek számára.

    Ismétlődő oldalak, negatív.

    Annak ellenére, hogy sokan nem fordítanak nagy figyelmet a másolatok megjelenésére, ez a jelenség komoly problémákat okozhat. weboldal promóciós problémák.

    A kereső megfontolhatja másolatok, mint a spamés ennek eredményeként mind ezeknek az oldalaknak, mind a webhely egészének pozíciója jelentősen csökken.

    Ha egy webhelyet linkekkel reklámoz, a következő helyzet állhat elő. Egy bizonyos ponton a keresőmotor a legtöbbet fogja tekinteni releváns ismétlődő oldal, és nem azt, amelyet linkekkel reklámoz, és minden erőfeszítése és költsége hiábavaló lesz.

    De vannak, akik megpróbálják használjon duplákat a súly növeléséhez a kívánt oldalakra, például a főoldalra vagy bármely másra.

    Az ismétlődő oldalak kezelésének módszerei

    Hogyan lehet elkerülni a duplikációkat, vagy hogyan lehet semmissé tenni a negatív pillanatokat, amikor megjelennek?
    És általában, megéri-e valahogy küzdeni, vagy mindent a keresők kegyeire adni. Hadd találják ki maguk, mert olyan okosak.

    A robots.txt használata

    Robots.txt egy fájl, amely webhelyünk gyökérkönyvtárában található, és direktívákat tartalmaz a keresőrobotokhoz.

    Ezekben az irányelvekben meghatározzuk, hogy webhelyünk mely oldalait kell indexelni, és melyeket nem. Megadhatjuk az oldal fő domainjének és az oldaltérképet tartalmazó fájl nevét is.

    Az oldalindexelés letiltása A Disallow direktíva használatos. Ezt használják a webmesterek az ismétlődő oldalak bezárására az indexelésből, és nem csak a duplikációkat, hanem minden olyan információt, amely nem kapcsolódik közvetlenül az oldalak tartalmához. Például:

    Disallow: /search/ - a webhely keresési oldalainak bezárása
    Disallow: /*? - zárja be a „?” kérdőjelet tartalmazó oldalakat
    Disallow: /20* - archív oldalak bezárása

    A .htaccess fájl használata

    .htaccess fájl(kiterjesztés nélkül) szintén a webhely gyökérkönyvtárában található. A fájl ismétlődéseinek leküzdéséhez konfigurálja a használatát 301 átirányítás.
    Ez a módszer segít megőrizni a helymutatókat. az oldal CMS-jének megváltoztatása vagy szerkezetének megváltoztatása. Az eredmény egy helyes átirányítás a link tömegének elvesztése nélkül. Ebben az esetben a régi címen lévő oldal súlya átkerül az új címen lévő oldalra.
    A 301-es átirányítások a webhely fő domainjének meghatározásakor is használatosak – WWW-vel vagy WWW nélkül.

    A REL címke használata = „CANNONICAL”

    Ezzel a címkével a webmester jelzi a keresőnek a forrást, vagyis azt az oldalt, amelyet indexelni kell, és részt kell venni a keresőmotorok rangsorolásában. Az oldalt kanonikusnak nevezik. A HTML-bejegyzés így fog kinézni:

    CMS WordPress használatakor ezt egy ilyen hasznos beállításaiban lehet megtenni plugin All in One Seo Packként.

    További duplikáció elleni intézkedések a CMS WordPress számára

    Miután a fenti módszereket alkalmaztam a duplikált oldalak kezelésére a blogomban, mindig az volt az érzésem, hogy nem tettem meg mindent, amit lehetett. Ezért, miután az interneten böngésztem, szakemberekkel konzultáltam, úgy döntöttem, valami mást csinálok. Most leírom.

    Úgy döntöttem, hogy megszüntetem a blogon keletkező duplikációkat, mikor horgonyok segítségével, A „HTML horgonyok” című cikkben beszéltem róluk. A WordPress blogokon a címke alkalmazásakor horgonyok jönnek létre. "#more" és a megjegyzések használatakor. Használatuk célszerűsége meglehetősen vitatott, de egyértelműen duplikációkat produkálnak.
    Most hogyan tudom megoldani ezt a problémát.

    Először foglalkozzunk a #more címkével.

    Talált egy fájlt, ahol létrejött. Inkább azt mondták.
    Ez a ../wp-includes/post-template.php
    Aztán megtaláltam a programrészletet:

    ID)\" class= \"more-link\">$more_link_text", $további_link_szöveg);

    A pirossal jelölt részt eltávolították.

    #more-($post->ID)\" class=

    És végül egy ilyen sorhoz jutottam.

    $output .= apply_filters('the_content_more_link', ' $more_link_text", $további_link_szöveg);

    Megjegyzéshorgonyok eltávolítása #comment

    Most pedig térjünk át a megjegyzésekre. Már magamtól is rájöttem.
    Én is az akta mellett döntöttem ../wp-includes/comment-template.php
    A megfelelő kódrészlet megtalálása

    return apply_filters('get_comment_link', $link . ‘#comment-’ . $megjegyzés->megjegyzés_azonosító, $megjegyzés, $args);)

    Hasonlóképpen eltávolították a pirossal jelölt töredéket. Nagyon óvatosan, óvatosan, minden pontig.

    . ‘#comment-’ . $megjegyzés->megjegyzés_azonosító

    A következő kódsort kapjuk.

    return apply_filters('get_comment_link', $link, $comment, $args);
    }

    Mindezt természetesen úgy tette, hogy a jelzett programfájlokat korábban a számítógépére másolta, hogy meghibásodás esetén könnyen visszaállítható legyen a változások állapota.

    A változtatások eredményeként, amikor a "Bejegyzés többi részét olvassa el..." szövegre kattintok, egy oldalt kapok a kanonikus címmel és a farok kiegészítése nélkül "#tovább-.. ..." Továbbá, amikor a megjegyzésekre kattintok, egy normál kanonikus címet kapok előtag nélkül, „#megjegyzés-…” formában.

    Így némileg csökkent a duplikált oldalak száma az oldalon. De nem tudom megmondani, hogy a WordPress-ünk még mit fog alkotni ott. Továbbra is figyelemmel kísérjük a problémát.

    Végezetül egy nagyon jó és informatív videót ajánlok a figyelmedbe ebben a témában. nagyon ajánlom megnézni.

    Minden egészséget és sikert. Találkozunk legközelebb.

    Hasznos anyagok: