Google mining
1236101054
Mi is a Google mining? A Google nem pillanatnyi képet ad az interneten megosztott dokumentumokról, hanem saját archívumából rántja elő a keresés eredményét. A legnagyobb keresőmotor pókjai járják a hálót és igyekeznek mindent indexelni. Mondják, ami nincs a Google indexben (SEO guruk szerint az első oldalon) az nem létezik. Ez önbeteljesítő jóslat, mert amire nem találnak rá a felhasználók, arra nem érdemes karaktert pazarolni. A Googlebot és a többi hasonló kereső bot néha olyat is elindexel, amit nem feltétlen szeretett volna a tulajdonosa. Ez azonban emberi hiba, ugyanis bárki számára hozzáférhető, védtelen helyen tárolták az információt és a jó indulatú botokat sem tiltották ki. Tipikus esete a könyvtár védelem és index nélküli találat.
Egy kis lvl2 google-fu:
"index of" lol
Ezzel a könyvtár nélküli tartalmakra keresünk, az Apache kiszolgálók "index of" kifejezését használva. Az openpirate működési elvén így zenét is kereshetünk, nem szükséges hozzá semmilyen fájlcserélő program. Az épp aktuális piratebay torrent per kapcsán is bemutatta a védelem, hogy a google jobb az illegálisan megosztott tartalmak keresésére mint egy torrent tracker. Ilyen esetekben nem árt kicsit jobban beparaméterezni a keresést, mert könnyen honeypot oldalakra futhatunk. Ahogy a neve is mutatja, ezek kamu oldalak, ami gyakori kereső kifejezéseket használva csalja lépre a látogatóit (pl.: "index of" mp3 keresés első találat).
Érdemes megadni a keresett fájl típusát:
filetype:pdf
A könyvtár szerkezetnél ezekre érdemes keresni:
1) "index of"
2) "last modified"
3) "parent of"
Az idézőj használatával nem szavanként, hanem konkrét kifejezésként kereshetünk.
Zene keresésnél a következőket vegyük figyelembe:
1) Az album neve idézőjelekben
2) Az előadó neve idézőjelekben
3) A zene stílusa
Próbálj meg a tárhely tulajdonosának fejével gondolkodni, vagy akár indulj ki magadból. Kis kreativitással bármit megtalálhatsz.
Limitáld be a keresést.
1) -html -htm -php -asp -txt -pls
inurl: vagy site: segítségével konrét oldalakon kereshetünk.
(-filetype:txt) A keresés végére illesztve a nem kívánatos fájltípusok kiszűrhetőek.
(-playlist) Érdemes kivétel, kizárhat hamis találatokat.
Pár példa:
site:http://houruck.hu "index of" rockman
inurl:nes "index of" -html
Egy klasszikus példa exer találata. Ex-exerné e-mail címére keresve az egyetlen találat egy plüss macis oldalt. Külön bejegyzésért kiált az oldal design (és persze a designer cég saját oldala is, később még vissza is térek rá). Ha sikerült kiheverni a vizuális abuzációt, akkor rá is térek a lényegre: lekerdezzipp.php
Igen, ez egy rendszergazda számára elhelyezett php script, ami lekérdezi az adatbázisba regisztráltak adatait és kilistázza. Ezt a mulasztást nagyobb halak is gyakran elkövetik, gondoljunk csak a felsőoktatási intézmények sqldump-jára, vagy kényes kormányzati oldalakra és NAGY kereskedelmi cégek adatázisaira.
KILL BILL #2
Ígértem, hogy írok arról, hogy szembesültem a killbill.hu hibájával.
"Kösz az értesítést, szóltam a rendszergazdáknak, remélem, még az ünnepek előtt tesznek is valamit az oldal érdekében."
A hibát azóta javították.