zschni87 Posted January 17, 2013 Posted January 17, 2013 Üdv! A kérdés, hogy hogyan lehet elérni (vagy kilistázni) egy adott internetes oldalon található fájlokat (böngészőben vagy valamilyen programal), és egyesével letöltögetni őket? Például nekem szükségem lenne az axa bank 2012. évi összes "pdf" formátumú, ilyen típusú hirdetményére. Az archívumukban nem találhatóak meg (az sem, amit beillesztettem ide). Google-ben ugyan találtam párat, mindegyik ugyanezen az elérési útvonalon volt elérhető más és más fáljnévvel, de nem tudom, hogy az összes megvan-e, ami ott található az axa.hu-n. Köszönöm! EDIT: vagy legalább az itt "https://www.axa.hu/static/axa_internet/sw/file/" szereplő fájlok nevét lehetne megtudni, mert akkor én azokat beírogatnám és letöltögetném ami kell
payskin Posted January 18, 2013 Posted January 18, 2013 Sehogy. Vagy engedélyezve van a szerveren a fájlok listázása, és akkor megjelenik a böngészőben, vagy le van tiltva. Ez esetben, úgy tűnik, elég prosztó módját választották a dolognak, mert 404-es hibát mutat, holott tudjuk, hogy létezik a könyvtár, de a lényeg, hogy nincs engedélyezve.
zschni87 Posted January 18, 2013 Author Posted January 18, 2013 Hát ez fantasztikus... köszönöm a választ... akkor marad googli.
[OP]Destroy-man Posted January 18, 2013 Posted January 18, 2013 @Balázs: Közel sem biztos, hogy létezik az a mappa, és a letölteni kívánt fájl ilyen néven. HTTP Handler-rel simán meg lehet oldani, hogy annak látszódjon, ami, de ott nincs semmi a valóságban. Ilyen megoldást én is használtam már, asp.net alatt. Megvannak az előnyei a dolognak. Pl. ha az egyszeri felhasználó elől el szeretnél rejteni valamit a weblapról, de a regisztrált tag már láthatja a fájlt, képet. Nálam pl. teljessen más mappában vannak a képek, mint a link szerinti "mappa" (ami egyébként nem is létezik), a fájlnévről meg ne is beszéljünk. GUID alapján van mentve, hogy még véletlenül se legyen fájlnév egyezés, de megjelenítés már az adott felhasználónévvel történik.
Temporary Posted January 18, 2013 Posted January 18, 2013 Esetleg "brute force" módszerrel? "2012" "hirdetmény" site:https://www.axa.hu/static/axa_internet/sw/file filetype:pdf Ez most nekem 420 találat, ami talán már kezelhető mennyiség. Több / pontosabb kéréssószóval lehet szűkíteni a találatokat és az iMacros-al automatizálni a letöltésüket.
zschni87 Posted January 18, 2013 Author Posted January 18, 2013 (edited) Hát nem igazán értem, hogy ezt hogyan kell csinálni... Valamilyen leírást tudnál linkelni? EDIT: Na google-ben megtaláltam a te 420 találatodat, viszont makrókat nem tudok írni Próbálkozom, de eddig nem nyert... egyáltalán DEMO Download makró kell nekem? Edited January 18, 2013 by KGigi Felesleges idézet
payskin Posted January 18, 2013 Posted January 18, 2013 Destroy-man' timestamp='1358518105' post='454108']@Balázs: Közel sem biztos, hogy létezik az a mappa, és a letölteni kívánt fájl ilyen néven. Nem tök mindegy, hogy az egy fizikai vagy logikai mappa-e, ha le van tiltva a tartalmának a listázása? Ja, hogy 404 miatt. Ettől még nem szépül meg ez a megoldás. Hát nem igazán értem, hogy ezt hogyan kell csinálni... Valamilyen leírást tudnál linkelni? Másold be a Google-ba azt a sort.
zschni87 Posted January 18, 2013 Author Posted January 18, 2013 Másold be a Google-ba azt a sort. Szuper erre már rájöttem de makróval szenvedek
zschni87 Posted January 18, 2013 Author Posted January 18, 2013 Na szóval, már megírtam a makrót (record opció), hogy listázza ki, most kellene az összeset letölteni, de arra egyelőre nincs ötletem.
Temporary Posted January 19, 2013 Posted January 19, 2013 Ezzel kezdődik a kód: VERSION BUILD=7601105 RECORDER=FX TAB T=1 URL GOTO=ésidejönatalálatioldalcsúnyahosszúcíme A továbbiakban lényegében ennek a két sornak kell ismétlődnie: ONDOWNLOAD FOLDER=* FILE=+_{{!NOW:yyyymmdd_hhnnss}} WAIT=YES TAG POS=50 TYPE=A ATTR=HREF:* Minimális a HTML tudásom, de szerintem ez úgy működik, hogy a TAG POS=50 TYPE=A ATTR=HREF:* az oldal HTML forrásában lévő, kattintható hivatkozások (ezek így kezdődnek: href=" ) között megkeresi az 50.-et, Jelen esetben ez az első találat helye. A számmal kísérletezve megállapítható, hogy a találatok minden 3. pozícióban vannak. 53,56,59,62 stb. Az ONDOWNLOAD jelzi, hogy le kell tölteni. A következőképp pedig megadhatjuk a letöltés helyét, valamint a fájl nevét: FOLDER=* FILE=+_{{!NOW:yyyymmdd_hhnnss}} Jelen példában az alapértelmezett mappába (Temp) tölt le, de a * helyére lehet írni konkrét mappa útvonalat. Ha a fájlnév *, akkor marad az eredeti, de akár hozzá is lehet fűzni(+) karaktereket vagy például dátumot is {{!NOW:yyyymmdd_hhnnss}} http://forum.techcor...showtopic=14332 Itt írtam már pár dolgot az iMacros-ról és készítettem egy képet, amihez hasonló lesz a Te kódod is. Pár javaslat: Érdemes a Google találati oldalon, jobbra található fogaskerékre kattintva beállítani az oldalankénti 50, esetleg 100 találat megjelenítését. Megnyitni 5 böngésző fülön a 420 találatot és minden fülön lefuttatni a makrót. Így elég a kódba az ONDOWNLOAD ... és a TAG POS=.... sorok. Lehetne rövidíteni a kódon, mert van LOOP utasítás is, de egyrészt én még nem használtam, másrészt az Excel-el könnyen lehet nagyon sok soros kódot készíteni. ---------szerk Most látom ... , ha nincs a FFoxban beállítva a PDF fájlra kattintáskor rákérdezés megnyitásra vagy mentésre, akkor akár elegendőek a TAG POS=... sorok is. Néha az 50-es érték nem az első találatot adja. Ezért érdemes először mindig betölteni az éppen aktuális találati oldalt az URL GOTO=aktuálisTalálatiOldalCsúnyahosszúURLcíme -vel az első sorban.
Recommended Posts
Create an account or sign in to comment
You need to be a member in order to leave a comment
Create an account
Sign up for a new account in our community. It's easy!
Register a new accountSign in
Already have an account? Sign in here.
Sign In Now