Jump to content
GSForum - Segélyvonal

Adott oldal fájljainak elérése és letöltése


zschni87
 Share

Recommended Posts

zschni87

Üdv!

A kérdés, hogy hogyan lehet elérni (vagy kilistázni) egy adott internetes oldalon található fájlokat (böngészőben vagy valamilyen programal), és egyesével letöltögetni őket?

Például nekem szükségem lenne az axa bank 2012. évi összes "pdf" formátumú, ilyen típusú hirdetményére. Az archívumukban nem találhatóak meg (az sem, amit beillesztettem ide).

Google-ben ugyan találtam párat, mindegyik ugyanezen az elérési útvonalon volt elérhető más és más fáljnévvel, de nem tudom, hogy az összes megvan-e, ami ott található az axa.hu-n.

Köszönöm! :)

 

EDIT: vagy legalább az itt "https://www.axa.hu/static/axa_internet/sw/file/" szereplő fájlok nevét lehetne megtudni, mert akkor én azokat beírogatnám és letöltögetném ami kell :)

Link to comment
Share on other sites

payskin

Sehogy. Vagy engedélyezve van a szerveren a fájlok listázása, és akkor megjelenik a böngészőben, vagy le van tiltva. Ez esetben, úgy tűnik, elég prosztó módját választották a dolognak, mert 404-es hibát mutat, holott tudjuk, hogy létezik a könyvtár, de a lényeg, hogy nincs engedélyezve.

Link to comment
Share on other sites

zschni87

Hát ez fantasztikus... köszönöm a választ... akkor marad googli.

Link to comment
Share on other sites

[OP]Destroy-man

@Balázs: Közel sem biztos, hogy létezik az a mappa, és a letölteni kívánt fájl ilyen néven. HTTP Handler-rel simán meg lehet oldani, hogy annak látszódjon, ami, de ott nincs semmi a valóságban. Ilyen megoldást én is használtam már, asp.net alatt. Megvannak az előnyei a dolognak. Pl. ha az egyszeri felhasználó elől el szeretnél rejteni valamit a weblapról, de a regisztrált tag már láthatja a fájlt, képet. Nálam pl. teljessen más mappában vannak a képek, mint a link szerinti "mappa" (ami egyébként nem is létezik), a fájlnévről meg ne is beszéljünk. GUID alapján van mentve, hogy még véletlenül se legyen fájlnév egyezés, de megjelenítés már az adott felhasználónévvel történik.

Link to comment
Share on other sites

Temporary

Esetleg "brute force" módszerrel?

 

"2012" "hirdetmény" site:https://www.axa.hu/static/axa_internet/sw/file filetype:pdf

 

Ez most nekem 420 találat, ami talán már kezelhető mennyiség. Több / pontosabb kéréssószóval lehet szűkíteni a találatokat és az iMacros-al automatizálni a letöltésüket.

Link to comment
Share on other sites

zschni87

Hát nem igazán értem, hogy ezt hogyan kell csinálni... Valamilyen leírást tudnál linkelni?

EDIT: Na google-ben megtaláltam a te 420 találatodat, viszont makrókat nem tudok írni :S Próbálkozom, de eddig nem nyert... egyáltalán DEMO Download makró kell nekem?

Edited by KGigi
Felesleges idézet
Link to comment
Share on other sites

payskin
Destroy-man' timestamp='1358518105' post='454108']@Balázs: Közel sem biztos, hogy létezik az a mappa, és a letölteni kívánt fájl ilyen néven.

 

Nem tök mindegy, hogy az egy fizikai vagy logikai mappa-e, ha le van tiltva a tartalmának a listázása? Ja, hogy 404 miatt. Ettől még nem szépül meg ez a megoldás.

 

Hát nem igazán értem, hogy ezt hogyan kell csinálni... Valamilyen leírást tudnál linkelni?

 

Másold be a Google-ba azt a sort.

Link to comment
Share on other sites

zschni87

Másold be a Google-ba azt a sort.

Szuper erre már rájöttem :D de makróval szenvedek :)

Link to comment
Share on other sites

zschni87

Na szóval, már megírtam a makrót (record opció), hogy listázza ki, most kellene az összeset letölteni, de arra egyelőre nincs ötletem.

Link to comment
Share on other sites

Temporary

Ezzel kezdődik a kód:

VERSION BUILD=7601105 RECORDER=FX

TAB T=1

URL GOTO=ésidejönatalálatioldalcsúnyahosszúcíme

 

A továbbiakban lényegében ennek a két sornak kell ismétlődnie:

ONDOWNLOAD FOLDER=* FILE=+_{{!NOW:yyyymmdd_hhnnss}} WAIT=YES

TAG POS=50 TYPE=A ATTR=HREF:*

Minimális a HTML tudásom, de szerintem ez úgy működik, hogy a

TAG POS=50 TYPE=A ATTR=HREF:*

az oldal HTML forrásában lévő, kattintható hivatkozások (ezek így kezdődnek: href=" ) között megkeresi az 50.-et, Jelen esetben ez az első találat helye.

 

A számmal kísérletezve megállapítható, hogy a találatok minden 3. pozícióban vannak. 53,56,59,62 stb.

Az ONDOWNLOAD jelzi, hogy le kell tölteni. A következőképp pedig megadhatjuk a letöltés helyét, valamint a fájl nevét:

FOLDER=* FILE=+_{{!NOW:yyyymmdd_hhnnss}}

Jelen példában az alapértelmezett mappába (Temp) tölt le, de a * helyére lehet írni konkrét mappa útvonalat. Ha a fájlnév *, akkor marad az eredeti, de akár hozzá is lehet fűzni(+) karaktereket vagy például dátumot is {{!NOW:yyyymmdd_hhnnss}}

 

http://forum.techcor...showtopic=14332

Itt írtam már pár dolgot az iMacros-ról és készítettem egy képet, amihez hasonló lesz a Te kódod is.

 

Pár javaslat:

Érdemes a Google találati oldalon, jobbra található fogaskerékre kattintva beállítani az oldalankénti 50, esetleg 100 találat megjelenítését. Megnyitni 5 böngésző fülön a 420 találatot és minden fülön lefuttatni a makrót. Így elég a kódba az ONDOWNLOAD ... és a TAG POS=.... sorok. Lehetne rövidíteni a kódon, mert van LOOP utasítás is, de egyrészt én még nem használtam, másrészt az Excel-el könnyen lehet nagyon sok soros kódot készíteni.

---------szerk

Most látom ... :) , ha nincs a FFoxban beállítva a PDF fájlra kattintáskor rákérdezés megnyitásra vagy mentésre, akkor akár elegendőek a TAG POS=... sorok is.

 

Néha az 50-es érték nem az első találatot adja. Ezért érdemes először mindig betölteni az éppen aktuális találati oldalt az

URL GOTO=aktuálisTalálatiOldalCsúnyahosszúURLcíme

-vel az első sorban.

Link to comment
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
 Share

×
×
  • Create New...