Scraper / spammer software

Za naslednje taske iščem primerno orodje:
Noben od taskov ni namenjen seo optimizaciji.

  • scraping contenta iz strani
  • republishing scrapanega contenta na cmsje
  • screjpanje kontakt informacij iz domen , ki ustrezajo določenim merilom (traffic preko similarweb ali alexi)
  • monitoring forumov za določene keyworde (ko najde match sporoči url, kjer se ta tema nahaja)
  • monitoring novičarskih portalov za določene keyword (ko najde match sporoči url, kjer se ta tema nahaja)
  • monitoring določenih strani, in prikaz spremembe / novosti na strani
  • postanje oglasov na oglasnike
  • postanje komentarjev na določene spletne portale (niso exploitable, se pravi ne normalno seo postanje)

Gledal sem:
ubot, xrumer, gsa, scrapebox

Uporablja kdo katero od teh orodij oz. priporoča katerega za katero od zgornjih specifičnih taskov.

13 odgovorov

Imam licenco za prva dva.

Najprej bi rad dodal, da ima ubot centralizirano bazo komand za znane cmsje / znane strani, tako da imas dosti manj dela s tem.

Zagotovo je ubot najblizje pokritju vsem stvarem, ki si jih napisal, imas pa majhen learning curve. Enako pri zenno posterju ali imacros. Ampak ce ti je kolikor toliko jasen "flow" programskega jezika, potem zelo hitro zapopades.

Za alerte je pa verjetno boljsi kak servis ala Google Alerts in podobni.

1

black:
Zakaj bi leta 2016 želel compilati exe? In zakaj za vraga bi za tako zadevščino uporabljal toole kot sta ubot in imacros, če obstajajo bolj zmogljiva in konfigurabilna orodja za manjšo ceno ali celo zastonj?

Compiler je samo v developer verziji in je namenjen temu, da svoj projekt delis/prodajas. S tem koncni uporabnik ne potrebuje ubot licence. Ce tega ne zelis, ne generiras exe ampak direktno zaganjas kodo.

Primerljivih orodij (node/codebased programski jezik, kompletna kontrola nad chromium, multithreading, regex, os integracija, razsirljivost preko pluginov, ) zastonj ni.

Če hočeš ubrat res zastonjsko pot (katera pa kot kompromis zahteva ogromno dodatnega dela), potem je opcija tudi, da s poljubnim programskih jezikom napišeš skripto za upravljanje browserja (Selenium je en tak library, ki je na volju v pythonu, rubyju, c, javascriptu...)

Iz izkušenj pa povem, da se je s tem potrebno kar precej igračkat, saj včasih integrirane metode za zaznavo elementov na strani (detect by anchor name, css name, unique selector) včasih ne delajo kot bi morale, in je včasih potrebno poskusiti več načinov, da najdeš metodo, ki ti ga zazna. Unique selector ni vedno rešitev.

Druga stvar, ki se je pri tem potrebno zavedati je, da boš s custom rešitvami kdaj pa kdaj svoje skripte moral posodabljati, npr. ko platforma, ki jo targetiraš, spremeni svoj CMS, ridizanja page... ampak ta ista konsideracija pride v poštev tudi pri Ubotu in podobnih orodjih.

Bottom line: tako Ubot kot custom skripta zahtevata ogromno custom dela in potencialno vzdrževanje. Bi si pa upal stavit, da te bo Ubot definitivno do cilja pripeljal hitreje. Tako da je čisto odvisno od obsežnosti projekta. Če imaš za avtomatizirat, kajazvem, max 5 pagov, potem idi s custom skripto, ker tudi dela ne bo preveč. Če je tega na 50, 100... potem Ubot.