日常のなかのBeautifulSoup
http://news4vip.livedoor.biz/archives/51033213.html
URLCollectorで抽出してみたけどなんかうまくできなかったので、設定をみるよりBeautifulSoup使ったほうが速い気がしたのでIPythonで。
In [1]: import BeautifulSoup In [2]: import urllib In [3]: soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('http://news4vip.livedoor.biz/archives/51033213.html')) In [4]: _a = soup.findAll('a') In [5]: ls = [] In [29]: for __a in _a: ho = __a.get('href') if not ho: continue else: if 'jpg' in ho: ls.append(ho) ....: In [42]: ls[0] Out[42]: u'http://image.blog.livedoor.jp/news4vip2/imgs/6/9/6980fbcd.jpg' In [43]: ls[0].split('/')[-1] Out[43]: u'6980fbcd.jpg' In [44]: urllib.urlretrieve(ls[0], ls[0].split('/')[-1]) Out[44]: (u'6980fbcd.jpg', <httplib.HTTPMessage instance at 0x149d508>) In [45]: for i in ls: ....: urllib.urlretrieve(i, i.split('/')[-1]) ....:
こんなつまんない用途でも、ぜんぜんダメな自分にオレスゲー感を感じさせてくれるのがとても素敵。