日常のなかのBeautifulSoup

http://news4vip.livedoor.biz/archives/51033213.html
URLCollectorで抽出してみたけどなんかうまくできなかったので、設定をみるよりBeautifulSoup使ったほうが速い気がしたのでIPythonで。

In [1]: import BeautifulSoup

In [2]: import urllib

In [3]: soup = BeautifulSoup.BeautifulSoup(urllib.urlopen('http://news4vip.livedoor.biz/archives/51033213.html'))

In [4]: _a = soup.findAll('a')

In [5]: ls = []

In [29]: for __a in _a:
    ho = __a.get('href')

    if not ho:
        continue
    else:
        if 'jpg' in ho:
            ls.append(ho)
   ....: 

In [42]: ls[0]
Out[42]: u'http://image.blog.livedoor.jp/news4vip2/imgs/6/9/6980fbcd.jpg'

In [43]: ls[0].split('/')[-1]
Out[43]: u'6980fbcd.jpg'

In [44]: urllib.urlretrieve(ls[0], ls[0].split('/')[-1])
Out[44]: (u'6980fbcd.jpg', <httplib.HTTPMessage instance at 0x149d508>)

In [45]: for i in ls:
   ....:      urllib.urlretrieve(i, i.split('/')[-1])
   ....: 

こんなつまんない用途でも、ぜんぜんダメな自分にオレスゲー感を感じさせてくれるのがとても素敵。