ytdl/youtube_dl/extractor/howcast.py

import re

from .common import InfoExtractor


class HowcastIE(InfoExtractor):
    _VALID_URL = r'(?:https?://)?(?:www\.)?howcast\.com/videos/(?P<id>\d+)'

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)

        video_id = mobj.group('id')
        webpage_url = 'http://www.howcast.com/videos/' + video_id
        webpage = self._download_webpage(webpage_url, video_id)

        self.report_extraction(video_id)

        video_url = self._search_regex(r'\'?file\'?: "(http://mobile-media\.howcast\.com/[0-9]+\.mp4)',
            webpage, u'video URL')

        video_title = self._html_search_regex(r'<meta content=(?:"([^"]+)"|\'([^\']+)\') property=\'og:title\'',
            webpage, u'title')

        video_description = self._html_search_regex(r'<meta content=(?:"([^"]+)"|\'([^\']+)\') name=\'description\'',
            webpage, u'description', fatal=False)

        thumbnail = self._html_search_regex(r'<meta content=\'(.+?)\' property=\'og:image\'',
            webpage, u'thumbnail', fatal=False)

        return [{
            'id':       video_id,
            'url':      video_url,
            'ext':      'mp4',
            'title':    video_title,
            'description': video_description,
            'thumbnail': thumbnail,
        }]
[howcast] Move into own file 2013-06-23 22:30:16 +02:00			`import re`

			`from .common import InfoExtractor`


			`class HowcastIE(InfoExtractor):`
			`_VALID_URL = r'(?:https?://)?(?:www\.)?howcast\.com/videos/(?P<id>\d+)'`

			`def _real_extract(self, url):`
			`mobj = re.match(self._VALID_URL, url)`

			`video_id = mobj.group('id')`
			`webpage_url = 'http://www.howcast.com/videos/' + video_id`
			`webpage = self._download_webpage(webpage_url, video_id)`

			`self.report_extraction(video_id)`

			`video_url = self._search_regex(r'\'?file\'?: "(http://mobile-media\.howcast\.com/[0-9]+\.mp4)',`
			`webpage, u'video URL')`

			`video_title = self._html_search_regex(r'<meta content=(?:"([^"]+)"\|\'([^\']+)\') property=\'og:title\'',`
			`webpage, u'title')`

			`video_description = self._html_search_regex(r'<meta content=(?:"([^"]+)"\|\'([^\']+)\') name=\'description\'',`
			`webpage, u'description', fatal=False)`

			`thumbnail = self._html_search_regex(r'<meta content=\'(.+?)\' property=\'og:image\'',`
			`webpage, u'thumbnail', fatal=False)`

			`return [{`
			`'id': video_id,`
			`'url': video_url,`
			`'ext': 'mp4',`
			`'title': video_title,`
			`'description': video_description,`
			`'thumbnail': thumbnail,`
			`}]`