youtube-dl/youtube_dl/extractor/canalc2.py

# coding: utf-8
from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..utils import parse_duration


class Canalc2IE(InfoExtractor):
    IE_NAME = 'canalc2.tv'
    _VALID_URL = r'https?://(?:(?:www\.)?canalc2\.tv/video/|archives-canalc2\.u-strasbg\.fr/video\.asp\?.*\bidVideo=)(?P<id>\d+)'

    _TESTS = [{
        'url': 'http://www.canalc2.tv/video/12163',
        'md5': '060158428b650f896c542dfbb3d6487f',
        'info_dict': {
            'id': '12163',
            'ext': 'flv',
            'title': 'Terrasses du Numérique',
            'duration': 122,
        },
        'params': {
            'skip_download': True,  # Requires rtmpdump
        }
    }, {
        'url': 'http://archives-canalc2.u-strasbg.fr/video.asp?idVideo=11427&voir=oui',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        video_id = self._match_id(url)

        webpage = self._download_webpage(
            'http://www.canalc2.tv/video/%s' % video_id, video_id)

        formats = []
        for _, video_url in re.findall(r'file\s*=\s*(["\'])(.+?)\1', webpage):
            if video_url.startswith('rtmp://'):
                rtmp = re.search(
                    r'^(?P<url>rtmp://[^/]+/(?P<app>.+/))(?P<play_path>mp4:.+)$', video_url)
                formats.append({
                    'url': rtmp.group('url'),
                    'format_id': 'rtmp',
                    'ext': 'flv',
                    'app': rtmp.group('app'),
                    'play_path': rtmp.group('play_path'),
                    'page_url': url,
                })
            else:
                formats.append({
                    'url': video_url,
                    'format_id': 'http',
                })
        self._sort_formats(formats)

        title = self._html_search_regex(
            r'(?s)class="[^"]*col_description[^"]*">.*?<h3>(.*?)</h3>', webpage, 'title')
        duration = parse_duration(self._search_regex(
            r'id=["\']video_duree["\'][^>]*>([^<]+)',
            webpage, 'duration', fatal=False))

        return {
            'id': video_id,
            'title': title,
            'duration': duration,
            'formats': formats,
        }
Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00			`# coding: utf-8`
[canalc2] Modernize 2014-02-22 14:27:09 +01:00			`from __future__ import unicode_literals`

Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00			`import re`

			`from .common import InfoExtractor`
[canalc2] Extract duration 2015-10-18 15:27:05 +02:00			`from ..utils import parse_duration`
Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00
[canalc2] Small improvements 2013-08-27 10:35:20 +02:00
Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00			`class Canalc2IE(InfoExtractor):`
Wrong property name 2013-09-10 12:13:22 +02:00			`IE_NAME = 'canalc2.tv'`
[canalc2] Fix extraction (Closes #8191) 2016-01-09 20:37:10 +01:00			`_VALID_URL = r'https?://(?:(?:www\.)?canalc2\.tv/video/\|archives-canalc2\.u-strasbg\.fr/video\.asp\?.*\bidVideo=)(?P<id>\d+)'`
Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00
[canalc2] Fix extraction (Closes #8191) 2016-01-09 20:37:10 +01:00			`_TESTS = [{`
[canalc2] fix info extraction 2015-09-21 16:52:36 +02:00			`'url': 'http://www.canalc2.tv/video/12163',`
[canalc2] Modernize 2014-02-22 14:27:09 +01:00			`'md5': '060158428b650f896c542dfbb3d6487f',`
			`'info_dict': {`
			`'id': '12163',`
[canalc2] Fix test 2015-10-18 15:27:22 +02:00			`'ext': 'flv',`
			`'title': 'Terrasses du Numérique',`
			`'duration': 122,`
[canalc2] fix info extraction 2015-09-21 16:52:36 +02:00			`},`
			`'params': {`
			`'skip_download': True, # Requires rtmpdump`
Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00			`}`
[canalc2] Fix extraction (Closes #8191) 2016-01-09 20:37:10 +01:00			`}, {`
			`'url': 'http://archives-canalc2.u-strasbg.fr/video.asp?idVideo=11427&voir=oui',`
			`'only_matching': True,`
			`}]`
Extractor for canalc2.tv 2013-08-22 13:54:23 +02:00
			`def _real_extract(self, url):`
[canalc2] fix info extraction 2015-09-21 16:52:36 +02:00			`video_id = self._match_id(url)`
[canalc2] Fix extraction (Closes #8191) 2016-01-09 20:37:10 +01:00
			`webpage = self._download_webpage(`
			`'http://www.canalc2.tv/video/%s' % video_id, video_id)`

			`formats = []`
			`for _, video_url in re.findall(r'file\s=\s(["\'])(.+?)\1', webpage):`
			`if video_url.startswith('rtmp://'):`
			`rtmp = re.search(`
			`r'^(?P<url>rtmp://[^/]+/(?P<app>.+/))(?P<play_path>mp4:.+)$', video_url)`
			`formats.append({`
			`'url': rtmp.group('url'),`
			`'format_id': 'rtmp',`
			`'ext': 'flv',`
			`'app': rtmp.group('app'),`
			`'play_path': rtmp.group('play_path'),`
			`'page_url': url,`
			`})`
			`else:`
			`formats.append({`
			`'url': video_url,`
			`'format_id': 'http',`
			`})`
			`self._sort_formats(formats)`
lxml is not part of the standard library. 2013-08-22 14:47:51 +02:00
[canalc2] Small improvements 2013-08-27 10:35:20 +02:00			`title = self._html_search_regex(`
[canalc2] fix info extraction 2015-09-21 16:52:36 +02:00			`r'(?s)class="[^"]col_description[^"]">.?<h3>(.?)</h3>', webpage, 'title')`
[canalc2] Extract duration 2015-10-18 15:27:05 +02:00			`duration = parse_duration(self._search_regex(`
			`r'id=["\']video_duree["\'][^>]*>([^<]+)',`
			`webpage, 'duration', fatal=False))`
[canalc2] Modernize 2014-02-22 14:27:09 +01:00
			`return {`
			`'id': video_id,`
			`'title': title,`
[canalc2] Extract duration 2015-10-18 15:27:05 +02:00			`'duration': duration,`
			`'formats': formats,`
[canalc2] Modernize 2014-02-22 14:27:09 +01:00			`}`