youtube-dl/youtube_dl/extractor/drbonanza.py

from __future__ import unicode_literals

import re

from .common import InfoExtractor
from ..utils import (
    js_to_json,
    parse_duration,
    unescapeHTML,
)


class DRBonanzaIE(InfoExtractor):
    _VALID_URL = r'https?://(?:www\.)?dr\.dk/bonanza/[^/]+/\d+/[^/]+/(?P<id>\d+)/(?P<display_id>[^/?#&]+)'
    _TEST = {
        'url': 'http://www.dr.dk/bonanza/serie/154/matador/40312/matador---0824-komme-fremmede-',
        'info_dict': {
            'id': '40312',
            'display_id': 'matador---0824-komme-fremmede-',
            'ext': 'mp4',
            'title': 'MATADOR - 08:24. "Komme fremmede".',
            'description': 'md5:77b4c1ac4d4c1b9d610ab4395212ff84',
            'thumbnail': r're:^https?://.*\.(?:gif|jpg)$',
            'duration': 4613,
        },
    }

    def _real_extract(self, url):
        mobj = re.match(self._VALID_URL, url)
        video_id, display_id = mobj.group('id', 'display_id')

        webpage = self._download_webpage(url, display_id)

        info = self._parse_html5_media_entries(
            url, webpage, display_id, m3u8_id='hls',
            m3u8_entry_protocol='m3u8_native')[0]
        self._sort_formats(info['formats'])

        asset = self._parse_json(
            self._search_regex(
                r'(?s)currentAsset\s*=\s*({.+?})\s*</script', webpage, 'asset'),
            display_id, transform_source=js_to_json)

        title = unescapeHTML(asset['AssetTitle']).strip()

        def extract(field):
            return self._search_regex(
                r'<div[^>]+>\s*<p>%s:<p>\s*</div>\s*<div[^>]+>\s*<p>([^<]+)</p>' % field,
                webpage, field, default=None)

        info.update({
            'id': asset.get('AssetId') or video_id,
            'display_id': display_id,
            'title': title,
            'description': extract('Programinfo'),
            'duration': parse_duration(extract('Tid')),
            'thumbnail': asset.get('AssetImageUrl'),
        })
        return info
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00			`from __future__ import unicode_literals`

			`import re`

[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00			`from .common import InfoExtractor`
			`from ..utils import (`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`js_to_json,`
			`parse_duration,`
			`unescapeHTML,`
[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00			`)`


[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00			`class DRBonanzaIE(InfoExtractor):`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`_VALID_URL = r'https?://(?:www\.)?dr\.dk/bonanza/[^/]+/\d+/[^/]+/(?P<id>\d+)/(?P<display_id>[^/?#&]+)'`
			`_TEST = {`
			`'url': 'http://www.dr.dk/bonanza/serie/154/matador/40312/matador---0824-komme-fremmede-',`
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00			`'info_dict': {`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`'id': '40312',`
			`'display_id': 'matador---0824-komme-fremmede-',`
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00			`'ext': 'mp4',`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`'title': 'MATADOR - 08:24. "Komme fremmede".',`
			`'description': 'md5:77b4c1ac4d4c1b9d610ab4395212ff84',`
Fix "invalid escape sequences" error on Python 3.6 2017-01-02 13:08:07 +01:00			`'thumbnail': r're:^https?://.*\.(?:gif\|jpg)$',`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`'duration': 4613,`
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00			`},`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`}`
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00
			`def _real_extract(self, url):`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`mobj = re.match(self._VALID_URL, url)`
			`video_id, display_id = mobj.group('id', 'display_id')`
[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`webpage = self._download_webpage(url, display_id)`
[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`info = self._parse_html5_media_entries(`
			`url, webpage, display_id, m3u8_id='hls',`
			`m3u8_entry_protocol='m3u8_native')[0]`
			`self._sort_formats(info['formats'])`
[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`asset = self._parse_json(`
			`self._search_regex(`
			`r'(?s)currentAsset\s=\s({.+?})\s*</script', webpage, 'asset'),`
			`display_id, transform_source=js_to_json)`
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`title = unescapeHTML(asset['AssetTitle']).strip()`
[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`def extract(field):`
			`return self._search_regex(`
			`r'<div[^>]+>\s<p>%s:<p>\s</div>\s<div[^>]+>\s<p>([^<]+)</p>' % field,`
			`webpage, field, default=None)`
[drbonanza] Simplify and fix duration (#4687) 2015-01-11 23:40:27 +01:00
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`info.update({`
			`'id': asset.get('AssetId') or video_id,`
[DRBonanza] Add new extractor (fixing #4581) 2015-01-11 23:23:10 +01:00			`'display_id': display_id,`
			`'title': title,`
[drbonanza] Fix extraction (closes #13231) 2017-05-31 18:56:32 +02:00			`'description': extract('Programinfo'),`
			`'duration': parse_duration(extract('Tid')),`
			`'thumbnail': asset.get('AssetImageUrl'),`
			`})`
			`return info`