Improve some regexes for embedded players

2024-11-24 13:46:53 +01:00 · 2014-01-30 04:26:46 +07:00 · 2014-01-30 04:26:46 +07:00 · c3f51436bf
commit c3f51436bf
parent 0c708f11cb
1 changed files with 4 additions and 4 deletions
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@ -254,7 +254,7 @@ def _real_extract(self, url):
        # Look for embedded (iframe) Vimeo player
        mobj = re.search(
-            r'<iframe[^>]+?src="((?:https?:)?//player.vimeo.com/video/.+?)"', webpage)
+            r'<iframe[^>]+?src="((?:https?:)?//player\.vimeo\.com/video/.+?)"', webpage)
        if mobj:
            player_url = unescapeHTML(mobj.group(1))
            surl = smuggle_url(player_url, {'Referer': url})
@ -262,7 +262,7 @@ def _real_extract(self, url):
        # Look for embedded (swf embed) Vimeo player
        mobj = re.search(
-            r'<embed[^>]+?src="(https?://(?:www\.)?vimeo.com/moogaloop.swf.+?)"', webpage)
+            r'<embed[^>]+?src="(https?://(?:www\.)?vimeo\.com/moogaloop\.swf.+?)"', webpage)
        if mobj:
            return self.url_result(mobj.group(1), 'Vimeo')
@ -332,7 +332,7 @@ def _real_extract(self, url):
            return self.url_result(mobj.group(1), 'Aparat')
        # Look for MPORA videos
-        mobj = re.search(r'<iframe .*?src="(http://mpora\.com/videos/[^"]+)"', webpage)
+        mobj = re.search(r'<iframe .*?src="(http://mpora\.(?:com|de)/videos/[^"]+)"', webpage)
        if mobj is not None:
            return self.url_result(mobj.group(1), 'Mpora')
@ -350,7 +350,7 @@ def _real_extract(self, url):
        # Look for embedded Huffington Post player
        mobj = re.search(
-            r'<iframe[^>]+?src=(["\'])(?P<url>https?://embed\.live.huffingtonpost\.com/.+?)\1', webpage)
+            r'<iframe[^>]+?src=(["\'])(?P<url>https?://embed\.live\.huffingtonpost\.com/.+?)\1', webpage)
        if mobj is not None:
            return self.url_result(mobj.group('url'), 'HuffPost')