webcompat · miketaylr · Mar 9, 2016 · Mar 5, 2016 · Mar 7, 2016 · Mar 7, 2016
diff --git a/tests/test_form.py b/tests/test_form.py
@@ -0,0 +1,38 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+
+'''Tests for form validation.'''
+
+import unittest
+from webcompat import form
+
+
+class TestForm(unittest.TestCase):
+
+    def test_normalize_url(self):
+
+        r = form.normalize_url('example.com')
+        self.assertEqual(r, 'http://example.com')
+
+        r = form.normalize_url('http:/example.com')
+        self.assertEqual(r, 'http://example.com')
+
+        r = form.normalize_url('https:/example.com')
+        self.assertEqual(r, 'https://example.com')
+
+        r = form.normalize_url('http:example.com')
+        self.assertEqual(r, 'http://example.com')
+
+        r = form.normalize_url('https:example.com')
+        self.assertEqual(r, 'https://example.com')
+
+        r = form.normalize_url('//example.com')
+        self.assertEqual(r, 'http://example.com')
+
+    def test_domain_name(self):
+
+        r = form.domain_name("http://example.com")
+        self.assertEqual(r, "example.com")
+
+        r = form.domain_name("https://example.com")
+        self.assertEqual(r, "example.com")
diff --git a/webcompat/form.py b/webcompat/form.py
@@ -25,6 +25,7 @@
 AUTH_REPORT = 'github-auth-report'
 PROXY_REPORT = 'github-proxy-report'
 SCHEMES = ('http://', 'https://')
+BAD_SCHEMES = ('http:/', 'https:/', 'http:', 'https:')
 
 problem_choices = [
     (u'detection_bug', u'Desktop site instead of mobile site'),
@@ -118,9 +119,24 @@ def get_labels(browser_name):
 def normalize_url(url):
     '''normalize URL for consistency.'''
     url = url.strip()
-    if not url.startswith(SCHEMES):
+    parsed = urlparse.urlparse(url)
+
+    if url.startswith(BAD_SCHEMES):
+        # if url starts with a bad scheme, parsed.netloc will be empty,
+        # so we use parsed.path instead
+        path = parsed.path.lstrip('/')
+        url = '%s://%s' % (parsed.scheme, path)
+        if parsed.query:
+            url += '?' + parsed.query
+        if parsed.fragment:
+            url += '#' + parsed.fragment
+    elif not parsed.scheme:
         # We assume that http is missing not https
-        url = 'http://%s' % (url)
+        if url.startswith("//"):
+            url = "http://%s" % (url[2:])
+        else:
+            url = 'http://%s' % (url)
+
     return url