Might use wget to capture the data fromm CC instead

4c932b38 · Cole Walton · 894ad47a · 4c932b38
Commit 4c932b38 authored 1 year ago by Cole Walton
--- a/webscraping.py
+++ b/webscraping.py
+import requests
+import json
+def main():
+    resp = requests.get('http://index.commoncrawl.org/CC-MAIN-2023-23-index?url=http%3A%2F%2Fcommoncrawl.org%2Ffaqs%2F&output=json')
+    pages = [json.loads(x) for x in resp.content.strip().split('\n')]
+    for page in pages:
+        print(page)
+if __name__ == "__main__":
+    main()
\ No newline at end of file