HTML

ab26ffe0 · namanahuja · 990412c6 · ab26ffe0
Commit ab26ffe0 authored 5 years ago by namanahuja
--- a/ExampleNotebooks/HTML_Similarity.ipynb
+++ b/ExampleNotebooks/HTML_Similarity.ipynb
+{
+  "nbformat": 4,
+  "nbformat_minor": 0,
+  "metadata": {
+    "colab": {
+      "name": "HTML_Similarity.ipynb",
+      "provenance": []
+    },
+    "kernelspec": {
+      "name": "python3",
+      "display_name": "Python 3"
+    }
+  },
+  "cells": [
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "2zXzAV9mRb-L",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "# -*- coding: utf-8 -*-\n",
+        "\n",
+        "import pandas as pd\n",
+        "from html_similarity import style_similarity, structural_similarity, similarity\n",
+        "from bs4 import BeautifulSoup, Doctype\n",
+        "import imgkit"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "XgqSvWUYRwui",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "file = pd.read_parquet('data.parquet', engine='pyarrow')\n",
+        "numRows = len(file.index)\n",
+        "\n",
+        "validPayloads = []\n",
+        "timestamps = []\n",
+        "for i in range(numRows):\n",
+        "    payload = file.iloc[i].payload\n",
+        "    mime = file.iloc[i].mime\n",
+        "    timestamp = file.iloc[i].timestamp\n",
+        "\n",
+        "    soup = (BeautifulSoup(payload, \"html.parser\"))\n",
+        "\n",
+        "    # check for only vt.edu\n",
+        "\n",
+        "    if (mime == 'text/html' and len(payload) > 1):\n",
+        "        validPayloads.append(payload)\n",
+        "        timestamps.append(timestamp)\n",
+        "\n"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    },
+    {
+      "cell_type": "code",
+      "metadata": {
+        "id": "Q9UNsU7gRt0Y",
+        "colab_type": "code",
+        "colab": {}
+      },
+      "source": [
+        "for i in range(len(validPayloads)):\n",
+        "    outFileName = 'captures/' + str(timestamps[i]) + '.jpg'\n",
+        "\n",
+        "    #imgkit.from_string(validPayloads[i], outFileName)\n",
+        "\n",
+        "scores = [[-1 for i in range(len(validPayloads))] for j in range(len(validPayloads))]\n",
+        "for i in range(len(validPayloads)):\n",
+        "    payload1 = validPayloads[i]\n",
+        "\n",
+        "    for j in range(len(validPayloads)):\n",
+        "\n",
+        "        payload2 = validPayloads[j]\n",
+        "\n",
+        "        try:\n",
+        "            # print(i,j)\n",
+        "            score = str(similarity(payload1, payload2))\n",
+        "            scores[i][j] = score\n",
+        "            # print(score)\n",
+        "\n",
+        "        except:\n",
+        "            print(i, j)"
+      ],
+      "execution_count": 0,
+      "outputs": []
+    }
+  ]
+}
\ No newline at end of file
+%% Cell type:code id: tags:
+
+``` 
+# -*- coding: utf-8 -*-
+
+import pandas as pd
+from html_similarity import style_similarity, structural_similarity, similarity
+from bs4 import BeautifulSoup, Doctype
+import imgkit
+```
+
+%% Cell type:code id: tags:
+
+``` 
+file = pd.read_parquet('data.parquet', engine='pyarrow')
+numRows = len(file.index)
+
+validPayloads = []
+timestamps = []
+for i in range(numRows):
+    payload = file.iloc[i].payload
+    mime = file.iloc[i].mime
+    timestamp = file.iloc[i].timestamp
+
+    soup = (BeautifulSoup(payload, "html.parser"))
+
+    # check for only vt.edu
+
+    if (mime == 'text/html' and len(payload) > 1):
+        validPayloads.append(payload)
+        timestamps.append(timestamp)
+
+```
+
+%% Cell type:code id: tags:
+
+``` 
+for i in range(len(validPayloads)):
+    outFileName = 'captures/' + str(timestamps[i]) + '.jpg'
+
+    #imgkit.from_string(validPayloads[i], outFileName)
+
+scores = [[-1 for i in range(len(validPayloads))] for j in range(len(validPayloads))]
+for i in range(len(validPayloads)):
+    payload1 = validPayloads[i]
+
+    for j in range(len(validPayloads)):
+
+        payload2 = validPayloads[j]
+
+        try:
+            # print(i,j)
+            score = str(similarity(payload1, payload2))
+            scores[i][j] = score
+            # print(score)
+
+        except:
+            print(i, j)
+```