{ "cells": [ { "cell_type": "code", "execution_count": 10, "metadata": { "collapsed": false }, "outputs": [], "source": [ "import numpy as np, pandas as pd\n", "#from pygeocoder import Geocoder\n", "import time\n", "import json\n", "import matplotlib.pyplot as plt\n", "%matplotlib inline\n", "\n", "import warnings\n", "warnings.filterwarnings(\"ignore\")" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Do the following for db and db2 location, they are two different samples." ] }, { "cell_type": "code", "execution_count": 11, "metadata": { "collapsed": false }, "outputs": [], "source": [ "#define database path\n", "path='http://blog.csaladen.es/szekelyfold%20lakossag%202/db/'\n", "\n", "#use if files downloaded to local path\n", "path='E:/Skydrive/GitHub/Blog/szekelyfold lakossag 2/db2/'" ] }, { "cell_type": "code", "execution_count": 12, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "\"'\\\\xc3\\\\xae'\"" ] }, "execution_count": 12, "metadata": {}, "output_type": "execute_result" } ], "source": [ "repr('î')" ] }, { "cell_type": "code", "execution_count": 13, "metadata": { "collapsed": false }, "outputs": [], "source": [ "#define locationrenamer \n", "\n", "def namer(s):\n", " \n", " if ',' in s: s=s[:s.find(',')]\n", " \n", " s=s.replace('\\xc3\\xa8','\\xc3\\xa9')\n", " s=s.replace('\\xc3\\xa0','\\xc3\\xa1')\n", " s=s.replace('\\xc3\\xb2','\\xc3\\xb3')\n", " s=s.replace('\\xc3\\xb9','\\xc3\\xba')\n", " s=s.replace('Mez\\xc3\\xb6','Mez\\xc5\\x91')\n", " s=s.replace('mez\\xc3\\xb6','mez\\xc5\\x91')\n", " s=s.replace('Erd\\xc3\\xb6','Erd\\xc5\\x91')\n", " s=s.replace('fal\\xc3\\xba','falu')\n", " s=s.replace('f\\xc3\\xbcrd\\xc3\\xb6','f\\xc3\\xbcrd\\xc3\\x91')\n", " \n", " if s=='Csikszereda': return 'Csíkszereda'\n", " elif s=='Miercurea-Ciuc': return 'Csíkszereda'\n", " elif s=='Miercurea Ciuc': return 'Csíkszereda'\n", " elif s=='Csikr\\xc3\\xa1kos': return 'Csíkrákos'\n", " elif s=='Csikszentimre': return 'Csíkszentimre'\n", " elif s=='Chilieni': return 'Kilyénfalva'\n", " elif s=='Tusnad Sat': return 'Tusnád'\n", " elif s=='Reci': return 'Réty'\n", " elif s=='Intorsura Buzaului': return 'Bodzaforduló'\n", " elif s=='Ocna De Sus': return 'Felsősófalva'\n", " elif s=='Sancraiu De Mures': return 'Marosszentkirály'\n", " elif s=='Breaza': return 'Beresztelke'\n", " elif s=='Corund': return 'Korond'\n", " elif s=='Intorsura Buzaului': return 'Bodzaforduló'\n", " elif s=='Intorsura Buzauli': return 'Bodzaforduló'\n", " elif s=='Bicfalau': return 'Bikfalva'\n", " elif s=='Cernatul-De-Jos': return 'Alsócsernáton'\n", " elif s=='Ojdula': return 'Ozsdola'\n", " elif s=='Bretcu': return 'Bereck'\n", " elif s=='Zabala': return 'Zabola'\n", " elif s=='Micfalau': return 'Mikóújfalu'\n", " elif s=='Csikszentkir\\xc3\\xa0ly': return 'Csíkszentkirály'\n", " elif s=='Csikszentmikl\\xc3\\xb3s': return 'Csíkszentmiklós'\n", " elif s=='Belgrade': return 'Belgrád'\n", " elif s=='S\\xc3\\xaendominic': return 'Csíkszentdomokos'\n", " elif s=='Budapest': return 'Budapest'\n", " elif s=='Cluj-Napoca': return 'Kolozsvár'\n", " elif s=='Timi\\xc8\\x99oara': return 'Temesvár'\n", " elif s=='Targu-Mures': return 'Marosvásárhely'\n", " elif s=='Csik Mindszent': return 'Csíkmindszent'\n", " elif s=='Abu Dhabi': return 'Abu Dhabi'\n", " elif s=='Tusnad F\\xc3\\xbcrd\\xc3\\xb6': return 'Tusnádfürdő'\n", " elif s=='Vienna': return 'Bécs'\n", " elif s=='Sepsiszentgyorgy': return 'Sepsiszentgyörgy'\n", " elif s=='Sf\\xc3\\xa2ntu-Gheorghe': return 'Sepsiszentgyörgy'\n", " elif s=='Paris': return 'Párizs'\n", " elif s=='Nagy-V\\xc3\\xa1rad': return 'Nagyvárad'\n", " elif s=='Nitra': return 'Nyitra'\n", " elif s=='Krak\\xc3\\xb3w': return 'Krakkó'\n", " elif s=='Tusnad': return 'Tusnád'\n", " elif s=='Zetea': return 'Zetelaka'\n", " elif s=='Siculeni': return 'Madéfalva'\n", " elif s=='Sz\\xc3\\xa9pviz': return 'Csíkszépvíz'\n", " elif s=='Sibiu': return 'Nagyszeben'\n", " elif s=='Bucharest': return 'Bukarest'\n", " elif s=='Oradea': return 'Nagyvárad'\n", " elif s=='Hodmezovasarhely': return 'Hódmezővásárhely'\n", " elif s=='Brussels': return 'Brüsszel'\n", " elif s=='Cologne': return 'Köln'\n", " elif s=='Dealu': return 'Oroszhegy'\n", " elif s=='Delne': return 'Csíkdelne'\n", " elif s=='Sz\\xc3\\xa9kelykeresztur': return 'Székelykeresztúr'\n", " elif s=='Bulgareni': return 'Bogárfalva'\n", " elif s=='Sighetu Marmatiei': return 'Máramarossziget'\n", " elif s=='Odorheiu Secuiesc': return 'Székelyudvarhely'\n", " elif s=='Athens': return 'Athén'\n", " elif s=='Brasov': return 'Brassó'\n", " elif s=='Beta': return 'Béta'\n", " elif s=='Martinis': return 'Homoródszentmárton'\n", " elif s=='Copenhagen': return 'Koppenhága'\n", " elif s=='Buda': return 'Budapest'\n", " elif s=='Neumarkt Am Mieresch': return 'Marosvásárhely'\n", " elif s=='Vlahita': return 'Szentegyháza'\n", " elif s=='Szentegyházasfalu': return 'Szentegyháza'\n", " elif s=='Fenyokut': return 'Fenyőkút'\n", " elif s=='Felsoboldogfalva': return 'Felsőboldogfalva'\n", " elif s=='Baile Tusnad': return 'Tusnádfürdő'\n", " elif s=='Szegedin': return 'Szeged'\n", " elif s=='Küküllokeményfalva': return 'Küküllőkeményfalva'\n", " elif s=='Oraseni': return 'Városfalva'\n", " elif s=='Nyikomalomfalva': return 'Nyikómalomfalva'\n", " elif s=='Szatmár-Németi': return 'Szatmárnémeti'\n", " elif s=='Lövete': return 'Lövéte'\n", " elif s=='Kézdi Almas': return 'Kézdialmás'\n", " elif s=='Cristuru Secuiesc': return 'Székelykeresztúr'\n", " elif s=='Sacueni': return 'Székelyhíd'\n", " elif s=='Szekelyszentmihaly': return 'Székelyszentmihály'\n", " elif s=='Debreczen': return 'Debrecen'\n", " elif s=='Liban': return 'Libán'\n", " elif s=='Leipzig': return 'Lipcse'\n", " elif s=='Pasareni': return 'Backamadaras'\n", " elif s=='Munich': return 'München'\n", " elif s=='Nuremberg': return 'Nüremberg'\n", " elif s=='Amsterdam': return 'Amszterdam'\n", " elif s=='Csik-Kozmas': return 'Csíkkozmás'\n", " elif s=='Csiktaploca': return 'Csíktaploca'\n", " elif s=='Csikszentsimon': return 'Csíkszentsimon'\n", " elif s=='Csikszentmárton': return 'Csíkszentmárton'\n", " elif s=='Vacaresti': return 'Vacsárcsi'\n", " elif s=='Milan': return 'Milánó'\n", " elif s=='Csikszentgyörgy': return 'Csíkszentgyörgy'\n", " elif s=='Nadejdea': return 'Ajnád'\n", " elif s=='Csikszenttamás': return 'Csíkszenttamás'\n", " elif s=='Gyor': return 'Győr'\n", " elif s=='London Borough of Camden': return 'London'\n", " elif s=='Csikszentdomokos': return 'Csíkszentdomokos'\n", " elif s=='Csikszentkirály': return 'Csíkszentkirály'\n", " elif s=='Madaras': return 'Csíkmadaras'\n", " elif s=='Karcfalva': return 'Csíkkarcfalva'\n", " elif s=='Ciceu': return 'Csíkcsicsó'\n", " elif s=='Izvoare': return 'Ivó'\n", " elif s=='Gyomro': return 'Gyömrő'\n", " elif s=='Sf\\xc3\\xaentu Gheorghe': return 'Sepsiszentgyörgy'\n", " elif s=='Baraolt': return 'Barót'\n", " elif s=='K\\xc3\\xb8benhavn': return 'Koppenhága'\n", " elif s=='Mik\\xc3\\xb4ujfal\\xc3\\xba': return 'Mikóújfalu'\n", " elif s=='Zagon': return 'Zágon'\n", " elif s=='Sarmasul': return 'Salamás'\n", " elif s=='Zalau': return 'Zilah'\n", " elif s=='Simleu Silvaniei': return 'Sepsiszentgyörgy'\n", " elif s=='Zalan': return 'Zalán'\n", " elif s=='Oradea-Mare': return 'Nagyvárad'\n", " elif s=='Ormenis': return 'Ürmös'\n", " elif s=='Bicsad': return 'Sepsibükszád'\n", " elif s=='Ozun': return 'Uzon'\n", " elif s=='Arkos': return 'Árkos'\n", " elif s=='Gheorgheni': return 'Gyergyószentmiklós'\n", " elif s=='S\\xc3\\xa2npetrul': return 'Barcaszentpéter'\n", " elif s=='Geneva': return 'Genf'\n", " elif s=='Breda': return 'Bréda'\n", " elif s=='Zoltan': return 'Zoltán'\n", " elif s=='Leliceni': return 'Csíkszentlélek'\n", " elif s=='Suatu': return 'Magyarszovát'\n", " elif s=='Pest': return 'Budapest'\n", " elif s=='Bacau': return 'Bákó'\n", " elif s=='Varfalau': return 'Várfalva'\n", " elif s=='Biksz\\xc3\\xa1d': return 'Sepsibükszád'\n", " elif s=='Satu Mare': return 'Szatmárnémeti'\n", " elif s=='Köröspatak': return 'Kőröspatak'\n", " elif s=='Prague': return 'Prága'\n", " elif s=='Turin': return 'Torinó'\n", " elif s=='Poiana Largului': return 'Hosszúmező'\n", " elif s=='Beius': return 'Belényes'\n", " elif s=='Csics\\xc3\\xb3': return 'Csíkcsicsó'\n", " elif s=='Rome': return 'Róma'\n", " elif s=='Sovata Bai': return 'Szováta'\n", " elif s=='veroce': return 'Verőce'\n", " elif s=='Nagy-Sz\\xc3\\xa9ben': return 'Nagyszeben'\n", " elif s=='Iasi': return 'Jászvásár'\n", " elif s=='Rupea': return 'Kőhalom'\n", " elif s=='Ludu\\xc8\\x99': return 'Marosludas'\n", " elif s=='Paingeni': return 'Póka'\n", " elif s=='Havadto': return 'Havadtő'\n", " elif s=='Reghinul': return 'Szászrégen'\n", " elif s=='S\\xc3\\xa2ncraiul-De-Mures': return 'Marosszentkirály'\n", " elif s=='Valureni': return 'Székelykakasd'\n", " elif s=='Ditro': return 'Gyergyóditró'\n", " elif s=='Sz\\xc3\\xa1rhegy': return 'Gyergyószárhegy'\n", " elif s=='Florence': return 'Firenze'\n", " elif s=='Bogata': return 'Marosbogát'\n", " elif s=='Alunis': return 'Magyaró'\n", " elif s=='Selanik (thessaloniki) Greece': return 'Thessaloniki'\n", " elif s=='Lunca Bradului': return 'Palotailva'\n", " elif s=='Ceuasul-De Campie': return 'Mezőcsávás'\n", " elif s=='Sangeorgiul De Mures': return 'Marosszentgyörgy'\n", " elif s=='Sighisoara': return 'Segesvár'\n", " elif s=='Gyergyo': return 'Gyergyószentmiklós'\n", " elif s=='Ogra': return 'Marosugra'\n", " elif s=='Ujtusn\\xc3\\xa1d': return 'Újtusnád'\n", " elif s=='Miercurea Nirajului': return 'Nyárádszereda'\n", " elif s=='Floresti': return 'Szászfenes'\n", " elif s=='Santioana-De-Mures': return 'Csittszentiván'\n", " elif s=='Maroskeresztur': return 'Maroskeresztúr'\n", " elif s=='Sangeorgiu-De-Padure': return 'Erdőszentgyörgy'\n", " elif s=='Cristesti': return 'Maroskeresztúr'\n", " elif s=='Sangeorg-De Mures': return 'Marosszentgyörgy'\n", " elif s=='Dej': return 'Dés'\n", " elif s=='Csikfalva': return 'Csíkfalva'\n", " elif s=='Marghita': return 'Margitta'\n", " elif s=='Valea Izvoarelor': return 'Buzásbesenyő'\n", " elif s=='Corunca': return 'Koronka'\n", " elif s=='Sovata': return 'Szováta'\n", " elif s=='Ny\\xc3\\xa1radremete': return 'Nyárádremete'\n", " elif s=='Cehu Silvaniei': return 'Szilágycseh'\n", " elif s=='B\\xc3\\xa1lav\\xc3\\xa1s\\xc3\\xa1r,': return 'Balavásár'\n", " elif s=='Csomafalva': return 'Gyergyócsomafalva'\n", " elif s=='Szigetsentmiklos': return 'Szigetszentmiklós'\n", " elif s=='Mik\\xc3\\xb4ujfal\\xc3\\xb9': return 'Mikóújfalu'\n", " elif s=='Bibarczflava': return 'Bibarcfalva'\n", " elif s=='Bradut': return 'Fenyéd'\n", " elif s=='Huedin': return 'Bánffyhunyad'\n", " elif s=='New Delhi': return 'Újdelhi'\n", " elif s=='Galanta': return 'Galánta'\n", " elif s=='Beirut': return 'Bejrút'\n", " elif s=='Riyadh': return 'Rijád'\n", " elif s=='Jerusalem': return 'Jeruzsálem'\n", " elif s=='Godollo': return 'Gödöllő'\n", " elif s=='Balatonfuzfo': return 'Balatonfűzfő'\n", " elif s=='Fels\\xc3\\xb6sofalva': return 'Felsősófalva'\n", " elif s=='Bodok': return 'Sepsibodok'\n", " elif s=='Bodoc': return 'Sepsibodok'\n", " elif s=='Biborteni': return 'Bibarcfalva'\n", " elif s=='Tarnaveni': return 'Dicsőszentmárton'\n", " elif s=='Bremen': return 'Bréma'\n", " elif s=='Targu-Sacuesc': return 'Kézdivásárhely'\n", " elif s=='Ungheni': return 'Nyárádtő'\n", " elif s=='Racosu De Jos': return 'Alsórákos'\n", " elif s=='Mikl\\xc3\\xb3svar': return 'Miklósvár'\n", " elif s=='V\\xc4\\x81sad': return 'Vasad'\n", " elif s=='Sf\\xc3\\xa2ntul-Gheorghe': return 'Sepsiszentgyörgy'\n", " elif s=='Malnas Bai': return 'Málnásfürdő'\n", " elif s=='Colonia Bod': return 'Botfalusi Cukorgyártelep'\n", " elif s=='Ujfal\\xc3\\xba': return 'Újfalu'\n", " elif s=='Doboseni': return 'Székelyszáldobos'\n", " elif s=='Batanii Mari': return 'Nagybacon'\n", " elif s=='Rakos': return 'Felsőrákos'\n", " elif s=='Gonyu': return 'Gönyű'\n", " elif s=='Capeni': return 'Köpec'\n", " elif s=='K\\xc3\\xb6pecz': return 'Köpec'\n", " elif s=='Senec': return 'Szenc'\n", " elif s=='Petrosani': return 'Petrozsény'\n", " elif s=='Biharia': return 'Bihar'\n", " elif s=='Racos': return 'Felsőrákos'\n", " elif s=='Erdofule': return 'Erdőfüle'\n", " elif s=='Kopec': return 'Köpec'\n", " elif s=='Sarmasag': return 'Sarmaság'\n", " elif s=='Aiud': return 'Nagyenyed'\n", " elif s=='Fels\\xc3\\xb6r\\xc3\\xa1kos': return 'Felsőrákos'\n", " elif s=='Ullo': return 'Üllő'\n", " elif s=='Alba Iulia': return 'Gyulafehérvár'\n", " elif s=='Felso Szeli': return 'Csíkszereda'\n", " elif s=='Kom\\xc3\\xa1ndo': return 'Kommandó'\n", " elif s=='Remetea': return 'Gyergyóremete'\n", " elif s=='S\\xc3\\xa2nnicolaul-De-Munte': return 'Hegyközszentmiklós'\n", " elif s=='Tulghes': return 'Gyergyótölgyes'\n", " elif s=='Marosfo': return 'Marosfő'\n", " elif s=='Lazarea': return 'Gyergyószárhegy'\n", " elif s=='Gyimesfels\\xc3\\xb6lok': return 'Gyimesfelsőlok'\n", " elif s=='K\\xc3\\xa1szonaltiz': return 'Kászonaltíz'\n", " elif s=='Suseni': return 'gyergyóújfalu'\n", " elif s=='Gyerg\\xc3\\xb2szentmikl\\xc3\\xb2s': return 'Gyergyószentmiklós'\n", " elif s=='Magyaro': return 'Magyaró'\n", " elif s=='Deva': return 'Déva'\n", " elif s=='Szatm\\xc3\\xa1r': return 'Szatmárnémeti'\n", " elif s=='Lacu Rosu': return 'Gyilkostó'\n", " elif s=='K\\xc3\\xb6r\\xc3\\xb6sszegap\\xc3\\xa1ti': return 'Kőrősszegapáti'\n", " elif s=='Ditrau': return 'Gyergyóditró'\n", " elif s=='Naples': return 'Nápoly'\n", " elif s=='T\\xc3\\xaergu Secuiesc': return 'Kézdivásárhely'\n", " elif s=='Turia': return 'Torja'\n", " elif s=='K\\xc3\\xa0szonuifal\\xc3\\xb9': return 'Kászonújfalu'\n", " elif s=='Cernat': return 'Csernáton'\n", " elif s=='Cosnea': return 'Kóstelek'\n", " elif s=='Mereni': return 'Kézdialmás'\n", " elif s=='Bretcul': return 'Bereck'\n", " elif s=='Poian': return 'Kézdiszentkereszt'\n", " elif s=='Cernatul-De-Sus': return 'Csernáton'\n", " elif s=='Icafalau': return 'Ikafalva'\n", " elif s=='Bereczk': return 'Bereck'\n", " elif s=='Zau De C\\xc3\\xaempie': return 'Mezőzáh'\n", " elif s=='Hatuica': return 'Hatolyka'\n", " elif s=='Sarfalva': return 'Sárfalva'\n", " elif s=='K\\xc3\\xa9zdi-Mart\\xc3\\xb2nos': return 'Kézdimartonos'\n", " elif s=='Csiksomly\\xc3\\xb3': return 'Csíksomlyó'\n", " elif s=='Beijing': return 'Peking'\n", " elif s=='Vlaha': return 'Magyarfenes'\n", " elif s=='Baciu': return 'Kisbács'\n", " elif s=='Reghin': return 'Szászrégen'\n", " elif s=='Eted': return 'Etéd'\n", " elif s=='Carei': return 'Nagykároly'\n", " elif s=='Felsolajos': return 'Felsőlajos'\n", " elif s=='Paltinis': return 'Kecsed'\n", " elif s=='Atid': return 'Etéd'\n", " elif s=='Lopadea Noua': return 'Magyarlapád'\n", " elif s=='Andreeni': return 'Székelyandrásfalva'\n", " elif s=='Diosig': return 'Bihardiószeg'\n", " elif s=='Emod': return 'Emőd'\n", " elif s=='Cristur': return 'Székelykeresztúr'\n", " elif s=='Andr\\xc3\\xa1sfalva': return 'Székelyandrásfalva'\n", " elif s=='Pilisborosjeno': return 'Pilisborosjenő'\n", " elif s=='Kiskoros': return 'Kiskőrös'\n", " elif s=='Als\\xc3\\xb2b\\xc3\\xb2ldogfalva': return 'Alsóboldogfalva'\n", " elif s=='Vetca': return 'Székelyvécke'\n", " elif s=='Goagiu': return 'Gagy'\n", " elif s=='Betesti': return 'Betfalva'\n", " elif s=='Kaposfo': return 'Kaposfő'\n", " elif s=='Bodogaia': return 'Alsóboldogfalva'\n", " elif s=='Siklodi Oldal': return 'Siklód'\n", " elif s=='Koszegszerdahely': return 'Kőszegszerdahely'\n", " elif s=='Ilieni': return 'Lukailencfalva'\n", " elif s=='Lunca De Jos': return 'Gyimesközéplok'\n", " elif s=='Tapioszecso': return 'Tápiószecső'\n", " elif s=='Ujsz\\xc3\\xa8kely': return 'Újszékely'\n", " elif s=='Turda': return 'Torda'\n", " elif s=='Jiboul': return 'Zsibó'\n", " elif s=='Agnita': return 'Szentágota'\n", " elif s=='Cisnadie': return 'Nagydisznód'\n", " elif s=='Peregu Mare': return 'Németpereg'\n", " elif s=='Constanta': return 'Konstanca'\n", " elif s=='Hezeris': return 'Lugosegres'\n", " elif s=='Tekeropatak': return 'Gyergyótekerőpatak'\n", " elif s=='Galati': return 'Galac'\n", " elif s=='Covasna': return 'Kovászna'\n", " elif s=='Kronstadt': return 'Brassó'\n", " elif s=='T\\xc3\\xa2rgu Jiu': return 'Zsilvásárhely'\n", " elif s=='S\\xc3\\xa2ndominic': return 'Csíkszentdomokos'\n", " elif s=='Chisineu Chis': return 'Kőrőskisjenő'\n", " elif s=='Bistrita': return 'Beszterce'\n", " elif s=='Izvorul Muresului': return 'Marosfő'\n", " elif s=='Gilau': return 'Gyalu'\n", " elif s=='Corois\\xc3\\xa2nmartin': return 'Kóródszentmárton'\n", " elif s=='Marculeni': return 'Márkod'\n", " elif s=='Sarmas': return 'Salamás'\n", " elif s=='Palanca': return 'Palánka'\n", " elif s=='Odorheiul Secuiesc': return 'Székelyudvarhely'\n", " elif s=='Talmacel': return 'Kistalmács'\n", " elif s=='Adjud': return 'Egyedhalma'\n", " elif s=='Baia Mare': return 'Nagybánya'\n", " elif s=='Valea Mica': return 'Pokolpatak'\n", " elif s=='Ghimes-Faget': return 'Gyimesbükk'\n", " elif s=='Ruganesti': return 'Rugonfalva'\n", " elif s=='Toplita-Ciuc': return 'Maroshévíz'\n", " elif s=='Belin': return 'Bölön'\n", " elif s=='Gurghiu': return 'Görgényszentimre'\n", " elif s=='Jenofalva': return 'Csíkjenőfalva'\n", " elif s=='Comanesti': return 'Kománfalva'\n", " elif s=='Balan': return 'Balánbánya'\n", " elif s=='Miercurea Ciuc': return 'Csíkszereda'\n", " elif s=='T\\xc3\\xa2rgu Jiu': return 'Zsilvásárhely'\n", " elif s=='Cristolt': return 'Nagykeresztes'\n", " elif s=='Toplita': return 'Maroshévíz'\n", " elif s=='Miercurea-Ciucului': return 'Csíkszereda'\n", " elif s=='Chiheru De Sus': return 'Felsőköhér'\n", " elif s=='Borsec': return 'Borszék'\n", " elif s=='Vasluiul': return 'Vaslui'\n", " elif s=='Bucuresti-Noi': return 'Bukarest'\n", " elif s=='Istanbul': return 'Isztambul'\n", " elif s=='Targu-Neamt': return 'Németvásár'\n", " elif s=='Uzinele Vlahita': return 'Szentegyháza'\n", " elif s=='Szasz R\\xc3\\xa9gen': return 'Szászrégen'\n", " elif s=='Baile Homorod': return 'Homoródfürdő'\n", " elif s=='Corfu': return 'Korfu'\n", " elif s=='Lueta': return 'Lövéte'\n", " elif s=='Praid': return 'Parajd'\n", " elif s=='Mindszent': return 'Csíkmindszent'\n", " elif s=='Homorodfurdo': return 'Homoródfürdő'\n", " elif s=='Homorod-Bai': return 'Homoródfürdő'\n", " elif s=='Chibed': return 'Kibéd'\n", " elif s=='Uzonkaf\\xc3\\xbcrd\\xc3\\xb6': return 'Uzonkafürdő'\n", " elif s=='Borzsova': return 'Csíkborzsova'\n", " elif s=='Mina Sarmmasag': return 'Sarmaság'\n", " elif s=='Iernut': return 'Radnót'\n", " elif s=='Medias': return 'Szászmedgyes'\n", " elif s=='Bratislava': return 'Pozsony'\n", " elif s=='C\\xc3\\xa2mpia Turzi': return 'Aranyosgyéres'\n", " elif s=='C\\xc3\\xa2mpia Turzi': return 'Aranyosgyéres'\n", " elif s=='Mosuni': return 'Székelymoson'\n", " elif s=='Hunedoara': return 'Vajdahunyad'\n", " elif s=='Damieni': return 'Deményháza'\n", " elif s=='Chilieni': return 'Kilyén'\n", " elif s=='Nadlac': return 'Nagylak'\n", " elif s=='Sacadat': return 'Szakadát'\n", " elif s=='Baile Sovata': return 'Szováta'\n", " elif s=='Csengod': return 'Csengőd'\n", " elif s=='Copaceni': return 'Koppánd'\n", " elif s=='Livezeni': return 'Jedd'\n", " elif s=='Viisoara': return 'Csatófalva'\n", " elif s=='Voivodeni': return 'Vajdaháza'\n", " elif s=='Rastolita': return 'Ratosnya'\n", " elif s=='Serbeni': return 'Soropháza'\n", " elif s=='S\\xc3\\xa2npetru-De-C\\xc3\\xa2mpie': return 'Mezőszentpéter'\n", " elif s=='Iernuteni': return 'Randótfája'\n", " elif s=='Hermannstadt': return 'Nagyszeben'\n", " elif s=='Nadasa': return 'Görgénynádas'\n", " elif s=='City of Brussels': return 'Brüsszel'\n", " elif s=='Trei Sate': return 'Hármasfalu'\n", " elif s=='Mar\\xc3\\xb3s Vecs': return 'Marosvécs'\n", " elif s=='Gurghiul': return 'Görgényszentimre'\n", " elif s=='Petelea': return 'Petele'\n", " elif s=='Jabenita': return 'Görgénysóakna'\n", " elif s=='Valenii De Mures': return 'Disznajó'\n", " elif s=='Orfu': return 'Orfű'\n", " elif s=='Fitcau': return 'Fickópataka'\n", " elif s=='Dezmir': return 'Dezmér'\n", " elif s=='Podu Turcului': return 'Törökpadja'\n", " elif s=='Goreni': return 'Dedrádszéplak'\n", " elif s=='Mitresti': return 'Nyárádszentmárton'\n", " elif s=='Ibanesti': return 'Libánfalva'\n", " elif s=='Gherla': return 'Szamosújvár'\n", " elif s=='Solovastrul': return 'Görgényoroszfalu'\n", " elif s=='Reghinul Sashsisch': return 'Szászrégen'\n", " elif s=='Brancovenesti': return 'Marosvécs'\n", " elif s=='Zadareni': return 'Zádorlac'\n", " elif s=='Reghin-Sat': return 'Szászrégen'\n", " elif s=='Beica De Jos': return 'Alsóbölkény'\n", " elif s=='Baita': return 'Laposbánya'\n", " elif s=='Sacalu De Padure': return 'Magyarerdőszakál'\n", " elif s=='Ideciu De Sus': return 'Alsóidecs'\n", " elif s=='Chiheru de Jos': return 'Alsóköhér'\n", " elif s=='Beica De Sus': return 'Felsőbölkény'\n", " elif s=='Ideciul-De-Jos': return 'Alsóidecs'\n", " elif s==' Tapioszecso': return 'Tápiószecső'\n", " elif s=='Glajarie': return 'Görgényüvegcsűr'\n", " elif s=='Blaj': return 'Balázsfalva'\n", " elif s=='G\\xc3\\xb6rg\\xc3\\xa9ny\\xc3\\xbcvegcs\\xc3\\xbcr': return 'Görgényüvegcsűr'\n", " elif s=='Martinesti': return 'Pusztaszentmárton'\n", " elif s=='Luna De Sus': return 'Szászlóna'\n", " elif s=='Chesau': return 'Mezőkeszü'\n", " elif s=='baile Felix': return 'Félixfürdő'\n", " elif s=='Dubai': return 'Dubaj'\n", " elif s=='Nimigea De Jos': return 'Magyarnemegye'\n", " elif s=='C\\xc3\\xa2mpia Turzii': return 'Aranyosgyéres'\n", " elif s=='Craciunelul-De-Jos': return 'Alsókarácsonfalva'\n", " elif s=='Valenii': return 'Disznajó'\n", " elif s=='Laslea': return 'Szászszentlászló'\n", " elif s=='Petrilaca': return 'Oláhpéterlaka'\n", " elif s=='Nazna': return 'Náznánfalva'\n", " elif s=='Dragomiresti': return 'Dragomérfalva'\n", " elif s=='Balauseri': return 'Balavásár'\n", " elif s=='Saschiz': return 'Szászkézd'\n", " elif s=='S\\xc3\\xa2ntioana': return 'Marosszentanna'\n", " elif s=='Mica': return 'Mikefalva'\n", " elif s=='Seleusu-Mare': return 'Nagyszőlős'\n", " elif s=='Odrihei': return 'Vámosudvarhely'\n", " elif s=='Danes': return 'Dános'\n", " elif s=='Suplac': return 'Széplak'\n", " elif s=='Resita': return 'Resicabánya'\n", " elif s=='Codlea': return 'Feketehalom'\n", " elif s=='Tigmandru': return 'Cikmántor'\n", " elif s=='Remetea Lunca': return 'Hosszúremete'\n", " elif s=='Soardu': return 'Küküllősárd'\n", " elif s=='Szentharomsag': return 'Szentháromság'\n", " elif s=='Corbu': return 'Gyergyóholló'\n", " elif s=='St\\xc3\\xaenceni': return 'Gödemesterháza'\n", " elif s=='St\\xc3\\xa2nceni': return 'Gödemesterháza'\n", " elif s=='Vertesszolos': return 'Vértesszőlős'\n", " elif s=='Gheorghieni': return 'Gyergyószentmiklós'\n", " elif s=='Deda': return 'Déda'\n", " elif s=='Deda Bistra': return 'Dédabisztra'\n", " elif s=='Bistra Muresului': return 'Dédabisztra'\n", " elif s=='Lugoj': return 'Lugos'\n", " elif s=='Sausa': return 'Székelysóspatak'\n", " elif s=='Hodosa-De-Ciuc': return 'Csíkhodos'\n", " elif s=='Subcetate': return 'Zeteváralja'\n", " elif s=='Pantelimon': return 'Bukarest'\n", " elif s=='Capilnita': return 'Kápolnásfalu'\n", " elif s=='Santana-De-Mures': return 'Marosszentanna'\n", " elif s=='Bocsa': return 'Boksánbánya'\n", " elif s=='S\\xc3\\xa2nnicolau Mare': return 'Nagyszentmiklós'\n", " elif s=='S\\xc3\\xa2nnicolaul Mare': return 'Nagyszentmiklós'\n", " elif s=='S\\xc3\\xa2npetru Mic': return 'Kisszentpéter'\n", " elif s=='S\\xc3\\xaennicolaul Mare': return 'Nagyszentmiklós'\n", " elif s=='St\\xc3\\xa2nceni': return 'Gödemesterháza'\n", " elif s=='Ciobotani': return 'Csobotány'\n", " elif s=='Lunca De Sus': return 'Gyimesfelsőlok'\n", " elif s=='Ghindari': return 'Makkfalva'\n", " elif s=='Caporal Alexa': return 'Erdőskerek'\n", " elif s=='Coldau': return 'Várkudu'\n", " elif s=='Bicaz Chei': return 'Békás'\n", " elif s=='Bilbor': return 'Bélbor'\n", " elif s=='Moscow': return 'Moszkva'\n", " \n", " else: return s" ] }, { "cell_type": "code", "execution_count": 14, "metadata": { "collapsed": true }, "outputs": [], "source": [ "def code(i):\n", " i=i.replace('Sonderjylland','')\n", " if i=='Szentegyházasfalu': tocode='Valhita, Harghita, Romania'\n", " elif i=='Szentegyh\\xc3\\xa1zasfalu': tocode='Valhita, Harghita, Romania'\n", " elif i=='Sarmasul, Mures, Romania': tocode='Sarmas, Mures, Romania'\n", " elif i=='Ilencfalva, Mures, Romania': tocode='Ilieni, Mures, Romania'\n", " elif i=='Reghinul, Mures, Romania': tocode='Reghin, Mures, Romania'\n", " elif i=='S\\xc3\\xa2ncraiul-De-Mures, Mures, Romania': tocode='Sancraiu de Mures, Mures, Romania'\n", " elif i=='Monoritoko, Mahajanga, Madagascar': tocode='Manaritoka, Mahajanga, Madagascar'\n", " elif i=='Sangeorg-De Mures, Mures, Romania': tocode='Sangeorgiu De Mures, Mures, Romania'\n", " elif i=='S\\xc3\\xb6lden, Austria': tocode='Solden, Austria'\n", " elif i=='Pjelax, L\\xc3\\xa4nsi-Suomen L\\xc3\\xa4\\xc3\\xa4ni, Finland': tocode='Pjelax, Finland'\n", " elif i=='Siklodi Oldal, Mures, Romania': tocode='Siklod, Mures, Romania'\n", " elif i=='Kereszt\\xc3\\xbar, Timis, Romania': tocode='Cherestur, Timis, Romania'\n", " elif i=='Jiboul, Salaj, Romania': tocode='Jibou, Salaj, Romania'\n", " elif i=='Szasz R\\xc3\\xa9gen, Mures, Romania': tocode='Reghin, Mures, Romania'\n", " elif i=='Fick\\xc3\\xb3, Mures, Romania': tocode='Fitcau, Mures, Romania'\n", " elif i=='Gurghiul, Mures, Romania': tocode='Gurghiu, Mures, Romania'\n", " elif i=='Mar\\xc3\\xb3s Vecs, Mures, Romania': tocode='Brancovenesti, Mures, Romania'\n", " elif i=='Felfalu, Mures, Romania': tocode='Suseni, Mures, Romania'\n", " elif i=='Solovastrul, Mures, Romania': tocode='Solovastru, Mures, Romania'\n", " elif i=='Reghinul Sashsisch, Mures, Romania': tocode='Reghin, Mures, Romania'\n", " elif i=='Ideciul-De-Jos, Mures, Romania': tocode='Ideciu De Jos, Mures, Romania'\n", " elif i=='Craciunelul-De-Jos, Alba, Romania': tocode='Craciunelu De Jos, Alba, Romania'\n", " elif i=='Seleusu-Mare, Mures, Romania': tocode='Seleus, Mures, Romania'\n", " elif i=='Chendu Mare, Mures, Romania': tocode='Chend, Mures, Romania'\n", " elif i=='Chendu Mare, Mures, Romania': tocode='Chend, Mures, Romania'\n", " elif i=='Galautasi, Mures, Romania': tocode='Galautasi, Romania'\n", " elif i=='Iermata Neagra, Timis, Romania': tocode='Iermata Neagra, Romania'\n", " elif i=='Kiskend, Mures, Romania': tocode='Chendu, Mures, Romania'\n", " elif i=='Teremeujfal\\xc3\\xb9, Mures, Romania': tocode='Satu Nou, Mures, Romania'\n", " elif i=='Eremitul, Mures, Romania': tocode='Eremitu, Mures, Romania'\n", " elif i=='Szentbenedek, Mures, Romania': tocode='Manastirea, Cluj, Romania'\n", " elif i=='Baczkamadaras, Mures, Romania': tocode='Pasareni, Mures, Romania'\n", " elif i=='Arpasel, Timis, Romania': tocode='Arpasel, Bihor, Romania'\n", " elif i=='Grintiesu Mic, Neamt, Romania': tocode='Grinties, Neamt, Romania'\n", " elif i=='Batos': tocode='Batos, Mures, Romania'\n", " elif i=='Batos': tocode='Paks, Hungary'\n", " elif i=='Toplita-Ciuc, Harghita, Romania': tocode='Toplita, Harghita, Romania'\n", " elif i=='Kopec': tocode='Capeni, Harghita, Romania'\n", " elif i=='S\\\\xc3\\\\xa2nger': tocode='Sanger, Mures, Romania'\n", " else: tocode=i\n", " return tocode" ] }, { "cell_type": "code", "execution_count": 15, "metadata": { "collapsed": false }, "outputs": [], "source": [ "path=\"db2/\"" ] }, { "cell_type": "code", "execution_count": 16, "metadata": { "collapsed": false }, "outputs": [], "source": [ "#global placelist\n", "GL={}\n", "#load existing, if exits\n", "VL=json.loads(file(\"VL.json\").read())" ] }, { "cell_type": "code", "execution_count": 17, "metadata": { "collapsed": false }, "outputs": [ { "data": { "text/plain": [ "'csikszereda'" ] }, "execution_count": 17, "metadata": {}, "output_type": "execute_result" } ], "source": [ "varosok=[\n", "'csikszereda',\n", "'udvarhely',\n", "'szentgyorgy',\n", "'vasarhely',\n", "'barot',\n", "'gyergyo',\n", "'kezdi',\n", "'keresztur',\n", "'kovaszna',\n", "'balan',\n", "'vlahica',\n", "'parajd',\n", "'szovata',\n", "'regen',\n", "'kolozsvar',\n", "'segesvar',\n", "'toplita']\n", "varos=varosok[0]\n", "varos" ] }, { "cell_type": "code", "execution_count": 44, "metadata": { "collapsed": false }, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ "Csíkszereda - 2320 profil, ebből használható: 0 - ez a lakosság ( 37980 ) 0.0 %-a.\n", "Székelyudvarhely - 2180 profil, ebből használható: 0 - ez a lakosság ( 34257 ) 0.0 %-a.\n", "Sepsiszentgyörgy - 2314 profil, ebből használható: 0 - ez a lakosság ( 54312 ) 0.0 %-a.\n", "Marosvásárhely - 2236 profil, ebből használható: 0 - ez a lakosság ( 134290 ) 0.0 %-a.\n", "Barót - 2194 profil, ebből használható: 0 - ez a lakosság ( 8567 ) 0.0 %-a.\n", "Gyergyószentmiklós - 2264 profil, ebből használható: 0 - ez a lakosság ( 18377 ) 0.0 %-a.\n", "Kézdivásárhely - 2188 profil, ebből használható: 0 - ez a lakosság ( 18491 ) 0.0 %-a.\n", "Székelykeresztúr - 2300 profil, ebből használható: 0 - ez a lakosság ( 9491 ) 0.0 %-a.\n", "Kovászna - 2244 profil, ebből használható: 0 - ez a lakosság ( 10265 ) 0.0 %-a.\n", "Balánbánya - 2216 profil, ebből használható: 0 - ez a lakosság ( 5864 ) 0.0 %-a.\n", "Szentegyháza - 590 profil, ebből használható: 0 - ez a lakosság ( 6820 ) 0.0 %-a.\n", "Parajd - 1116 profil, ebből használható: 0 - ez a lakosság ( 6502 ) 0.0 %-a.\n", "Szováta - 1491 profil, ebből használható: 0 - ez a lakosság ( 10234 ) 0.0 %-a.\n", "Szászrégen - 2242 profil, ebből használható: 0 - ez a lakosság ( 33281 ) 0.0 %-a.\n", "Kolozsvár - 2147 profil, ebből használható: 0 - ez a lakosság ( 324576 ) 0.0 %-a.\n", "Segesvár - 1765 profil, ebből használható: 0 - ez a lakosság ( 28102 ) 0.0 %-a.\n", "Maroshévíz - 2250 profil, ebből használható: 0 - ez a lakosság ( 13285 ) 0.0 %-a.\n", "Csíkszereda - 1715 profil, ebből használható: 0 - ez a lakosság ( 37980 ) 0.0 %-a.\n", "Székelyudvarhely - 1638 profil, ebből használható: 0 - ez a lakosság ( 34257 ) 0.0 %-a.\n", "Sepsiszentgyörgy - 1645 profil, ebből használható: 0 - ez a lakosság ( 54312 ) 0.0 %-a.\n", "Marosvásárhely - 2191 profil, ebből használható: 0 - ez a lakosság ( 134290 ) 0.0 %-a.\n", "Barót - 2051 profil, ebből használható: 0 - ez a lakosság ( 8567 ) 0.0 %-a.\n", "Gyergyószentmiklós - 1883 profil, ebből használható: 0 - ez a lakosság ( 18377 ) 0.0 %-a.\n", "Kézdivásárhely - 2031 profil, ebből használható: 0 - ez a lakosság ( 18491 ) 0.0 %-a.\n", "Székelykeresztúr - 1961 profil, ebből használható: 0 - ez a lakosság ( 9491 ) 0.0 %-a.\n", "Kovászna - 2002 profil, ebből használható: 0 - ez a lakosság ( 10265 ) 0.0 %-a.\n", "Balánbánya - 1967 profil, ebből használható: 0 - ez a lakosság ( 5864 ) 0.0 %-a.\n", "Szentegyháza - 1834 profil, ebből használható: 0 - ez a lakosság ( 6820 ) 0.0 %-a.\n", "Parajd - 1124 profil, ebből használható: 0 - ez a lakosság ( 6502 ) 0.0 %-a.\n", "Szováta - 1495 profil, ebből használható: 0 - ez a lakosság ( 10234 ) 0.0 %-a.\n", "Szászrégen - 1988 profil, ebből használható: 0 - ez a lakosság ( 33281 ) 0.0 %-a.\n", "Kolozsvár - 1989 profil, ebből használható: 0 - ez a lakosság ( 324576 ) 0.0 %-a.\n", "Segesvár - 2128 profil, ebből használható: 0 - ez a lakosság ( 28102 ) 0.0 %-a.\n", "Maroshévíz - 2226 profil, ebből használható: 0 - ez a lakosság ( 13285 ) 0.0 %-a.\n" ] } ], "source": [ "for path in {\"db/\",\"db2/\"}:\n", " for varos in varosok:\n", " lines = [line.rstrip('\\n') for line in open(path+varos+'.txt')]\n", " L=[i for i in lines if ((i!='') and (i!='..'))]\n", "\n", " #set start of friend list\n", " for i in range(len(L)):\n", " if 'FriendFriends' in L[i]:\n", " break\n", " if 'Add Friend' in L[i]:\n", " break\n", " L=L[i:]\n", "\n", " #set end of friend list\n", " c=0\n", " for i in range(len(L)):\n", " if 'FriendFriends' in L[i]:\n", " c=i\n", " if 'Add Friend' in L[i]:\n", " c=i\n", " L=L[:c+8] \n", "\n", " #from here people entries are separated by an empty line\n", " K=[{}]\n", " maxicounter=0\n", " minicounter=0\n", " names=['friend1','friend2','friend3','name','pos','place','info','mutual']\n", " for l in L:\n", " if ((l!='') and (l!='..')):\n", " if l=='.':\n", " #no need for friend and mutual info for now\n", " try:\n", " K[maxicounter].pop('friend1')\n", " K[maxicounter].pop('friend2')\n", " K[maxicounter].pop('friend3')\n", " K[maxicounter].pop('mutual')\n", " except:pass\n", "\n", " #set counters\n", " minicounter=0\n", " maxicounter+=1\n", " K.append({})\n", " else:\n", " K[maxicounter][names[minicounter]]=l\n", " minicounter+=1\n", "\n", " ###########################\n", "\n", " P=[]\n", " placelist=[]\n", " placejoblist={}\n", " counter=-1\n", " for k in K:\n", " if 'place' in k:\n", " counter+=1\n", " P.append({})\n", " P[counter]['name']=k['name']\n", " if 'From' not in k['place']:\n", " if 'Lives' in k['place']:\n", " P[counter]['place']=k['place'][9:]\n", " placelist.append(k['place'][9:])\n", "\n", " try:\n", " if 'Studied' in k['info']:\n", " P[counter]['stud']=k['info'][7:]\n", " elif 'Studies' in k['info']:\n", " P[counter]['stud']=k['info'][7:] \n", " elif 'Studied' in k['pos']:\n", " P[counter]['stud']=k['pos'][7:]\n", " elif 'Studies' in k['pos']:\n", " P[counter]['stud']=k['pos'][7:]\n", "\n", " if 'Worked' in k['info']:\n", " P[counter]['work']=k['info'][6:]\n", " elif 'Works' in k['info']:\n", " P[counter]['work']=k['info'][5:]\n", " elif 'Worked' in k['pos']:\n", " P[counter]['work']=k['pos'][6:]\n", " elif 'Works' in k['pos']:\n", " P[counter]['work']=k['pos'][5:]\n", "\n", " elif ' at ' in k['pos']:\n", " P[counter]['work']=k['pos']\n", "\n", " else:\n", " pass\n", " except: pass \n", "\n", " if 'work' in P[counter]:\n", " if ' at ' in P[counter]['work']:\n", " a1=P[counter]['work'].find(' at ')\n", " if P[counter]['work'][:a1]!='':\n", " if k['place'][9:] not in placejoblist: placejoblist[k['place'][9:]]={}\n", " if workdict(P[counter]['work'][:a1]) not in placejoblist[k['place'][9:]]:\\\n", " placejoblist[k['place'][9:]][workdict(P[counter]['work'][:a1])]=1\n", " else: placejoblist[k['place'][9:]][workdict(P[counter]['work'][:a1])]+=1\n", "\n", " placeset=set(placelist)\n", "\n", " ###########################\n", "\n", " PL={} #placelist\n", " LL={} #locationlist\n", " CL={} #countrylist\n", " ML={} #countylist\n", " \n", " \n", " \n", " #file(path+varos+'.json','w').write(json.dumps({'countries':CL,'counties':ML,'cities':LL}))\n", " #print path,varos,\"minded\",len(K),\"useful\",sum([LL[i][\"count\"] for i in LL])\n", " print cz[varos],\"- \",len(K),\"profil, ebből használható: \",sum([LL[i][\"count\"] for i in LL]),\" - ez a lakosság (\",lakos[varos],\")\", np.round(sum([LL[i][\"count\"] for i in LL])*100.0/lakos[varos],2),\"%-a.\"" ] }, { "cell_type": "code", "execution_count": 1753, "metadata": { "collapsed": false }, "outputs": [], "source": [ "#fix GL db, run this, then run cell above again\n", "#comment out lines one by one when done to conserve geocoding quota\n", "\n", "#GL['Toplita-Ciuc, Harghita, Romania']=Geocoder.geocode(\"Toplita, Harghita\")\n", "#GL['Kopec']=Geocoder.geocode(\"Köpecz, Covasna, Romania\")\n", "#GL['Erdofule, Harghita, Romania']=Geocoder.geocode(\"Erdofule, Covasna, Romania\")\n", "#GL['Bardócz, Harghita, Romania']=Geocoder.geocode(\"Bardocz, Covasna, Romania\")\n", "#GL['Szèkelyszáldobos, Harghita, Romania']=Geocoder.geocode(\"Szèkelyszáldobos, Covasna, Romania\")\n", "#GL['\"Gyergòszentmiklòs, Harghita, Romania\", Harghita, Romania']=Geocoder.geocode(\"Gyergyo, Harghita, Romania\")" ] }, { "cell_type": "code", "execution_count": 1776, "metadata": { "collapsed": false }, "outputs": [], "source": [ "#save geocode library\n", "VL={}\n", "for i in GL:\n", " VL[i]={\"coord\":GL[i].coordinates,\"raw\":GL[i].raw,\"country\":GL[i].country}\n", "file('VL.json','w').write(json.dumps(VL))\n", "\n", "#save processed city library, old deprecated\n", "#file(path+varos+'.json','w').write(json.dumps({'countries':CL,'counties':ML,'cities':LL}))" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "Run code above this cell for all cities, all db-s, one by one" ] }, { "cell_type": "code", "execution_count": 2537, "metadata": { "collapsed": false }, "outputs": [], "source": [ "#create global variable\n", "G={}\n", "\n", "#save into global\n", "G={'cities':{}}\n", "#load data from db\n", "for varos in varosok:\n", " if varos not in {'kolozsvar'}:\n", " P=json.loads(file('db/'+varos+'.json').read())\n", " for j in P['cities']:\n", " if j not in G['cities']: G['cities'][j]={\"coords\":P['cities'][j][\"coords\"],\"count\":0}\n", " G['cities'][j][varos]=P['cities'][j]\n", " G['cities'][j][\"count\"]+=P['cities'][j][\"count\"]\n", "#load data from db2\n", "for varos in varosok:\n", " if varos not in {'kolozsvar'}:\n", " P=json.loads(file('db2/'+varos+'.json').read())\n", " for j in P['cities']:\n", " if j not in G['cities']: G['cities'][j]={\"coords\":P['cities'][j][\"coords\"],\"count\":0}\n", " if varos not in G['cities'][j]: \n", " G['cities'][j][varos]=P['cities'][j]\n", " G['cities'][j][\"count\"]+=P['cities'][j][\"count\"]\n", " elif G['cities'][j][varos][\"count\"]
210]\n",
"ce=[i for i in Esum if Esum[i]>100]\n",
"cr=[i for i in Rsum if Rsum[i]>50]"
]
},
{
"cell_type": "code",
"execution_count": 1852,
"metadata": {
"collapsed": false
},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"None\n"
]
}
],
"source": [
"#run once, there is a query limit, load from file, see below, if necessary\n",
"gountrygeo={}\n",
"for i in Rsum:\n",
" if i not in gountrygeo:\n",
" try:gountrygeo[i]=Geocoder.geocode(i).coordinates\n",
" except:print i"
]
},
{
"cell_type": "code",
"execution_count": 25,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"#file('gountrygeo.json','w').write(json.dumps(gountrygeo))\n",
"gountrygeo=json.load(file('gountrygeo.json','r'))"
]
},
{
"cell_type": "code",
"execution_count": 26,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"countrygeo={}\n",
"for i in cr:\n",
" countrygeo[i]=gountrygeo[i]"
]
},
{
"cell_type": "code",
"execution_count": 27,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"countrygeo[\"None\"]=[0, 0]\n",
"gountrygeo[\"None\"]=[0, 0]\n",
"countrygeo[None]=[0, 0]\n",
"gountrygeo[None]=[0, 0]"
]
},
{
"cell_type": "code",
"execution_count": 28,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"countrygeo[\"Canada\"]=[61, -29]\n",
"countrygeo[\"United States\"]=[57, -29]\n",
"countrygeo[\"Romania\"]=[46.052612, 24.954499]\n",
"countrygeo[\"Other\"]=[58, 44]"
]
},
{
"cell_type": "code",
"execution_count": 29,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"#reparse\n",
"Rsum={}\n",
"Nsum={}\n",
"for i in P[\"cities\"]:\n",
" for j in P[\"cities\"][i]:\n",
" if j not in {\"count\",\"coords\"}:\n",
" if '(' in i: rc=i[0:i.find('(')]\n",
" else:rc=i #realcity\n",
" if P[\"cities\"][i][j][\"country\"]==\"Romania\":\n",
" #for intra-country moves, eliminate self\n",
" if rc not in cz.values():\n",
" if j not in E2:E2[j]={}\n",
" if P[\"cities\"][i][j][\"county\"] in county:\n",
" ct=county[P[\"cities\"][i][j][\"county\"]]\n",
" else: ct=P[\"cities\"][i][j][\"county\"]\n",
" if ct in ce:\n",
" c2=ct\n",
" else: c2=\"Other\"\n",
" if ct not in E2[j]:E2[j][c2]=0\n",
" E2[j][c2]+=P[\"cities\"][i][j][\"count\"]\n",
" else:\n",
" if j not in D2:D2[j]={}\n",
" if P[\"cities\"][i][j][\"country\"] in cd:\n",
" c2=P[\"cities\"][i][j][\"country\"]\n",
" else: c2=\"Other\"\n",
" if c2 not in D2[j]:D2[j][c2]=0\n",
" D2[j][c2]+=P[\"cities\"][i][j][\"count\"]\n",
" if j not in R2:R2[j]={}\n",
" if P[\"cities\"][i][j][\"country\"] in cr:\n",
" c2=P[\"cities\"][i][j][\"country\"]\n",
" else: c2=\"Other\"\n",
" \n",
" if c2 not in R2[j]:R2[j][c2]=0\n",
" R2[j][c2]+=P[\"cities\"][i][j][\"count\"]\n",
" if c2 not in Rsum:Rsum[c2]=0\n",
" Rsum[c2]+=P[\"cities\"][i][j][\"count\"]\n",
" \n",
" if j not in N2:N2[j]={}\n",
" if P[\"cities\"][i][j][\"country\"] not in N2[j]:N2[j][P[\"cities\"][i][j][\"country\"]]=0\n",
" N2[j][P[\"cities\"][i][j][\"country\"]]+=P[\"cities\"][i][j][\"count\"]\n",
" if P[\"cities\"][i][j][\"country\"] not in Nsum:Nsum[P[\"cities\"][i][j][\"country\"]]=0\n",
" Nsum[P[\"cities\"][i][j][\"country\"]]+=P[\"cities\"][i][j][\"count\"]\n",
" \n",
"for i in D2:\n",
" s=sum(D2[i].values())\n",
" for j in D2[i]:\n",
" D2[i][j]=D2[i][j]*100.0/s\n",
"for i in E2:\n",
" s=sum(E2[i].values())\n",
" for j in E2[i]:\n",
" E2[i][j]=E2[i][j]*100.0/s\n",
"\n",
"G={\"cities\":{}}\n",
"for i in R2:\n",
" for j in R2[i]:\n",
" if j not in G[\"cities\"]: G[\"cities\"][j]={}\n",
" if \"coords\" not in G[\"cities\"][j]:G[\"cities\"][j][\"coords\"]=countrygeo[j]\n",
" if \"count\" not in G[\"cities\"][j]:G[\"cities\"][j][\"count\"]=int(Rsum[j])\n",
" if i not in G[\"cities\"][j]:\n",
" G[\"cities\"][j][i]={\"count\":int(R2[i][j]),\"coords\":[0,0],\"country\":j}\n",
" \n",
"file('data2.json','w').write(json.dumps(G))"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
"M2=N2.copy()\n",
"G={\"cities\":{}}\n",
"for i in N2:\n",
" for j in N2[i]:\n",
" if j not in G[\"cities\"]: G[\"cities\"][j]={}\n",
" if \"coords\" not in G[\"cities\"][j]:G[\"cities\"][j][\"coords\"]=gountrygeo[j]\n",
" if \"count\" not in G[\"cities\"][j]:G[\"cities\"][j][\"count\"]=Nsum[j]\n",
" if i not in G[\"cities\"][j]:\n",
" G[\"cities\"][j][i]={\"count\":int(N2[i][j]),\"coords\":[0,0],\"country\":j}\n",
" \n",
"file('data2a.json','w').write(json.dumps(G))"
]
},
{
"cell_type": "code",
"execution_count": 30,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
"#calculate simple non-lineardistribution, porportional to the 10 largest country shares\n",
"#advanced non-linear distribution, to be picked up later, example below\n",
"simpleshare={}\n",
"for i in R2:\n",
" if i not in simpleshare:simpleshare[i]={}\n",
" for j in R2[i]:\n",
" if j not in simpleshare[i]: simpleshare[i][j]={}\n",
" simpleshare[i][j]=R2[i][j]/sum(R2[i].values())"
]
},
{
"cell_type": "code",
"execution_count": 31,
"metadata": {
"collapsed": false
},
"outputs": [
{
"ename": "NameError",
"evalue": "name 'GG' is not defined",
"output_type": "error",
"traceback": [
"\u001b[1;31m---------------------------------------------------------------------------\u001b[0m",
"\u001b[1;31mNameError\u001b[0m Traceback (most recent call last)",
"\u001b[1;32m