Het reilen en zeilen van Python

Opgelet: dit is een plek waar ik probeer weer in het Nederlands te schrijven. Mijn moedertaal is Spaans en ik woon momenteel niet in België, dus is mijn Nederlands wat roestig.

1) Algemeen

Er zijn duizende sites die inleidingen in Python aanbieden. Ik zal hier juist een paar punten oplisten die ik praktisch vond. Gebruik enumerate als je een lus met een index wil hebben.

for index,country in enumerate(countries_list,1):
print(index, " " , country)

2) Pandas

Je kan de inleiding hier lezen als je snel in het Engels over Panda wil leren. Pandas beschikt over twee datenstructuren die zeer nuttig zijn en overal voorkomen: Series en DataFrame. Series zijn objecten die zoals arrays met werten (values) en een index werken. Een DataFrame is een tabel van gegevens met geordende kolommen van gegevens. De kolommen kunnen verschillende types informatie beinhouden: strings, cijfers, evz.

Zichten

Je kan makkelijk de eerste of laatste rij bekijken:
Met df.head krijgt je de eerst rij. Met df.tail() de laatste.

Sorting

Excel

Je kan makkelijk een Excel bestand lezen als je Pandas gebruikt:
import pandas as pd
from pandas import ExcelFile
df = pd.read_excel('data.22.22.22.xlsx', sheetname=`olifanten`, encoding= 'utf-8')
En zo kan je de informatie in de dataframe df hebben.

3) Netwerken


urllib.request
http.client
socketserver

4) Scikit-learn

Hier een overzicht over Scikit learn.

4.1) Classificatie


Textclassifikatie:

Er zijn een aantal technieken die men kan gebruiken om texte te classificeren.
Naïve Bayes (NB): er zijn een aantal implementaties in Scikit: Bernouille Bayes, Gaussian Naive Bayes, Multinomial, ComplementNB. Een voordeel van deze technik is de korte rekentijd die nodig is.
K-Nearest Neighbor (kNN)
Support Vector Machines (SVM): featuresselecties is minder belangrijk hier. Er zijn een antaal implementaties zoals SVC of linearSVC.
BoosTexter

4.2) Clustering

K-means: Dit is de algemene strategie, als de geometrie vlak is en er niet vele clusters zijn.
SpectralClustering: Dit kan men gebruiken als men weinige, niet convexe clusters heeft.

5) TensorFlow

Over TensorFlow zal ik eerst iets in het Noors hier schrijven.


6) Visualisatie

Er zijn een aantal bibliotheken die men voor visualisatie vaak gebruikt.
Matplotlib: de bekendeste bibliothek voor visualisatie in Python.
Seaborn: dit is op matplotlib gebaseerd. Je kan hier de site bezoeken.
Plotly: dit is interessant maar ik zal hier niet op ingaan.

7) Wikipedia-mining

Er zijn een aantal bibliotheken die helpen Wikipedia-informatie snel te extraheren. "Wikipedia" is zeer makkelijk maar niet optimaal om grote hoevelheden van Wikipediagegevens te verwerken.
scripts.segment_wiki is een skript van Gensim om een Wikipedia-Dump te analyseren en de teksten te extraheren.
Andrés Domínguez Burgos, 2109 ©