Outils pour utilisateurs

Outils du site


tech:data_-_notes_generales_sur_les_donnees

Ceci est une ancienne révision du document !


Data - notes générales sur les données

Différents paradigmes : modèles

Modèle de données

Données structurées, semi structurées, non structurées

Non structuré

Database management system provides mechanism for storage and retrieval of data. There are three main types of database management systems namely RDBMS (Relational Database management Systems), OLAP (Online Analytical Processing Systems) and NoSQL.

https://en.m.wikipedia.org/wiki/Lists_of_database_management_systems

https://en.m.wikipedia.org/wiki/List_of_databases_using_MVCC

https://github.com/gostor/awesome-go-storage#database

Clef valeur : Valkey (Redis), etcd, BoltDB / bbolt (embedded key/value database), TiKV (cncf.io) Voir : https://juicefs.com/docs/community/databases_for_metadata/

Ddistributed vector database : Milvus https://en.wikipedia.org/wiki/Milvus_(vector_database)

Db orientées documents : CoucheDB, MongoDB, TinyDB

base de données orientée graphe : Neo4j, OrientDB, TinkerPop (OLAP & OLTP)

Fichiers plats : CSV, JSON, YAML, XML, HDF5

column-oriented database : ClickHouse, hbase (HDFS)

Semi-structured data : XML; HTML, JSON, YAML

Autres : LMDB Lightning Memory-Mapped Database : Base de données en mémoire et NoSQL

indépendamment de cela il existe des bases de données optimisées pour de la lecture : LDAP, etcd…

RDF / Triplestore

Prometheus

Scalable horizontalement

  • Vitess (Scalable. Reliable. MySQL-compatible. Cloud-native) (Voir http://cncf.io)

Multi modèle

Données semi structurées

Multi-model databases

OLTP vs OLAP

En bref

OLTP (OnLine Transaction Processing)

OLAP (OnLine Analytical Processing)

OLEP OnLine Event Processing

Event logs Event-Oriented Database

EventQL

Explication

Suivant l'activité de l'entreprise, les besoins d'exécution du métier peuvent imposer des contraintes techniques. Les différentes technologies de bases de données se répartissent en deux grandes familles suivant leurs missions principales.

Les bases de données ayant vocation à stocker des données en temps réel. C'est le cas des bases de données MySQL ou MongoDB. On les catégorise comme bases de données OLTP (Online transaction processing).

D'autres technologies ont l'analyse de données au cœur de leurs préoccupations. Il s'agit de bases de données OLAP (OnLine Analytical Processing). Elles sont capables de traiter d'importants volumes de données rapidement afin de produire différents rapports.

Source : https://practicalprogramming.fr/snowflake

Technos / Serveurs / outils

transaction processing (OLTP) and analytical processing (OLAP) workloads.

Olap tools & servers :

  • ClickHouse (Par Yandex)
  • LucidDB
  • Langage R
  • Python Anaconda
  • Jasp
  • Jamovi
  • Palo OLAP Server
  • Pentaho BI
  • Mondrian
  • OBIEE (Oracle Business Intelligence Enterprise Edition)
  • JsHypercube

Voir : https://en.wikipedia.org/wiki/Comparison_of_OLAP_servers

ClickHouse https://m.youtube.com/watch?v=FsVrFbcyb84

OLAP - Data Lake vs Data Warehouse

Voir https://practicalprogramming.fr/snowflake

Le Data Warehouse base l'exploitation des données qu'il renferme sur un processus d'ETL (Extract, Tranform, Load) permettant de charger les données issues des différentes applications.

ETL

Voir :

Outils :

  • Airbyte
  • Apache NiFi
  • Apache Camel
  • Jaspersoft ETL
  • Apache Kafka
  • Apache Airflow
  • CloverETL
  • Scriptella
  • Pentaho Kettle
  • Talend Open Studio
  • KETL
  • HPCC Systems
  • GeoKettle
  • CloverETL
  • Apatar
  • Cloudera
  • BIRT

Langages

https://en.m.wikipedia.org/wiki/Query_language

Serveurs

Voir : https://db-engines.com/en/ranking

  • Postgres (SQL & NoSQL)
  • MongoDB et FerretDB
  • CoucheDB et PouchDB
  • SQLite
  • Neo4j
  • TiDB (Horizontal Scalability - MySQL Compatible Syntax)

Config

Sur la plupart des bases de données comme Redis / Valkey, MongoDB, RabbitMQ, CouchBase, Kafka désactiver les Transparent Huge Pages il est recommandé de désactiver transparent_hugepages_thp Transparent HugePages THP

Parametre Kernel : net.ipv4.ip_local_port_range Valeur attendue : Min 9000 Max 65500 Valeur constatée : Min 32768 Max 65535

CFQ : deadline

Proxy DB / Pooler

Peut être une solution pour faire du sharding

Voir :

Outils DB

Migration schéma :

Backup :

  • Barman (Postgresql backup)

NoSQL

Requête sur des bases NoSQL http://b3d.bdpedia.fr/bddoc.html

Comparaison https://hackolade.com/help/NoSQLdatabasesJSONRESTAPIs.html

The CAP theorem states that any distributed database can only have a maximum of two of three desirable qualities: consistency, availability, and partition tolerance.

  • Consistency: All clients always have the same view of the data.
  • Availability: All clients can read from and write to the database at all times.
  • Partition tolerance: The database cluster can keep working even if communication between nodes breaks down.

Voir aussi : Propriétés ACID

Connecteurs

Client Multi bases

Voir :

  • isql / iusql (via ODBC)
  • Adminer

Adminer

Adminer est compatible :

  • MySQL / MariaDB
  • PostgreSQL
  • SQLite
  • MS SQL
  • Oracle
  • Elasticsearch
  • MongoDB, SimpleDB (plugin)
  • Firebird (plugin)
  • ClickHouse (plugin)

Question - besoin

Pour quelle finalité : pour du traitement ou pour de l'analytique (OLTP ou OLAP) ?

Les données sont-elles déjà formatées ?

  • Si oui quel format
  • Sont-elle structurées - semi structurées ou non structurées ?

Quelle quantité de données ?

Quels IO ?

Besoin de mise à l'échelle horizontale (scalabilité) ?

Besoin par rapport au théorème CAP (Théorème de Brewer) ?

  • Besoin des propriétés ACID ?
  • Besoin haute disponibilité ?

Les données doivent-elle être présentées à l'appli via une couche d'abstraction tel que :

Quels sont les besoin en terme de persistance ?

  • Est-ce qu'un In memory database peut convenir ?

Fait-il une gestion de version (MVCC) ?

Est-ce plus pour de la lecture ou lecture / écriture ?


Autres

Meta DB

  • Virtuoso Universal Server
  • DBeaver

Autres:

Colonnes HDFS HBASE

HBase est un système de gestion de base de données non relationnelle orienté colonnes qui fonctionne sur HDFS

hdfs dfs -ls /
hbase hbck -details

Outils de visualisation de données

tech/data_-_notes_generales_sur_les_donnees.1759327470.txt.gz · Dernière modification : de Jean-Baptiste

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki