Skip to content

RozhakDev/SentinelAIDatasetBuilder

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

SentinelAI - Dataset Builder

Repository ini adalah komponen penyiapan data intent untuk proyek SentinelAI — AI Emergency Assistant. Fokusnya bukan chatbot end-to-end, tetapi menghasilkan dataset training yang dipakai pada tahap Intent Classification (NLP Model) di alur:

flowchart LR A[User Input] --> B[Text Preprocessing] B --> C[Intent Classification] C --> D[Intent Mapping] D --> E[Response Generator] 
Loading

Dataset yang dihasilkan berisi pasangan text dan intent untuk skenario tanggap bencana.

Cakupan Intent

Intent awal (MVP) yang tersedia saat ini:

  • earthquake_help
  • flood_help
  • fire_help
  • evacuation_location
  • first_aid
  • general_chit_chat

Struktur Utama

  • src/data/taxonomy.py: sumber utterance per intent
  • src/data/generator.py: mengubah taxonomy menjadi dataset flat
  • src/data/cli.py: antarmuka CLI untuk generate dataset
  • main.py: entry point eksekusi proyek

Cara Menjalankan

python main.py --outdir ./datasets --filename final_dataset.json

Output

Generator membuat file JSON berformat list objek:

[ {"text": "ada gempa bumi besar", "intent": "earthquake_help"}, {"text": "tolong rumah kebanjiran", "intent": "flood_help"} ]

Catatan

  • Direktori output akan dibuat otomatis jika belum ada.
  • Menambah data intent dilakukan dari src/data/taxonomy.py, lalu generate ulang file JSON.

License

Proyek ini menggunakan lisensi MIT. Lihat file LICENSE untuk detail lengkap.

About

SentinelAI data tooling to convert disaster-related intent taxonomy into JSON training datasets for intent classification.

Topics

Resources

License

Stars

Watchers

Forks

Contributors

Languages