POR QUÉ IMPORTA
El español argentino no es el español de Madrid
La prosodia, la cadencia, los marcadores de afecto, el contorno melódico: todo cambia con el dialecto. Un modelo entrenado en inglés americano o en español ibérico subdetecta o sobredetecta cuando se aplica acá. Por eso necesitamos nuestro propio corpus.
Insight clínico
Mismo paciente, misma severidad de depresión, voz: F0 promedio en un mendocino es más bajo que en un porteño. Si la línea base es poblacional global, perdemos la señal. Por eso cada paciente es su PROPIA línea base — pero el corpus argentino nos da el calibrado regional para arrancar.
ARQUITECTURA TÉCNICA
Procesamiento 100% local
El audio NO sale del servidor. Toda la extracción de features acústicos se hace con Python + librosa + Parselmouth en el mismo host que procesa el resto del pipeline. Lo que se almacena son features numéricos anonimizados, NO el audio crudo.
🎙️
Captura
Audios de WhatsApp llegan al servidor, se descargan, se convierten a WAV mono 16kHz, se procesan, y se borran. Solo quedan los 88 features.
📊
eGeMAPS
Extended Geneva Minimalistic Acoustic Parameter Set: jitter, shimmer, F0, HNR, MFCC, formantes, spectral flux, alpha ratio, Hammarberg index, voiced/unvoiced ratio, etc.
💾
Almacenamiento
Tablas dataset_audio_samples + voice_analysis. Features numéricos, ID de paciente, timestamp. Sin audio, sin transcripción, sin identificación cruzable.
VALIDACIÓN CLÍNICA
Protocolo Hospital Universitario Austral
No nos validamos solos. Tenemos un protocolo formal de investigación con investigador principal institucional, replicando metodologías ya publicadas.
Investigador Principal
Dr. Andrés Espejo — Hospital Universitario Austral. Aval institucional formal, no relación informal.
Diseño del estudio
N=120 transversal + n=30 longitudinal + n=12-15 aceptabilidad. Réplica metodológica de Young 2024 (Stanford) y Feng 2024 (Texas A&M).
Referencias publicadas
Meta-análisis sobre 100+ estudios reporta precisión agregada ~81% en detección de depresión vía biomarcadores vocales. PHQ-9 conversacional alcanza concordancia casi perfecta con formato estándar.
Estado actual
2 usuarios reales contribuyendo, ~110 audios procesados. La escala llega con el piloto Austral, no por agregar features sino por validar con datos clínicamente verificados.
ÉTICA DE DATOS
Opt-in independiente del uso del producto
Aportar al corpus NO es condición para usar SentirIA. Es un consentimiento separado, granular, revocable. La gran mayoría de usuarios usa el producto sin aportar al dataset, y eso está perfecto.
Quién aporta
Pacientes que dieron consentimiento explícito al consentimiento #6 (investigación anónima) durante el onboarding. Pueden revocar en cualquier momento.
dataset_participants
Etiquetado profesional
Las muestras se acompañan con evaluación clínica (PHQ-9 administrado en consulta, escalas validadas, juicio profesional) — no auto-reportada por el paciente.
dataset_professional_assessments