AR-DEP-Corpus — SentirIA

POR QUÉ IMPORTA

El español argentino no es el español de Madrid

La prosodia, la cadencia, los marcadores de afecto, el contorno melódico: todo cambia con el dialecto. Un modelo entrenado en inglés americano o en español ibérico subdetecta o sobredetecta cuando se aplica acá. Por eso necesitamos nuestro propio corpus.

Insight clínico

            Mismo paciente, misma severidad de depresión, voz: F0 promedio en un mendocino es más bajo que en un porteño. Si la línea base es poblacional global, perdemos la señal. Por eso cada paciente es su PROPIA línea base — pero el corpus argentino nos da el calibrado regional para arrancar.

ARQUITECTURA TÉCNICA

Procesamiento 100% local

El audio NO sale del servidor. Toda la extracción de features acústicos se hace con Python + librosa + Parselmouth en el mismo host que procesa el resto del pipeline. Lo que se almacena son features numéricos anonimizados, NO el audio crudo.

🎙️

Captura

Audios de WhatsApp llegan al servidor, se descargan, se convierten a WAV mono 16kHz, se procesan, y se borran. Solo quedan los 88 features.

📊

eGeMAPS

Extended Geneva Minimalistic Acoustic Parameter Set: jitter, shimmer, F0, HNR, MFCC, formantes, spectral flux, alpha ratio, Hammarberg index, voiced/unvoiced ratio, etc.

💾

Almacenamiento

Tablas dataset_audio_samples + voice_analysis. Features numéricos, ID de paciente, timestamp. Sin audio, sin transcripción, sin identificación cruzable.

VALIDACIÓN CLÍNICA

Protocolo Hospital Universitario Austral

No nos validamos solos. Tenemos un protocolo formal de investigación con investigador principal institucional, replicando metodologías ya publicadas.

Investigador Principal

Dr. Andrés Espejo — Hospital Universitario Austral. Aval institucional formal, no relación informal.

Diseño del estudio

N=120 transversal + n=30 longitudinal + n=12-15 aceptabilidad. Réplica metodológica de Young 2024 (Stanford) y Feng 2024 (Texas A&M).

Referencias publicadas

Meta-análisis sobre 100+ estudios reporta precisión agregada ~81% en detección de depresión vía biomarcadores vocales. PHQ-9 conversacional alcanza concordancia casi perfecta con formato estándar.

Estado actual

2 usuarios reales contribuyendo, ~110 audios procesados. La escala llega con el piloto Austral, no por agregar features sino por validar con datos clínicamente verificados.

ÉTICA DE DATOS

Opt-in independiente del uso del producto

Aportar al corpus NO es condición para usar SentirIA. Es un consentimiento separado, granular, revocable. La gran mayoría de usuarios usa el producto sin aportar al dataset, y eso está perfecto.

Quién aporta

Pacientes que dieron consentimiento explícito al consentimiento #6 (investigación anónima) durante el onboarding. Pueden revocar en cualquier momento.

dataset_participants

Etiquetado profesional

Las muestras se acompañan con evaluación clínica (PHQ-9 administrado en consulta, escalas validadas, juicio profesional) — no auto-reportada por el paciente.

dataset_professional_assessments

El primer corpus de voz argentina.