← Inicio
MOAT DE DATOS

El primer corpus de voz argentina.

Los biomarcadores vocales de depresión existen hace una década. El problema nunca fue la ciencia: fue que los corpus disponibles eran ingleses y americanos. AR-DEP-Corpus es la primera respuesta argentina.

88
Biomarcadores eGeMAPS
110+
Audios iniciales
n=120
Pacientes Austral
100%
Local · sin API externa
POR QUÉ IMPORTA

El español argentino no es el español de Madrid

La prosodia, la cadencia, los marcadores de afecto, el contorno melódico: todo cambia con el dialecto. Un modelo entrenado en inglés americano o en español ibérico subdetecta o sobredetecta cuando se aplica acá. Por eso necesitamos nuestro propio corpus.

Insight clínico
Mismo paciente, misma severidad de depresión, voz: F0 promedio en un mendocino es más bajo que en un porteño. Si la línea base es poblacional global, perdemos la señal. Por eso cada paciente es su PROPIA línea base — pero el corpus argentino nos da el calibrado regional para arrancar.
ARQUITECTURA TÉCNICA

Procesamiento 100% local

El audio NO sale del servidor. Toda la extracción de features acústicos se hace con Python + librosa + Parselmouth en el mismo host que procesa el resto del pipeline. Lo que se almacena son features numéricos anonimizados, NO el audio crudo.

🎙️

Captura

Audios de WhatsApp llegan al servidor, se descargan, se convierten a WAV mono 16kHz, se procesan, y se borran. Solo quedan los 88 features.

📊

eGeMAPS

Extended Geneva Minimalistic Acoustic Parameter Set: jitter, shimmer, F0, HNR, MFCC, formantes, spectral flux, alpha ratio, Hammarberg index, voiced/unvoiced ratio, etc.

💾

Almacenamiento

Tablas dataset_audio_samples + voice_analysis. Features numéricos, ID de paciente, timestamp. Sin audio, sin transcripción, sin identificación cruzable.

VALIDACIÓN CLÍNICA

Protocolo Hospital Universitario Austral

No nos validamos solos. Tenemos un protocolo formal de investigación con investigador principal institucional, replicando metodologías ya publicadas.

Investigador Principal

Dr. Andrés Espejo — Hospital Universitario Austral. Aval institucional formal, no relación informal.

Diseño del estudio

N=120 transversal + n=30 longitudinal + n=12-15 aceptabilidad. Réplica metodológica de Young 2024 (Stanford) y Feng 2024 (Texas A&M).

Referencias publicadas

Meta-análisis sobre 100+ estudios reporta precisión agregada ~81% en detección de depresión vía biomarcadores vocales. PHQ-9 conversacional alcanza concordancia casi perfecta con formato estándar.

Estado actual

2 usuarios reales contribuyendo, ~110 audios procesados. La escala llega con el piloto Austral, no por agregar features sino por validar con datos clínicamente verificados.

ÉTICA DE DATOS

Opt-in independiente del uso del producto

Aportar al corpus NO es condición para usar SentirIA. Es un consentimiento separado, granular, revocable. La gran mayoría de usuarios usa el producto sin aportar al dataset, y eso está perfecto.

Quién aporta

Pacientes que dieron consentimiento explícito al consentimiento #6 (investigación anónima) durante el onboarding. Pueden revocar en cualquier momento.

dataset_participants

Etiquetado profesional

Las muestras se acompañan con evaluación clínica (PHQ-9 administrado en consulta, escalas validadas, juicio profesional) — no auto-reportada por el paciente.

dataset_professional_assessments
SIMULACIÓN DE LAYER 3

Espectrograma + biomarcadores en vivo

Elegí un perfil clínico y observá cómo cambian los valores eGeMAPS. Estos son los 5 features más diagnósticos del subset eGeMAPS — en producción procesamos los 88 completos.

ESPECTROGRAMA · 0–4 KHZ