Friday 8 December 2017

Detecção ambulatorial média em movimento no Brasil


Estou usando um filtro médio móvel para suavizar os dados para a remoção de valores anormais. Ao alterar o número de pontos médios, estou obtendo resultados diferentes. Meus dados são vetores de recursos multidimensionais. Eu apliquei a média móvel para toda a matriz e depois em variáveis ​​individuais. Eles dão resultados diferentes. Então, como escolher o número de pontos para a média e deve ser aplicado em toda a matriz ou uma por uma base, pediu 1 de novembro 13 às 21:44 Glenb 9830 155k 9679 20 9679 257 9679 531 Uma abordagem para escolher um O parâmetro de suavização seria otimizar erros de previsão de um passo à frente (como somas de quadrados de erros de predição de um passo a frente). Se você está tentando identificar outliers, você quer uma medida diferente de erro de previsão - um razoavelmente robusto para outliers (e então as médias móveis pareceriam uma escolha estranha - por que não algo mais robusto para os outliers) ndash Glenb 9830 Nov 2 13 em 1: 11 Nem. Ambos. Todos. Desculpa. Mas acho que esta é outra tentativa (embora inteligente) para automatizar o que realmente não pode ser automatizado. É claro que diferentes métodos dão resultados diferentes, as únicas vezes que eles wouldnt é onde o outlier é tão óbvio que você não precisa de um teste. Minha sugestão é usar uma variedade de métodos para identificar possíveis outliers e, em seguida, examinar esses outliers individualmente. Estimador de receita e sua aplicação em Detecção Outlier Este é o acompanhamento da última publicação na Visão geral de detecção de fraude. Neste artigo, nos concentraremos nos dados da série temporal e em alguns métodos para encontrar outliers em dados de séries temporais. Dados da série de tempo. O que é um dado da série temporal. A série temporal é definida como uma coleção de pontos de dados que é observada durante um intervalo de tempo contínuo. Os dados da série temporal são freqüentemente usados ​​para encontrar as mudanças de dados ao longo do tempo. Por exemplo, podemos medir a quantidade de calorias que queimamos todos os dias para ver se o ajuste está em nós, também podemos calcular o dinheiro que gastamos todos os dias para encontrar nossos comportamentos de gastos Câmbio (Euro para VN). Fonte: google A figura acima se um exemplo de dados de séries temporais (ilustrado pelo gráfico de linha à direita). Também podemos identificar muitos outros recursos no gráfico. Por exemplo, olhando para o gráfico, podemos achar que, após 5 anos, o valor do euro foi reduzido (de 30.000 VND para 25.000 VND). Além disso, houve mudanças drásticas no final de 2017 (o que corresponde à sua crise). Mesmo a tendência dos dados no ano passado também pode ser identificada. O que é um outlier nos dados da série temporal Na última publicação, definimos um outlier como um ponto de observação distante de outras observações. Conforme mencionado na última seção, usando dados de séries temporais, poderíamos detectar a tendência móvel dos dados ao longo do tempo. Combine esses dois, um outlier em dados de séries temporais é um ponto de dados que está distante da tendência geral de todo o conjunto de dados. Usando a definição acima, poderíamos criar um método geral para encontrar valores temporários nos dados da série temporal da seguinte maneira: colete dados da série temporal com ruídos e valores esporádicos. Normalize os dados de valor Encontre a tendência geral de dados Identifique os pontos que não seguem a tendência geral (pontos que são muito distantes para os valores estimados de acordo com a tendência geral) Detectando outlier em dados de séries temporais Existem várias maneiras de calcular o movimento Tendência de dados. Nesta seção, falaremos sobre dois métodos: média móvel e regressão. Para ilustrar o algoritmo, vamos definir os dados de entrada. Suponha que nos dêmos: Mover média A média móvel é um dos métodos mais simples para calcular e visualizar a tendência dos dados da série temporal. Sua idéia é simples, o valor correspondente de um carimbo de data / hora é calculado como o valor médio dos pontos circundantes. Por exemplo, deixe 2k ser as janelas da média móvel. No timestamp xi podemos calcular yi como: Aplicar esta equação a todos os pontos dados que atingimos os valores estimados de cada marca de tempo. Encontrar um outlier nos dados fornecidos agora é bastante simples. Basta predefinir um limiar e, em seguida, identificar todo o ponto de dados j que tenha: Usar pontos circundantes não é uma obrigação. Podemos também usar pontos k observados antes (ou depois) do ponto selecionado. Existem várias melhorias para o algoritmo de média móvel. Você pode encontrá-los aqui Median filter A média móvel oferece uma maneira fácil de estimar e visualizar a tendência dos dados da série temporal. No entanto, ele tem uma grande desvantagem que é: outlier geralmente introduz uma mudança drástica no valor médio. Por isso, você pode acabar detectando alguns pontos de dados que não devem ser filtrados. Por sorte, o filtro mediano poderia resolver esse problema estimando os valores observados como a mediana dos valores circundantes. Em outras palavras, temos: Semelhante à média móvel, agora temos que definir um limiar e, em seguida, encontrar o outlier de acordo com o limite. Tanto a média móvel quanto o filtro médio devem enfrentar o mesmo problema: eles não podem fornecer uma maneira efetiva de prever o valor no futuro porque não temos dados no futuro. Por exemplo, o valor do Euro em comparação com o VND está subindo de acordo com o gráfico na última seção. A aplicação da média móvel ou algoritmos de filtro mediano para o próximo passo resultará em um valor previsto que seja menor do que o último tempo medido. Portanto, o valor previsto não seguirá a tendência geral dos dados. Para resolver esse problema, podemos usar o método de regressão. Regressão Ao contrário da média móvel e do filtro médio, a regressão calcula a relação entre cada par de dados observados no conjunto de dados. Entre os métodos de regressão, a regressão linear é considerada como o método mais fácil. Ele simplesmente estima uma linha direta que pode ser considerada como a tendência de mudança de dados. Em outras palavras, tentamos estimar uma linha que é: Dado os dados, podemos calcular a taxa de erro: e o erro total é: Minimizar o erro total produz a detecção Outlier com Gaussian Process Linear regression fornece um método para encontrar a tendência de mudança De dados. No entanto, é apenas uma linha reta. Nos dados do mundo real, vimos muitos dados que não devem ser estimados como uma linha reta. O gráfico de moeda acima é um exemplo. Portanto, precisamos de um método de regressão melhor que não apenas capture a natureza do determinado conjunto de dados, mas também seja robusto para o ruído (ou outlier) Gaussian Process é um método não paramétrico para descobrir a tendência dos dados. Também oferece um bom modelo probabilístico robusto ao ruído de entrada (que pode ser considerado como outlier). Permite mover o algoritmo do próprio Processo gaussiano. No processo gaussiano, assumimos que os pontos de dados são uma coleção de variáveis ​​aleatórias, cujo número finito possui uma distribuição gaussiana comum Rasmussen. Semelhante à Distribuição Gaussiana, o Processo gaussiano é definido pela função média e função de covariância. Eles podem ser calculados como: neste momento, um processo gaussiano é controlado pela função de covariância. Vamos considerar a função de covariância mais comum: função RBF (ou função gaussiana). Na função RBF, k (xi, xj) é calculado pela seguinte equação: suponha que queremos prever o valor ym em xm. Precisamos preparar Então, podemos calcular o ym previsto por: Observe que: todos os parâmetros do processo gaussiano podem ser aprendidos a partir dos dados dados usando o método de subida de gradiente marginal. Na estatística, temos a regra 67-95-99.7. Aplicando esta regra em nosso problema, teremos a confiança preditiva de ym. Isso também nos ajuda a identificar o outlier nos dados (os dados observados não ficam dentro do intervalo de confiança selecionado da data de entrada prevista. Vamos criar uma entrada usando python Moving average Median filter Regressão linear Processo gaussiano

No comments:

Post a Comment