Упрощенка или вмененка: Вмененка и упрощенка – в чем разница?

Содержание

Эксперты: предприниматели в РФ после отмены ЕНВД будут переходить на «упрощенку» и патент — Экономика и бизнес

МОСКВА, 10 августа. /ТАСС/. Российские предприниматели, которые применяют единый налог на вмененный доход (ЕНВД), после отмены этого режима в 2021 году будут переходить на упрощенную или патентную системы налогообложения. Такое мнение высказали опрошенные ТАСС представители бизнес-объединений и эксперты.

Решение об отмене ЕНВД с 1 января 2021 года много раз обсуждалось и является принятым, заявил в конце июля председатель правительства РФ Михаил Мишустин.

ЕНВД (или так называемая вмененка) является одной из самых простых и выгодных систем налогообложения для малого и среднего бизнеса. Налог не зависит от полученной выручки, он рассчитывается исходя из предполагаемого — вмененного дохода по ставке от 7% до 15% в зависимости от региона России. При этом те предприниматели, которые пользуются ЕНВД, освобождаются от уплаты налога на прибыль, НДС, кроме импортного, и налога на имущество, кроме рассчитываемого по кадастровой стоимости.

Данный режим в России применяют около 280 тыс. организаций и 1,8 млн индивидуальных предпринимателей.

Преимущества «упрощенки» и патента

Перейти можно на два режима: упрощенную систему налогообложения (УСН) и патент (не работает для юридических лиц), а можно уйти в самозанятые, если позволяют параметры, сказал ТАСС советник уполномоченного при президенте России по защите прав предпринимателей Антон Свириденко.

«В последнее время параметры применения патентной системы сильно модифицировали, расширив торговую площадь и дав право зачитывать страховые взносы. И патент стал удобнее для применения. Ставки упрощенной системы налогообложения в этом году во многих регионах в качестве антикризисной меры снижены, поэтому есть много случаев, когда предприниматели хотят перейти на УСН уже сейчас. Однако не решен главный вопрос — общее снижение ставок в федеральном законе, хотя бы для отдельных видов деятельности», — отметил он.

Член генерального совета бизнес-объединения «Деловая Россия» Сергей Гебель также убежден, что бизнес выберет «упрощенку» или патент, что приведет к «увеличению налогового бремени, но не к радикальному, а с минимально возможными потерями». «Недавние изменения налогового законодательства коснулись этих спецрежимов, что, очевидно, делает их более гибкими и адаптированными к бизнесу», — сказал он.

Гебель не исключил, что с учетом последствий пандемии коронавируса многие предприниматели с небольшими оборотами перейдут на режим для самозанятых — налог на профессиональный доход. «Налог для самозанятых получает распространение, пользуется популярностью среди «мелкого» бизнеса. Все это, полагаю, вполне достойные альтернативы. Но нужно помнить, что указанные спецрежимы могут применяться не ко всем видам деятельности и при соответствии определенным условиям. Следовательно, некоторые предприниматели будут вынуждены перейти на применение общей системы, что существенно увеличит налоговую нагрузку», — уточнил собеседник агентства.

Процесс перехода на новый режим

С точки зрения перехода к применению другой системы налогообложения особых сложностей не должно возникнуть, уверены представители бизнес-объединений.

«Так, для перехода на «упрощенку» достаточно уведомить об этом налоговый орган по месту учета, но сделать это нужно до 31 декабря 2020 года, то есть, можно и сейчас. Главное — соответствовать критериям для применения этого спецрежима. Для перехода к применению патентной системы необходимо не позднее чем за 10 дней до начала ее применения направить почтой с описью вложения или по телекоммуникационным каналам связи в налоговый орган заявление на получение патента. Для применения режима для самозанятых необходимо встать на учет плательщика этого налога с использованием приложения «Мой налог», — рассказал Гебель.

Однако есть и исключения. Если субъект бизнеса в этом году перестал быть плательщиком налога на вмененный доход, то перейти на «упрощенку» можно с начала того месяца, когда была прекращена обязанность по уплате ЕНВД. «В этом случае надо подать заявление о выборе системы налогообложения не позднее 30 дней со дня прекращения обязанности по ЕНВД», — сказал ТАСС доцент Российского экономического университета им. Плеханова, член «Партии роста» Вадим Ковригин.

«Я бы посоветовал бизнесу взвесить все «за» и «против». Если переход пока не является выгодным — дождаться официальной отмены ЕНВД и до 31 декабря подать заявление о выборе системы налогообложения. Если УСН окажется меньше, то можно подумать о переходе сейчас, но понимая бухгалтерские и административные риски», — советует эксперт.

Глава «Опоры России» Александр Калинин отметил, что правительство и депутатский корпус сделали достаточно для «бесшовного» перехода с ЕНВД на другие режимы. В частности, расширили для индивидуальных предпринимателей возможность применения патентной системы, распространили возможность вводить режим самозанятых на все регионы.

«Необходима большая разъяснительная работа со стороны Минфина и ФНС, которая должна основываться на конкретных примерах и расчетах для различных отраслей, направлений и сфер деятельности, доказывающая представителям бизнес-сообщества, что переход с ЕНВД на другие системы налогообложения действительно является «бесшовным», что он не бьет по карману и не создает проблемы по подготовке дополнительной отчетности», — сказал ТАСС президент Торгово-промышленной палаты России Сергей Катырин.

Риски для бизнеса

Главное достоинство ЕНВД состоит не в том, что эта система позволяла платить меньше, ведь в некоторых случаях размер уплачиваемого налога был даже больше, чем при использовании традиционной системы налогообложения, а в возможности малого бизнеса заметно экономить на бухгалтерских и административных операциях. Так, при «вмененке» субъекты малого бизнеса были освобождены почти от всех отчетностей, напомнил Ковригин.

«В целом, можно предположить, что отмена ЕНВД, безусловно, негативно скажется на стартапах, микробизнесе — ведь бухгалтерские и административные издержки для них могут оказаться неподъемными», — считает он.

Сергей Гебель, напротив, не видит существенных рисков в отмене ЕНВД, кроме потенциального увеличения налоговой нагрузки. И то за исключением более выгодного налога для самозанятых. «Вместе с тем, на мой взгляд, применение в одной отрасли одинаковой системы налогообложения может обеспечить баланс и конкурентную предпринимательскую среду. Сейчас, например, одни в отрасли применяют ЕНВД, другие, в силу ограничений — общую систему. Налоговая нагрузка при относительно одинаковой норме прибыли разная, то есть одни имеют преимущество перед другими. Полагаю, применение одинакового режима позволит предпринимателям на конкурентных условиях осуществлять деятельность и совместно на равных условиях развивать отрасль экономики», — полагает он.

Вмененный налог ЕНВД для ИП и ООО

ЕНВД отменён с 2021 года, пользоваться этим режимом больше нельзя. Зато ИП можно перейти на очень похожую патентную систему налогообложения. Читайте о ней в специальной рубрике нашей справочной.  У ООО остаётся один вариант — упрощёнка. Понятные статьи-инструкции про УСН — читайте в справочной Эльбы. 

 

Единый налог на вменённый доход (ЕНВД) — система налогообложения, которая подходит только для определённого бизнеса. ЕНВД заменяет сразу несколько налогов: НДС, НДФЛ индивидуального предпринимателя, налог на прибыль ООО и налог на имущество. Налог зависит не от дохода, а от размера бизнеса.

Кто может применять ЕНВД

ЕНВД действует по всей России, кроме Москвы. Вы можете перейти на ЕНВД, если у вас ИП или ООО, в которых не больше 100 сотрудников. Исключение — ООО, где 25% или больше уставного капитала принадлежит другой организации.

Виды бизнеса, попадающие под ЕНВД, устанавливают местные власти. Вот общий перечень, на который они ориентируются:

  • Розничная торговля через небольшой магазин до 150 кв.м. Нельзя применять ЕНВД для торговли через интернет-магазин или по каталогам.
  • Общественное питание с залом для посетителей не больше 150 кв.м.
  • Бытовые услуги населению — ремонт обуви, бытовой техники, пошив одежды и другие услуги в соответствии с распоряжением Правительства.
  • Перевозка людей и грузов, если в собственности не больше 20 машин.
  • Ремонт, техобслуживание и мойка автомобилей.
  • Ветеринарные услуги.
  • Сдача в аренду мест на автостоянках.
  • Размещение наружной рекламы на рекламных конструкциях — щитах, стендах, табло — и транспорте.
  • Сдача в аренду жилья.
  • Сдача в аренду земли для торговли и общепита.
  • Сдача в аренду торговых мест на рынке или в торговом комплексе, палаток, лотков, а также точек общепита без залов обслуживания посетителей.

Найдите в вашем регионе виды деятельности, которые попадают под ЕНВД. Для этого зайдите на сайт налоговой, выберите регион и посмотрите местный закон в последнем разделе «Особенности регионального законодательства». 

🎁

Новым ИП — год Эльбы в подарок

Год онлайн-бухгалтерии на тарифе Премиум для ИП младше 3 месяцев

Попробовать бесплатно

Сколько платить

Размер налога на ЕНВД не зависит от доходов. Поэтому вы заранее можете посчитать, сколько придётся платить, и оценить выгоду. Налог рассчитывается по формуле:

Налог за месяц = Базовая доходность х Физический показатель х К1 х К2 х Ставка налога

Базовая доходность — месячный доход, установленный Налоговым кодексом для вашего вида бизнеса.

Физический показатель — размер одного из показателей бизнеса: площадь торгового зала, число работников, количество транспортных средств и т.д. Узнайте, по какому физическому показателю измерять бизнес, в пункте 3 статьи 346.29 Налогового кодекса.

К1 — коэффициент, который ежегодно устанавливает правительство. В 2019 году равен 1,915, в 2020 году — 2,005.

К2 — коэффициент, определённый местным законом и не превышающий 1. Найти К2 для вашего бизнеса можно на сайте налоговой вашего региона в разделе «Особенности регионального законодательства».

Ставка налога — от 7,5% до 15%. Пока ни в одном регионе не введена пониженная ставка, поэтому везде применяется 15%.

Налог можно уменьшить на страховые взносы. ИП без сотрудников уменьшают налог полностью на взносы за себя. ИП с сотрудниками и ООО уменьшают налог не более чем наполовину, и только на страховые взносы за сотрудников по вменённой деятельности, а также на больничные за первые три дня. С 2017 года ИП с сотрудниками смогут уменьшить налог не только на взносы за сотрудников и больничные, но и на взносы за себя, всё так же соблюдая ограничение в 50% от суммы налога. 

Статья актуальна на 

Как платить налоги при совмещении упрощенки с ЕНВД

Как платить налоги при совмещении упрощенки с ЕНВД

Александр Косолапов государственный советник РФ 1-го класса

 

Какие налоги платить

 

При упрощенке платят единый налог с доходов либо с разницы между доходами и расходами (п. 1 ст. 346.14 НК). ЕНВД – это налог с вмененного дохода, размер которого не зависит от результатов деятельности (п. 1 ст. 346.29 НК). На упрощенке сумма полученного дохода напрямую влияет на единый налог, на ЕНВД реальные доходы значения не имеют. 

При совмещении спецрежимов необходимо вести раздельный учет доходов и расходов, имущества, обязательств и хозяйственных операций по видам деятельности, подпадающим под разные спецрежимы (п. 8 ст. 346.18, п. 7 ст. 346.26 НК).

Оба спецрежима позволяют сэкономить на налогах. На упрощенке можно не платить налог на прибыль.

Исключение – дивиденды и проценты по государственным (муниципальным) ценным бумагам. НДС упрощенщики платят при импорте и в рамках договоров о совместной деятельности, доверительного управления имуществом или концессионных соглашений. Доходы от деятельности на ЕНВД освобождены от налога на прибыль. НДС вмененщики платят только при импорте.

И упрощенка, и вмененка позволяют не платить налог на имущество по объектам, налоговая база для которых – среднегодовая (средняя) стоимость имущества. По недвижимости, налоговая база для которой – кадастровая стоимость, налог на имущество придется платить. 

 

Такой порядок следует из положений пункта 2 статьи 346.11, пункта 4 статьи 346.26 НК.

 

ВНИМАНИЕ

совмещать УСН и ЕНВД по одному виду деятельности в одной местности нельзя

Запрещено применять УСН и ЕНВД в отношении одного и того же вида деятельности, которую ведете: на территории одного муниципального района или на территории нескольких районов одного городского округа, Москвы, Санкт-Петербурга и Севастополя.

 

Это следует из пункта 4 статьи 346.12 НК, писем Минфина от 13.12.2018 № 03-11-11/90773, от 17.02.2017 № 03-11-11/9389.

 

Например, организация продает товар в розницу на территории муниципального образования «Городской округ Мытищи Московской области» через два магазина. Со всей этой деятельности нужно платить единый налог, установленный каким-то одним спецрежимом: либо УСН, либо ЕНВД. Применять ЕНВД по одному магазину и УСН по другому – нельзя.

Если же организация ведет розничную торговлю на территории разных муниципальных районов, например, в Мытищах и в Твери, то она вправе совмещать спецрежимы. С магазина в Мытищах платить ЕНВД, а с магазина в Твери – УСН. Или наоборот.

Раздельный учет

 

Порядок ведения раздельного учета при совмещении упрощенки и ЕНВД законодательно не установлен. Поэтому разработайте его самостоятельно и закрепите в учетной политике или в другом локальном документе, утвержденном руководителем организации. При разработке порядка ведения раздельного учета руководствуйтесь общими нормами ведения бухучета.

Организовать раздельный учет можно с помощью распределения всех доходов и расходов на несколько групп.

 

Доходы разделите на две группы: от деятельности на упрощенке и от деятельности на ЕНВД. Расходы разделите на три группы:

  • связанные с деятельностью на упрощенке;
  • связанные с деятельностью на ЕНВД;
  • одновременно связанные с деятельностью организации на упрощенке и на ЕНВД (например, общехозяйственные расходы).

 

Раздельный учет по разным видам деятельности можно вести с помощью дополнительных субсчетов, открытых к счетам учета доходов и расходов.

 

Распределение общих расходов

 

Общие расходы, которые одновременно относятся к разным видам деятельности, распределите пропорционально доле доходов от каждого из них в общем объеме доходов (п. 8 ст. 346.18 НК).1

 

Долю доходов от деятельности на упрощенке рассчитайте по формуле:

 

Сумму общих расходов, которая относится к деятельности на упрощенке, рассчитайте так:

Сумму расходов, которая относится к деятельности на ЕНВД, рассчитайте по формуле:

 

При расчете пропорции в состав доходов включайте не только выручку от реализации, но и внереализационные доходы.

 

Доходы, перечисленные в статье 251 НК, при формировании пропорции не учитывайте. Об этом сказано в письмах Минфина от 28.04.2010 № 03-11-11/121, от 23.11.2009 № 03-11-06/3/271 и от 17.11.2008 № 03-11-02/130.

 

Пропорцию формируйте исходя из доходов, полученных в календарном месяце. Чтобы рассчитать величину расходов нарастающим итогом с начала года, расходы, определенные с учетом пропорции (в части, относящейся к деятельности на упрощенке), суммируйте.

 

Об этом сказано в письме Минфина от 23.05.2012 № 03-11-06/3/35.

 

Главбух советует: в некоторых письмах Минфин рекомендует определять пропорцию для распределения расходов исходя из доходов, рассчитанных нарастающим итогом с начала года. На практике такой вариант может вызвать затруднения и осложнить работу бухгалтера. 

Налог на имущество

 

Организации, совмещающие упрощенку и ЕНВД, должны платить налог на имущество с объектов недвижимости, налоговой базой для которых является кадастровая стоимость (п. 2 ст. 346.11, п. 4 ст. 346.26 НК).

Рассчитывать и перечислять в бюджет суммы налога на имущество (авансовых платежей по налогу на имущество) нужно в целом по организации. Однако для правильного отражения этих сумм в расчете единого налога при упрощенке может понадобиться их раздельный учет.

 

Раздельный учет налога на имущество потребуется, если одновременно выполняются два условия:

  • «кадастровый» объект недвижимости используется в рамках обоих налоговых режимов;
  • организация применяет упрощенку и платит единый налог с разницы между доходами и расходами.

 


В такой ситуации раздельный учет должен обеспечивать правильное определение суммы налога на имущество (авансовых платежей), которую организация может включить в состав расходов, уменьшающих налоговую базу по единому налогу при упрощенке. 

 

Это следует из положений пункта 8 статьи 346.18 и пункта 7 статьи 346.26 НК.

 

Если «кадастровое» имущество используется в рамках одного специального налогового режима, распределять сумму налога на имущество не нужно. При использовании в деятельности на упрощенке с объектом налогообложения «доходы за вычетом расходов» после уплаты эту сумму можно будет полностью включить в расходы на основании подпункта 22 пункта 1 статьи 346.16 НК.

В остальных случаях (когда имущество целиком используется в деятельности на ЕНВД или в деятельности на упрощенке с объектом налогообложения «доходы») сумма налога на имущество на расчет единых налогов не повлияет. Это следует из положений пункта 1 статьи 346.18 и пункта 2 статьи 346.29 НК.

Итак, если одно и то же «кадастровое» имущество используется в обоих видах деятельности, а в рамках упрощенки организация платит единый налог с разницы между доходами и расходами, то сумму уплаченного налога на имущество нужно распределить.

Так же как и остальные общепроизводственные (общехозяйственные) расходы, распределяйте налог пропорционально доле доходов, полученных по каждому виду деятельности.

ЕНВД для ИП в 2020 году: какие изменения

В 2020 году отдельным магазинам и аптекам больше нельзя работать на ЕНВД или патенте. Они теряют это право, если продают маркированную обувь, лекарства, меховую одежду и аксессуары. Рассказываем, когда начинают действовать ограничения для этих товаров, на какую систему налогообложения перейти и сколько остальным магазинам еще можно работать на ЕНВД.

ЕНВД и патент для ИП и ООО. Какие изменения?

Единый налог на вмененный доход (ЕНВД) могут применять индивидуальные предприниматели и организации, которые занимаются розничной торговлей в магазинах и павильонах с залом не больше 150 кв. м и без него. Они платят фиксированный налог четыре раза в год. Размер налога не зависит от доходов.

Патент доступен предпринимателям, которые торгуют в помещениях не больше 50 кв. м и в павильонах. ИП платит фиксированную стоимость за год и освобождается от других налогов. пп 6, 7 п. 2 ст. 346.26 НК

С 2020 года к розничной торговле больше не относят продажу обуви, некоторых лекарств, одежды и аксессуаров из натурального меха. Все эти товары теперь маркируют кодами Data Matrix. Это значит, что торговать ими на ЕНВД и патенте больше нельзя. п. 58 ст. 2 325-ФЗ

Налоговая автоматически переводит налогоплательщиков, которые продают эти товары, на общую систему налогообложения (ОСНО) и штрафует. Им придется заплатить больше налогов в конце квартала, чем на ЕНВД и патенте, и штраф — 20% от неуплаченной суммы.

Положение закона вступило в силу с 1 января 2020-го. Когда предприниматель теряет право на работу с этими режимами, зависит от товаров, которыми он торгует. ст. 122 НК РФ

Маркировка обуви и ЕНВД

Маркировка всей обуви стартовала с 1 июля 2019 года. Это не значит, что новые коды Data Matrix нужно клеить прямо с этой даты. Процесс разделен на этапы: в прошлом году обувные магазины регистрировались в системе «Честный знак», с октября 2019 до 1 марта 2020 — должны промаркировать остатки на витринах и на складе. Позднее оборот обуви без маркировки запрещен. письмо Минфина № 03-11-09/92662

Министерство финансов России пояснило, что продавцы обуви вправе работать на ЕНВД и патенте до 1 марта 2020-го. Они должны будут сменить налоговый режим до того, как продадут первую маркированную пару.

Маркировка лекарств и ЕНВД

Аптекам теперь тоже нельзя работать на ЕНВД и патенте. Они продают лекарства, подлежащие маркировке.

С октября 2019 года маркируют только часть лекарств — те, что входят в перечень высокозатратных нозологий. Это препараты для больных гемофилией, муковисцидозом, гипофизарным нанизмом, болезнью Гоше, злокачественными новообразованиями лимфоидной, кроветворной и родственных им тканей, рассеянным склерозом, для пациентов после трансплантации органов и тканей. О маркировке лекарств на «Честном знаке»

С июля 2020-го маркировка станет обязательной для продавцов всех лекарств.

Аптеки утрачивают право на ЕНВД и патент с начала 2020 года.

Маркировка меховой одежды и ЕНВД

Права на ЕНВД лишаются предприниматели, которые продают одежду и аксессуары из натурального меха. Минфин пояснил, что речь идет об одежде из норки, нутрии, песца, лисицы, кролика, зайца, енота, овчины и другого меха. письмо Минфина № 03-11-11/85747

Под ограничения не попадает другая одежда, которую будут маркировать с 2021 года: верхняя одежда без меха, кожаные изделия и блузки. Продавцы этих товаров могут работать на ЕНВД и патенте.

Шубы и аксессуары из меха маркируют с 2016 года, их нельзя продавать на ЕНВД и патенте с 1 января 2020-го.

Маркировка без рисков с Дримкас Ключом

С Ключом пользователь кассы не тратит время, чтобы отслеживать новые требования к маркировке, — мы берем это на себя.

ПОДРОБНЕЕ

На какую систему перейти

Индивидуальный предприниматель может перейти с ЕНВД на общую систему или упрощенку. Нужно только понять, что для него выгоднее.

Упрощенка с объектом «доходы». ИП платит налог с доходов, расходы при этом не учитываются. Это выгодно при высокомаржинальном бизнесе, то есть когда затраты минимальны или их нет. Подходит для сферы услуг.

Упрощенка с объектом «доходы минус расходы». Предприниматель платит налог с разницы между доходами и расходами. Ставка налога обычно выше — от 5% до 15%. Это выгодно при низкомаржинальном бизнесе: когда затраты на закупку товаров, работ и услуг высокие. Подходит для розничной торговли.

Общая система. ИП платит НДС до 20%, с доходов — НДФЛ 13%. У этой системы самая большая налоговая нагрузка. Обычно ее применяют бизнесмены, которые не могут перейти на упрощенку из-за ограничений, например, на количество сотрудников. Либо они работают с контрагентами, которые требуют выставлять НДС.

Как перейти на другой режим

Для перехода на упрощенку до 31 декабря 2019 года надо было подать в налоговую заявление о переходе на упрощенную или общую систему налогообложения. п. 2 ст. 346.14 Налогового кодекса

Если предприниматель этого не сделал, можно подать заявление позднее. Для этого предприниматель уведомляет налоговую о переходе на упрощенку в течение 30 дней после отмены ЕНВД для его категории товаров.

При переходе на другую налоговую систему нужно настроить кассу:

  1. Убедиться, что на онлайн-кассе установлена актуальная прошивка. В связи с введением маркировки или при переходе на общую систему может потребоваться обновление.
  2. Перерегистрировать кассу без подачи заявления в налоговую и указать новую систему налогообложения.
  3. При переходе на ОСН заменить фискальный накопитель (ФН), если он рассчитан на 36 месяцев. Такой ФН не предназначен для продажи товаров на общей системе, только для услуг.
  4. Убедиться, что в чеке печатается правильная система налогообложения и ставка НДС.

При переходе на упрощенку с объектом «доходы минус расходы» нужно учитывать, что не получится списать расходы на товары, которые предприниматель купил при работе на ЕНВД или патенте. письмо Минфина № 03-11-11/1128

Когда отменят ЕНВД для всех ИП

Правительство России дважды собиралось отменить ЕНВД в 2014 и 2018 году. Чиновники считают, что этот налог занижен и часто используется для серых схем. Но отказ от ЕНВД дважды откладывали. п. 8 ст. 5 № 97-ФЗ

В итоге ЕНВД решили отменить с 1 января 2021 года. По закону с этой даты больше не действуют положения Налогового кодекса, касающиеся этого налога.

Менее чем через год сменить систему налогообложения придется всем, кто работает на ЕНВД, независимо от того, продают ли они маркированные товары. У ИП, который хочет сэкономить на налогах, останется выбор между упрощенкой и патентом.

Что нужно знать об отмене ЕНВД и патента

  1. С 1 января 2020 года ИП нельзя работать на ЕНВД и патенте, если он продает лекарства, шубы и аксессуары из меха. Эти товары маркируют.
  2. С марта 2020-го предпринимателю также придется отказаться от этих налоговых режимов, если он продает маркированную обувь.
  3. При продаже таких товаров в 2020 году налоговая автоматически будет исчислять налоги по общей системе.
  4. Магазину выгоднее всего перейти на упрощенку с объектом «доходы минус расходы» и платить налог с прибыли.
  5. С 1 января 2021 года ЕНВД отменят для всех предпринимателей.
Активируйте Дримкас Ключ и забудьте о штрафах

Дримкас Ключ помогает продавать маркированные товары по закону. На кассу вовремя приходят обновления — магазин не рискует.

ПОДРОБНЕЕ


Упрощенная система налогообложения и единый налог на вмененный доход: цели, проблемы, долгосрочное видение

Автор

Включено в список:
  • Громов Владимир Владимирович

    (Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации, Москва 119571, Россия)

  • Милоголов Николай Сергеевич

    (Институт финансовых исследований, Москва 127006, Россия; Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации (РАНХиГС), Москва 119571, Россия)

Реферат

Одной из основных целей налоговой политики России в последние годы является поиск возможностей для снижения налоговой нагрузки на небольшие компании.Повышение налоговых льгот обычно связано с ростом малого бизнеса, но темпы развития этого сектора экономики в России по-прежнему низкие, а налоговая система теряет должную степень простоты и прозрачности. Таким образом, предметом исследования является проблема налогообложения малого бизнеса в России. В статье отмечается, что специальные налоговые режимы, такие как упрощенная система налогообложения и единый налог на вмененный доход для отдельных видов деятельности, на сегодняшний день утратили целевую направленность, поскольку их развитие не имеет внутренней логики и осуществляется в основном в рамках действующей экономические вызовы без учета долгосрочных эффектов принятых мер.На этом фоне целью исследования является выработка рекомендаций по совершенствованию указанных выше специальных налоговых режимов. Авторы приходят к выводу, что, с одной стороны, регулярное повышение пороговых значений оборачиваемости для целей упрощенной системы налогообложения является бесперспективным направлением налоговой политики, а с другой — предоставление доступа к системе налогообложения в виде единого налога на вмененный доход. независимо от оборота налогоплательщика частично противоречит целям поддержки малого бизнеса.В целом это создает условия для злоупотреблений и, следовательно, требует пересмотра некоторых положений российского налогового законодательства.

Рекомендуемое цитирование

  • Владимир В. Громов и Николай С. Милоголов, 2019. « Упрощенная система налогообложения и единый налог на вмененный доход: цели, проблемы, долгосрочная перспектива », Финансовый журнал — Финансовый журнал, Институт финансовых исследований, Москва 127006, Россия, выпуск 2, страницы 9-21, апрель.
  • Рукоятка: RePEc: fru: finjrn: 1: p: 9-21
    DOI: 10.31107 / 2075-1990-2019-2-9-21

    Скачать полный текст от издателя

    Исправления

    Все материалы на этом сайте предоставлены соответствующими издателями и авторами. Вы можете помочь исправить ошибки и упущения. При запросе исправления, пожалуйста, укажите код этого элемента: RePEc: fru: finjrn: 1: p: 9-21 . См. Общую информацию о том, как исправить материал в RePEc.

    По техническим вопросам, касающимся этого элемента, или для исправления его авторов, заголовка, аннотации, библиографической информации или информации для загрузки, обращайтесь:.Общие контактные данные провайдера: https://edirc.repec.org/data/frigvru.html .

    Если вы создали этот элемент и еще не зарегистрированы в RePEc, мы рекомендуем вам сделать это здесь. Это позволяет привязать ваш профиль к этому элементу. Это также позволяет вам принимать потенциальные ссылки на этот элемент, в отношении которых мы не уверены.

    У нас нет библиографических ссылок на этот товар. Вы можете помочь добавить их, используя эту форму .

    Если вам известно об отсутствующих элементах, цитирующих этот элемент, вы можете помочь нам создать эти ссылки, добавив соответствующие ссылки таким же образом, как указано выше, для каждого ссылочного элемента.Если вы являетесь зарегистрированным автором этого элемента, вы также можете проверить вкладку «Цитаты» в своем профиле RePEc Author Service, поскольку там могут быть некоторые цитаты, ожидающие подтверждения.

    По техническим вопросам, касающимся этого элемента, или для исправления его авторов, названия, аннотации, библиографической информации или информации для загрузки, обращайтесь: Геннадий Агеев (адрес электронной почты указан ниже). Общие контактные данные провайдера: https://edirc.repec.org/data/frigvru.html .

    Обратите внимание, что исправления могут отфильтроваться через пару недель. различные сервисы RePEc.

    Упрощенная система вменения | Министры казначейства

    Объявила министр доходов и помощник казначея сенатор Хелен Кунан. что Правительство сегодня представит закон о введении нового упрощенного система вменения.

    Система вменения определяет, как и когда подоходный налог уплачивается компаниями и некоторые другие предприятия приписываются их акционерам. Он также известен как франкирование.

    Сенатор Кунан заявил, что упрощенная система вменения будет применяться с 1 июля. 2002 г.

    "Это часть ответа правительства на обзор бизнеса Налоговые рекомендации по реформированию системы вменения и упрощению франкирования процесс для компаний ", - сказал сенатор Кунан. разоблачения законопроекта, мера была извлечена из консультаций с представители малого и крупного бизнеса.

    "Упрощение системы условного исчисления снизит затраты на соблюдение нормативных требований, поскольку более простые правила будет легче понять и применять.

    "Эта мера также дает компаниям большую гибкость при франкировании своих дивиденды акционерам.

    «В соответствии с новым законодательством компании смогут предоставить больше уверенности. акционерам об их вероятной политике франкирования в отношении будущих дивидендов ».

    Хотя меры упростят и изменят способ вменения системы применяются компаниями, они не повлияют на налоговый режим дивидендов получены физическими лицами.

    Законодательство, принятое сегодня, содержит основные положения о вменении, поскольку они обращаются к компаниям и их акционерам.Некоторые другие правила, касающиеся в основном с соответствующими поправками, вытекающими из новой системы, будут включены в позже Билли.

    Для помощи компаниям и их налоговым консультантам во внедрении упрощенного исчисления Система налоговой инспекции разработала ряд информационных фактологических бюллетеней. Эти информационные бюллетени будут доступны на сайте www.taxreform.ato.gov.au.

    Запросы также можно направлять на горячую линию по реформе налогообложения предприятий по телефону 13 24 78.

    Налоговая служба также проведет семинары, объясняющие работу нового правил в Сиднее и Мельбурне 19 и 20 июня 2002 года соответственно.

    Дополнительная информация об этих семинарах, включая регистрационные данные, доступны по адресу http://taxseminars.com.au/sis.asp .

    Технические или налоговые запросы: Гайдн Дау (ATO) (02) 6216 2031

    Почему мне не следует выполнять постобработку вмененных значений до пропущенных, даже если я использую эту переменную в качестве предиктора вменения?

    Хотя это может и не выдать техническую ошибку, сброс вмененной ячейки на пропущенные виды поражений не соответствует цели вменения. Или, по крайней мере, он искажает необходимые технические шаги (итерации), чтобы достичь жизнеспособных недостающих значений замены.

    Почему я это говорю? Возьмем, например, набор данных, в котором есть одна переменная с пропущенными значениями и пара других переменных, которые содержат некоторую информацию об отсутствии этой переменной. Представьте, что вы хотите построить 10 наборов вменения с мышью по умолчанию, равной 5 итерациям, чтобы достичь жизнеспособных значений замены для для каждого из 10 наборов данных.

    AFAIK и, вероятно, несколько упрощенное вменение (мышами) работает следующим образом:

    1. Шаг 1 для первой итерации для первого набора данных вменения будет заключаться в завершении набора данных с помощью сэмплера Гиббса.Это в основном означает вставку случайных значений во все пустые / отсутствующие ячейки.
    2. Шаг 2 - построение правильной модели прогнозирования для оценки значений переменной с пропущенными значениями. Эта модель основана на всех значениях (известных или вмененных / замененных отсутствующих).
    3. Шаг 3 заключается в замене первоначально отсутствующих значений для этой переменной на основе модели шага 2 с добавлением / вычитанием некоторой присущей им случайности.
    4. Шаг 4, повторите шаги 2 и 3 еще 4 раза, чтобы получить 5 итераций оценки недостающих данных для одного набора данных вменения.
    5. Шаг 5, повторите шаги 1–4 еще $ x-1 $ раз для каждого набора данных вменения $ x $, который вы хотите создать (в этом примере $ x = 10 $).

    Этот постоянный процесс повторения именно то, что делает вменение значимым: если связи между известными данными и появлением пропущенного значения достаточно сильны, оценочные пропущенные значения будут довольно постоянными и «подавляют» любую вставленную случайность, что приводит к множественные точные оценки вменения с небольшими вариациями вмененных значений.Если эти ассоциации не так сильны, случайность играет ведущую роль, и вариативность увеличивается.

    Однако, и эта часть касается вашего вопроса, если вы устанавливаете значение «пропущено» каждый раз после шага 3 (используя параметр постобработки с мышью), вы начинаете каждую итерацию, как если бы она была первой. Это полностью подрывает ассоциации в ваших данных. Более того, одна из диагностических функций, представленных Стефом ван Бюреном в пакете мышей, заключается в построении вмененных значений и проверке, стабилизировались ли замененные значения (т.е. все еще не следуют определенной тенденции вверх или вниз) в ходе итераций. Как ни странно, я ожидал, что этот график не доставит вам никаких проблем, поскольку случайность на всех итерациях, вероятно, будет выглядеть как довольно стабильная полоса вмененных значений. Так что не дайте себя обмануть, просто подумайте хорошенько.

    В заключение, лучший способ справиться с вашей «политикой СССР» - это создать дополнительный уровень для этой категориальной переменной (я предполагаю, что политика категориальная), что-то вроде «СССР AFK», и настроить постобработку для заполнения всех пропущенных значений после 1991 года. с этим уровнем вместо NA.

    Ввод отсутствующих данных с помощью R; Пакет MICE

    Отсутствие данных может быть не такой уж и тривиальной проблемой, когда анализировать набор данных, и его учет обычно также не такой простой. Если количество недостающих данных очень мало по сравнению с размером набора данных, то исключение нескольких выборок с недостающими характеристиками может быть лучшей стратегией, чтобы не искажать анализ, однако исключение доступных точек данных лишает данные некоторого количества информации, и в зависимости от ситуации, с которой вы сталкиваетесь, вы можете захотеть найти другие исправления, прежде чем стирать потенциально полезные точки данных из своего набора данных.

    Обновление

    Здесь можно найти упрощенный подход к вменению недостающих данных с помощью пакета MICE: Обработка отсутствующих данных с помощью пакета MICE; простой подход.

    Хотя некоторые быстрые исправления, такие как подстановка среднего, в некоторых случаях могут быть полезными, такие простые подходы обычно вносят систематическую ошибку в данные, например, применение подстановки среднего значения оставляет среднее значение неизменным (что желательно), но уменьшает дисперсию, которая может быть нежелательно.

    Пакет mice в R помогает вам подставить пропущенные значения правдоподобным значениям данных.Эти вероятные значения взяты из распределения, специально разработанного для каждой отсутствующей точки данных.

    В этом посте мы собираемся вменять отсутствующие значения, используя набор данных airquality (доступен в R).
    Для целей статьи я собираюсь удалить некоторые точки данных из набора данных.

     данные <- качество воздуха
    данные [4: 10,3] <- rep (NA, 7)
    данные [1: 5,4] <- НЕТ
     

    Что касается категориальных переменных, замена категориальных переменных обычно не рекомендуется.Некоторая распространенная практика включает замену отсутствующих категориальных переменных режимом наблюдаемых, однако сомнительно, что это хороший выбор. Несмотря на то, что в этом случае в категориальных переменных отсутствуют точки данных, мы удаляем их из нашего набора данных (при необходимости мы можем добавить их обратно позже) и смотрим на данные с помощью summary () .

     данные <- данные [-c (5,6)]
    сводка (данные)
     
         Озон Solar.R Wind Temp
     Мин.: 1,00 мин. : 7.0 Мин. : 1.700 мин. : 57.00
     1-й квартал: 18.00 1-й квартал: 115,8 1-й квартал: 7,400 1-й квартал: 73,00
     Медиана: 31,50 Медиана: 205,0 Медиана: 9,700 Медиана: 79,00
     Среднее значение: 42,13 Среднее значение: 185,9 Среднее значение: 9,806 Среднее значение: 78,28
     3-й квартал: 63,25 3-й квартал: 258,8 3-й квартал: 11,500 3-й квартал: 85,00
     Максимум. : 168.00 Макс. : 334,0 Макс. : 20,700 Макс. : 97.00
     NA: 37 NA: 7 NA: 7 NA: 5 
     

    По всей видимости, озон - это переменная с наибольшим отсутствием точек данных.Ниже мы подробнее рассмотрим отсутствующие шаблоны данных.

    Быстрая классификация отсутствующих данных

    Есть два типа отсутствующих данных:

    • MCAR: отсутствуют полностью случайным образом. Это желательный сценарий в случае отсутствия данных.
    • MNAR: отсутствует не случайно. Отсутствие неслучайных данных является более серьезной проблемой, и в этом случае было бы целесообразно дополнительно проверить процесс сбора данных и попытаться понять, почему информация отсутствует.Например, если большинство людей в опросе не ответили на определенный вопрос, почему они это сделали? Вопрос был непонятным?

    Предполагая, что данные являются MCAR, слишком много отсутствующих данных также может быть проблемой. Обычно безопасный максимальный порог составляет 5% от общего количества для больших наборов данных. Если недостающие данные для определенной функции или выборки составляют более 5%, то вам, вероятно, следует исключить эту функцию или выборку. Поэтому мы проверяем функции (столбцы) и образцы (строки), в которых отсутствует более 5% данных, с помощью простой функции

     pMiss <- function (x) {sum (is.na (x)) / длина (x) * 100}
    применить (данные, 2, pMiss)
    применить (данные, 1, pMiss)
     
        Озон Solar.R Wind Temp
    24,183007 4,575163 4,575163 3,267974
    
      [1] 25 25 25 50 100 50 25 25 25 50 25 0 0 0 0 0 0 0 0 0 0
     [22] 0 0 0 25 25 50 0 0 0 0 25 25 25 25 25 25 0 25 0 0 25
     [43] 25 0 25 25 0 0 0 0 0 25 25 25 25 25 25 25 25 25 25 0 0
     [64] 0 25 0 0 0 0 0 0 25 0 0 25 0 0 0 0 0 0 0 25 25
     [85] 0 0 0 0 0 0 0 0 0 0 0 25 25 25 0 0 0 25 25 0 0
    [106] 0 25 0 0 0 0 0 0 0 25 0 0 0 25 0 0 0 0 0 0 0
    [127] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
    [148] 0 0 25 0 0 0 
     

    Мы видим, что по озону не хватает почти 25% точек данных, поэтому мы могли бы рассмотреть возможность либо исключить его из анализа, либо собрать больше измерений.Остальные переменные ниже 5% порога, поэтому мы можем их оставить. Что касается образцов, то отсутствие только одной функции приводит к 25% отсутствию данных для каждого образца. Образцы, в которых отсутствуют 2 или более функций (> 50%), по возможности следует отбрасывать.

    Использование мышей для поиска шаблона отсутствующих данных

    Пакет mice предоставляет удобную функцию md.pattern () для лучшего понимания шаблона отсутствующих данных

    Библиотека
     (мыши)
    мкр.шаблон (данные)
     
        Temp Solar.R Ветер Озон
    104 1 1 1 1 0
     34 1 1 1 0 1
      4 1 0 1 1 1
      3 1 1 0 1 1
      3 0 1 1 1 1
      1 1 0 1 0 2
      1 1 1 0 0 2
      1 1 0 0 1 2
      1 0 1 0 1 2
      1 0 0 0 0 4
           5 7 7 37 56 
     

    Выходные данные говорят нам, что 104 образца завершены, 34 образца пропускают только измерение озона, 4 образца пропускают только измерение Solar.Значение R и так далее.

    Возможно, более полезное визуальное представление может быть получено с использованием пакета VIM следующим образом

     библиотека (VIM)
    agr_plot <- aggr (data, col = c ('navyblue', 'red'), numbers = TRUE, sortVars = TRUE, labels = names (data), cex.axis = .7, gap = 3, ylab = c ( «Гистограмма недостающих данных», «Паттерн»))
     


    График помогает нам понять, что почти в 70% образцов не отсутствует какая-либо информация, в 22% отсутствует значение озона, а в оставшихся показаны другие отсутствующие закономерности.На мой взгляд, благодаря такому подходу ситуация выглядит немного яснее.

    Другой (надеюсь) полезный визуальный подход - это специальная прямоугольная диаграмма

     marginplot (data [c (1,2)])
     


    Очевидно, что здесь мы ограничены графиком только двух переменных за раз, но, тем не менее, мы можем собрать некоторые интересные идеи.
    График в красном прямоугольнике слева показывает распределение Solar.R с отсутствующим озоном, а график синего прямоугольника показывает распределение оставшихся точек данных.То же самое и с прямоугольными диаграммами для озона в нижней части графика.
    Если наше предположение о данных MCAR верно, то мы ожидаем, что графики красного и синего ящиков будут очень похожими.

    Ввод отсутствующих данных

    Функция mice () заботится о процессе вменения

     tempData <- mice (data, m = 5, maxit = 50, meth = 'pmm', seed = 500)
    сводка (tempData)
     
    Умножить набор условно исчисленных данных
    Вызов:
    мыши (данные = данные, m = 5, метод = "pmm", maxit = 50, seed = 500)
    Количество множественных вменений: 5
    Отсутствующие ячейки в столбце:
      Озон Солнечная.R Температура ветра
         37 7 7 5
    Методы вменения:
      Озон Solar.R Wind Temp
      «пмм» «пмм» «пмм» «пмм»
    Посещение Последовательности:
      Озон Solar.R Wind Temp
          1 2 3 4
    PredictorMatrix:
            Озон Solar.R Wind Temp
    Озон 0 1 1 1
    Солнечная.Р 1 0 1 1
    Ветер 1 1 0 1
    Темп 1 1 1 0
    Начальное значение генератора случайных чисел: 500 
     

    Несколько примечаний к параметрам:

    • m = 5 относится к количеству вмененных наборов данных.Пять - значение по умолчанию.
    • meth = 'pmm' относится к методу вменения. В этом случае мы используем сопоставление прогнозируемых средних значений в качестве метода вменения. Можно использовать другие методы вменения, введите методы (мыши) для получения списка доступных методов вменения.

    Если вы хотите проверить вмененные данные, например, для переменной Озон, вам необходимо ввести следующую строку кода

     tempData $ imp $ Ozone
     
          1 2 3 4 5
    5 13 20 28 12 9
    10 7 16 28 14 20
    25 8 14 14 1 8
    26 9 19 32 8 37
    ... 
     

    В выходных данных показаны вмененные данные для каждого наблюдения (первый столбец слева) в каждом наборе вмененных данных (первая строка вверху).
    Если вам нужно проверить метод вменения, используемый для каждой переменной, мышь позволяет очень легко выполнить

     tempData $ meth
     
      Озон Solar.R Wind Temp
      «пмм» «пмм» «пмм» «пмм» 
     

    Теперь мы можем вернуть завершенный набор данных с помощью функции complete () . Это почти обычный английский:

     completedData <- complete (tempData, 1)
     

    Пропущенные значения были заменены вмененными значениями в первом из пяти наборов данных.Если вы хотите использовать другой, просто измените второй параметр в функции complete () .

    Проверка распределения исходных и условно исчисленных данных

    Давайте сравним распределения исходных и условно исчисленных данных, используя несколько полезных графиков.
    Прежде всего, мы можем использовать диаграмму рассеяния и построить график озона относительно всех других переменных

     xyplot (tempData, Ozone ~ Wind + Temp + Solar.R, pch = 18, cex = 1)
     

    Вот это

    Мы хотели бы видеть, что форма пурпурных точек (условно) соответствует форме синих (наблюдаемых).Соответствующая форма говорит нам, что вмененные значения действительно являются «правдоподобными значениями».
    Другой полезный график - график плотности:

     densityplot (tempData)
     


    Плотность импутированных данных для каждого импутированного набора данных показана пурпурным цветом, а плотность наблюдаемых данных - синим. Опять же, согласно нашим предыдущим предположениям, мы ожидаем, что распределения будут аналогичными.
    Другой полезный визуальный взгляд на распределения может быть получен с помощью функции stripplot () , которая показывает распределения переменных в виде отдельных точек

     stripplot (tempData, pch = 20, cex = 1.2)
     

    Объединение

    Предположим, что следующим шагом в нашем анализе будет подгонка линейной модели к данным. Вы можете спросить, какой набор условно исчисленных данных выбрать. Пакет mice снова позволяет очень легко подобрать модель к каждому из вмененных наборов данных, а затем объединить результаты вместе

     modelFit1 <- с (tempData, lm (Temp ~ Ozone + Solar.R + Wind))
    сводка (бассейн (modelFit1))
     
                         est se t df Pr (> | t |)
    (Перехват) 72.812078768 2.95380500 24.650266 84.18464 0.000000e + 00
    Озон 0,163094287 0,02607674 6,254397 57,78569 5,236295e-08
    Солнечная.Р 0,009679676 0,00789576 1,225933 37,48960 2,278691e-01
    Ветер -0,352582008 0,21639828 -1,629320 92,89136 1,066321e-01
                       lo 95 hi 95 нм fmi лямбда
    (Перехват) 66.938301817 78.68585572 NA 0.1477818 0.1277731
    Озон 0,110891894 0,21529668 37 0,2155848 0,1888975
    Solar.R -0,006311604 0,02567095 7 0,3004189 0,2640672
    Ветер -0.782312735 0,07714872 0 0,1300747 0,1115442 
     

    Переменная modelFit1 содержит результаты подгонки, выполненной для вмененных наборов данных, а функция pool () объединяет их все вместе. По-видимому, статистически значима только переменная Озон.
    Обратите внимание, что есть и другие столбцы, помимо типичных для модели lm () : fmi содержит долю отсутствующей информации, а лямбда - это доля общей дисперсии, которая связана с отсутствующими данными.Для получения дополнительной информации я предлагаю проверить статью, указанную внизу страницы.

    Помните, что мы инициализировали функцию mice с определенным семенем, поэтому результаты в некоторой степени зависят от нашего первоначального выбора. Чтобы уменьшить этот эффект, мы можем вменять большее количество наборов данных, изменив параметр по умолчанию m = 5 в функции mice () следующим образом:

     tempData2 <- mice (data, m = 50, seed = 245435 )
    modelFit2 <- с (tempData2, lm (Temp ~ Ozone + Solar.R + Wind))
    сводка (бассейн (модельFit2))
     
                         est se t df Pr (> | t |)
    (Перехват) 73.156084276 2.803010282 26.099114 129.3154 0.000000e + 00
    Озон 0,166242781 0,024926976 6,669192 118,4408 8,645631e-10
    Солнечная.Р 0,0035 0,007374103 1,226839 114,5471 2,223989e-01
    Ветер -0,382700790 0,202976584 -1,885443 136,6735 6,149264e-02
                       lo 95 hi 95 нм fmi лямбда
    (Перехват) 67.610387851 78.70178070 NA 0.11141367 0.0977762
    Озон 0,116882484 0,21560308 37 0,162 0,1488906
    Solar.R -0,005560458 0,02365413 7 0,18096774 0,1667911
    Ветер -0,784081566 0,01867999 0 0,07425875 0,0608104 
     

    После учета случайной инициализации начального числа мы получаем (в этом случае) более или менее те же результаты, что и раньше, только для Озона, показывающего статистическую значимость.

    Суть с полным кодом для этого сообщения можно найти здесь.

    Спасибо, что прочитали этот пост, оставьте комментарий ниже, если у вас есть какие-либо вопросы.

    Примечание: я изучил эту технику в статье, озаглавленной «Мыши: многомерное вычисление с помощью цепных уравнений в R», написанной Стефом ван Бюреном. Это отличный документ, и я настоятельно рекомендую прочитать его, если вас интересует множественное вменение!

    Множественное вменение отсутствующих данных: определение, обзор

    Определения статистики>

    Множественное вменение (MI) - это способ справиться с ошибкой неполучения ответов - отсутствием данных исследования, которое происходит, когда люди не отвечают на опрос.Этот метод позволяет анализировать неполные данные с помощью обычных инструментов анализа данных, таких как t-тест или ANOVA. Вменять означает «заполнить». При использовании единичных методов вменения для вменения пропущенных значений используется среднее значение, медиана или другие статистические данные. Однако использование единичных значений несет с собой уровень неопределенности в отношении того, какие значения следует приписать. Множественное вменение снижает неопределенность в отношении пропущенных значений за счет расчета нескольких различных вариантов («вменений»). Создается несколько версий одного и того же набора данных, которые затем объединяются для получения «лучших» значений.

    Преимущества множественного вменения

    Используется правильно, MI может:

    • Уменьшить смещение . «Предвзятость» относится к ошибкам, которые закрадываются в ваш анализ.
    • Повышение достоверности. Действительность просто означает, что тест или прибор точно измеряют то, что должны. Например, когда вы создаете тест или анкету на депрессию, вы хотите, чтобы вопросы действительно измеряли депрессию, а не что-то еще (например, тревогу).
    • Повышение точности. Точность - это степень близости двух или более измерений друг к другу.
    • Результат: надежных статистических данных , устойчивых к выбросам (очень высокие или очень низкие точки данных).

    Расчет условных обозначений

    При использовании метода множественного вменения отсутствующие значения заменяются вариантами m> 1, где m обычно <10.

    В этой таблице отсутствуют значения данных для Y2 и Y4.

    Общая, очень упрощенная процедура (как описано Рубином, 1987) представляет собой серию шагов:

    1. Подгоните свои данные к соответствующей модели .Подбор модели берет данные из выборок и пытается найти наиболее подходящую модель, например нормальное распределение или распределение хи-квадрат. Модель также может быть другой параметрической моделью, полученной из ваших данных. Для приведенной выше таблицы были созданы две простые модели (дающие два условных значения): ближайший сосед, который принимает значения для соседа выше, и сосед ниже, и ближайший сосед + 25%, что увеличивает значения ближайшего соседа для учета смещения неполучения ответов.
    2. Оцените недостающую точку данных , используя выбранную модель.Например, модель ближайшего соседа может сгенерировать 9 за отсутствующее значение Y2. 9 - это значение одного из ближайших соседей (Y1).
    3. Повторите шаги 1 и 2 (вы можете использовать одну и ту же модель или разные модели) 2–5 раз для каждой отсутствующей точки данных (это дает вам несколько вариантов для отсутствующих данных).
    4. Расчет отсутствующих точек данных по двум моделям (с округлением до ближайшего целого числа).


    5. Выполните анализ данных .Например, вы можете захотеть провести t-тест или ANOVA. Тест должен выполняться для всех отсутствующих наборов точек данных. В этом примере сгенерированы четыре набора ниже, поэтому выбранные вами тесты будут выполняться четыре раза (по одному для каждого набора).

    6. Усредните значения оценок параметров , дисперсий или стандартных ошибок, полученных из каждой модели, чтобы получить одноточечную оценку для этой модели. Другими словами, вы можете объединить результаты из двух наборов данных, сгенерированных из модели 1, а также вы можете объединить результаты из двух наборов данных, сгенерированных из модели 2.

    Хотя упрощенный пример выше может показаться интуитивно понятным, вычисления для аппроксимации пропущенных значений удивительно сложны . В них участвуют:

    • Байесовский анализ , который объединяет предварительную информацию об интересующем параметре с новыми данными из выборки.
    • Передискретизация из предсказанных распределений, где большое количество меньших выборок одного и того же размера многократно отбираются с заменой из одной исходной выборки.

    Рассчитываются не только множественные возможности для пропущенных значений, но и каждое предлагаемое значение может быть получено из разного распределения вероятностей. Этот анализ практически невозможен вручную без хорошего знания байесовской методологии. Шафер (1999) предупреждает, что

    «… наивный или беспринципный метод вменения может создать больше проблем, чем решить, искажая оценки, стандартные ошибки и тесты гипотез».

    Чтобы избежать этих ловушек, Рубин (1991) рекомендует, чтобы импутации:


    1. Применять априорное распределение вероятностей к любым неизвестным параметрам с помощью байесовского анализа, моделируя м. соблюдается по теореме Байеса,
    2. Укажите параметрическую модель для полных данных,
    3. Укажите (если возможно) модель базового механизма, вызывающего недостающие данные.

    Использование программного обеспечения

    Большинство популярных пакетов статистического программного обеспечения имеют опции для множественного вменения, что требует небольшого понимания фоновой байесовской работы. Например, процедура IBM SPSS MI по сути представляет собой "наведи и щелкни":

    • Выберите «Анализировать»> «Множественное вменение».
    • Выберите> 2 переменных для модели.
    • Укажите количество вменений. Значение по умолчанию - 5.
    • .
    • Укажите набор данных или файл данных для вывода.

    Другие популярные варианты программного обеспечения:

    • R: Analytics Vidhya предлагает хороший обзор нескольких пакетов R, которые работают с недостающими данными, включая множественные вменения.
    • SAS : Используйте процедуры PROC MI или PROC MIANALYZE.

    Использование программного обеспечения - не идеальное решение. Следует внимательно выбирать подходящие модели для ваших данных. Например, если ваши данные не имеют нормального распределения, вам может потребоваться преобразовать ваши переменные, чтобы они приближались к нормальному распределению, прежде чем запускать процедуру вменения.Другими словами, это не так просто, как ввести данные и выбрать вариант множественного вменения. Неправильный выбор модели, отсутствие модерирующих переменных или исключение важных точек данных могут привести к еще большему смещению, чем вы имели бы без запуска процедуры.


    Существует множество опций для заполнения недостающих данных.

    Не существует «идеального» метода для заполнения недостающих данных. Как указано выше, множественное вменение может быть трудно понять и реализовать без некоторого понимания выбора модели и байесовской теории.Некоторые другие варианты, которые проще и могут быть более эффективными, чем MI, включают:

    • Замените отсутствующие значения средним или медианным значением для набора. Обычно не рекомендуется, если только у вас есть несколько пропущенных значений.
    • Используйте линейную регрессию для заполнения пропусков. Линейная регрессия создает простую модель (линию), в которой легко экстраполировать или интерполировать отсутствующие значения. Подходит только для линейных данных, таких как рост, вес или уровень дохода.
    • Заменить отсутствующие значения на значение перед ним . Это может сработать, если кажется, что ваши ценности имеют тенденцию (в отличие от ценностей, которые встречаются повсюду).
    • Игнорировать наблюдения с отсутствующими данными или взвешивать полные наблюдения (т. Е. Уделять больше внимания полным данным и меньшее значение неполным данным). Игнорирование случаев с отсутствующими данными может быть вариантом, если у вас достаточно большой размер выборки. Для небольших выборок каждая точка данных может быть критичной.
    • Заполните пустые поля нулями . В основном вариант, если у вас есть несколько некритических пропущенных точек.
    • Используйте алгоритм k-ближайшего соседа или EM-алгоритм для создания недостающих точек данных. Сопоставление ближайшего соседа логически сопоставляет одну точку данных с другой, наиболее похожей точкой данных. Алгоритм EM работает, выбирая случайные значения для отсутствующих точек данных и используя эти предположения для оценки второго набора данных. Новые значения используются для создания лучшего предположения для первого набора, и процесс продолжается до тех пор, пока алгоритм не сойдется в фиксированной точке.

    Дополнительная литература:
    Для более глубокого изучения MI вы действительно не сможете превзойти оригинальную работу Д. Б. Рубина «Множественное вменение для неполучения ответов в опросах» (Нью-Йорк: John Wiley, 1987). Если вы не можете найти книгу, вы можете прочитать здесь pdf-версию метода МИ Рубина.

    Ссылки:
    Little RJA & Rubin DB (2002) Статистический анализ с отсутствующими данными (второе издание). Уайли, штат Нью-Джерси.
    Рубин , Д.Б. (1977). Вывод и недостающие данные.Биометрика, 63, 581-592.
    Рубин , Д.Б. (1978). Множественные вменения в выборочных опросах - феноменологический байесовский подход к неполучению ответов. Труды секции методов исследования опросов Американской статистической ассоциации, 20-34. Также при вменении и редактировании ошибочных или отсутствующих данных обследования, Министерство торговли США, 1-23.
    Рубин, Д. (1986). Основные идеи множественного вменения в случае неполучения ответов. Методология исследования, июнь 1986 г. Том 12, №1, стр. 37-47. Получено 24 августа 2017 г. с: http: // www.statcan.gc.ca/pub/12-001-x/1986001/article/14439-eng.pdf
    Schafer , J. (1999). Множественное вменение: праймер. Получено 23.08.2017 из: http://hbanaszak.mjr.uw.edu.pl/TempTxt/Schafer_1999_MultipleImputationAPrimer.pdf

    . -------------------------------------------------- ----------------------------

    Нужна помощь с домашним заданием или контрольным вопросом? С Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области. Ваши первые 30 минут с репетитором Chegg бесплатны!

    Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .


    Руководство по вмененному доходу для новичков (2021)

    Как владелец бизнеса, вы несете ответственность за подачу различных налоговых отчетов и своевременный перевод всех подлежащих уплате налогов. Вот почему важно понимать вмененный доход или дополнительные льготы.

    Если вы предлагаете или планируете предлагать своим сотрудникам различные дополнительные льготы, вам необходимо знать, какие льготы не облагаются налогом, а какие нужно указывать как налогооблагаемый доход.


    Обзор: Что такое вмененный доход?

    Часть расчета заработной платы - это правильное отслеживание выплат сотрудникам.Если ваши сотрудники получают различные дополнительные льготы и неденежные компенсации, которые не зависят от их заработной платы, но все же имеют ценность.

    Это значение необходимо отслеживать и сообщать в качестве компенсации в соответствующие налоговые органы, включая IRS, Социальное обеспечение и Medicare (FICA), а также в федеральный налог по безработице (FUTA).

    Это означает, что любой служащий, который принимает определенные дополнительные неденежные льготы или пользуется ими, должен будет добавить сумму полученного пособия к их валовому доходу за год.


    Примеры вмененного дохода

    Если вы не уверены, что именно считается вмененным доходом и нужно ли облагать налогом дополнительные льготы, которые вы предлагаете своим сотрудникам, вот список вещей, которые обычно считаются вмененным доходом:

    • Групповое страхование жизни на сумму, превышающую 50 000 долларов США
    • Использование автомобиля в личных целях
    • Помощь в обучении, превышающая 5250 долларов США
    • Возмещение не подлежащих вычету расходов на переезд
    • Скидки для сотрудников, превышающие необлагаемую налогом сумму
    • Льготы по фитнесу, такие как членство в спортзале
    • Помощь в усыновлении, превышающая необлагаемую налогом сумму
    • Помощь по уходу за иждивенцем, превышающая необлагаемую налогом сумму

    Примеры исключений

    Существует также ряд исключенных льгот, о которых вы не должны сообщать. доход.Другие, такие как помощь иждивенцам и помощь в усыновлении, изначально исключаются, если они не превышают указанные необлагаемые налогом суммы.

    В большинстве случаев исключенные льготы не облагаются федеральным подоходным налогом у источника, социальным обеспечением, Medicare, федеральным налогом на безработицу (FUTA) или налогом на пенсию с железных дорог (RRTA) и не должны указываться в форме W. -2.

    Эти исключения включают:

    • Страхование от несчастных случаев и медицинское страхование
    • Счета для сбережений здоровья
    • Питание
    • Групповое страхование жизни на сумму до 50 000 долларов
    • Скидки для сотрудников до суммы, не облагаемой налогом
    • Помощь в усыновлении до суммы, не облагаемой налогом
    • Помощь по уходу на иждивении до суммы, не облагаемой налогом
    • Сотовые телефоны, предоставленные работодателем, используемые в основном для работы
    • Помощь в обучении сотрудников на сумму до 5250 долларов

    Как отразить вмененный доход

    In Чтобы правильно отразить вмененный доход или дополнительные льготы, вы должны сначала определить размер льгот, получаемых вашим сотрудником.

    Хотя это несложно для таких льгот, как групповое страхование жизни и помощь в усыновлении, для которых установлена ​​определенная стоимость, другие дополнительные льготы, такие как личное использование транспортного средства, могут потребовать от вас определения справедливой рыночной стоимости.

    Например, если вы предоставляете своему сотруднику автомобиль для использования, стоимость дополнительного пособия будет равна расходам, которые ваш сотрудник понесет, если арендует автомобиль у третьей стороны.

    Имейте в виду, что у IRS есть строгие правила в отношении оценки аренды автомобиля, поэтому лучше всего обратиться к Публикации 15-B: Руководство работодателя по дополнительным льготам, чтобы убедиться, что оценка была проведена должным образом.

    Вмененный доход всегда указывается в форме W-2.

    Вы можете отчитываться о размере дополнительных льгот с любой выбранной периодичностью, но не реже одного раза в год. Варианты периодической отчетности включают:

    1. За период оплаты
    2. Ежеквартально
    3. Полугодовой
    4. Ежегодно

    Вы можете изменять частоту отчетности так часто, как хотите, но вы должны сообщать о выгодах за календарный год не позднее 31 декабря года получения пособия.

    Все дополнительные льготы сообщаются в форме IRS W-2, с указанием конкретного кода в соответствующем поле, чтобы указать, какой тип льготы был предоставлен.

    Помните, что вы хотите только добавить стоимость дополнительного пособия к общему налогооблагаемому доходу вашего сотрудника. Любое дополнительное пособие, которое считается освобожденным от уплаты налогов, не должно включаться в валовую заработную плату работника.

    Конечно, если вы используете программное обеспечение для расчета заработной платы, такое как Gusto или SurePayroll, эта информация будет включена в формы W-2, которые предоставляются вашим сотрудникам в конце года.

    Если вы обрабатываете платежную ведомость вручную, вот пример того, как вы можете рассчитать вмененный доход по квитанции о заработной плате:

    Еженедельная заработная плата Шеннона составляет 1250 долларов. Медицинская страховка Шеннон составляет 100 долларов и считается вычетом, не облагаемым налогом.

    Если бы это было все, что вам нужно было учесть, валовая заработная плата Шеннон составила бы 1150 долларов, а это сумма, которая использовалась бы для расчета удерживаемых налогов. Однако работодатель Шеннон также предоставляет ей служебный автомобиль, справедливая рыночная стоимость которого составляет 150 долларов в неделю.Чтобы правильно учесть это преимущество, вам необходимо добавить 150 долларов к налогооблагаемому доходу Шеннон. Добавление этой суммы обеспечит точный расчет и уплату налогов.

    Калькулятор вмененного дохода отображает разницу в налогооблагаемой заработной плате с учетом справедливой рыночной стоимости аренды автомобиля.

    После того, как мы прибавим 150 долларов к предыдущей налогооблагаемой заработной плате Шеннон в размере 1150 долларов, ее новая налогооблагаемая заработная плата составит 1300 долларов, и это сумма, которая будет использована при расчете налогов, удерживаемых у источника. Имейте в виду, что существуют различные правила IRS, которые можно использовать при расчете стоимости дополнительных льгот.

    Пример выше основан на еженедельной отчетности, но у вас также есть возможность сообщать вмененный доход ежеквартально, раз в полгода или год.


    Позвольте вашему поставщику услуг по расчету заработной платы отслеживать вмененный доход для вас

    Независимо от того, проводите ли вы расчет заработной платы вручную или у вас есть поставщик услуг по расчету заработной платы, вам все равно необходимо отслеживать вмененный доход.

    Почему бы не выбрать более простое из двух и позволить службе расчета заработной платы сделать тяжелую работу? Приложения для расчета заработной платы, такие как OnPay и Paychex Flex, могут легко управлять отчетами о вмененном доходе и дополнительных льготах, предоставлять итоговые суммы по вмененному подоходному налогу, а также включать эти итоги в W-2 сотрудников на конец года.

    Чтобы узнать о других вариантах расчета заработной платы, обязательно ознакомьтесь с нашими обзорами программного обеспечения для расчета заработной платы.

    Слишком много столбцов

    Предположим, что ваш коллега с энтузиазмом воспринял множественное вменение. Она попросила вас создать версию ее данных с множественным вменением и переслала вам всю свою базу данных. В качестве первого шага вы используете R для считывания его во фрейм данных с именем data . После этого вы вводите следующие команды:

      библиотека (мыши)
    ## НЕ ДЕЛАЙТЕ ЭТОГО
    imp <- mice (data) # не рекомендуется  

    Если вам повезет, программа может запуститься и произвести расчет, но через несколько минут станет ясно, что на ее завершение уходит много времени.А после того, как ожидание закончилось, вменения оказались на удивление плохими. Что случилось?

    Некоторое исследование данных показывает, что ваш коллега отправил вам набор данных с 351 столбцом, по сути, всю информацию, которая была выбрана в ходе исследования. По умолчанию функция mice () использует все другие переменные в качестве предикторов, поэтому mice () попытается вычислить регрессионный анализ с 350 независимыми переменными и повторить это для каждой неполной переменной. Категориальные переменные внутренне представлены как фиктивные переменные, поэтому фактическое количество предикторов может легко удвоиться.Это делает алгоритм очень медленным, если он вообще работает.

    Некоторое дальнейшее исследование показывает, что некоторые переменные являются полями с произвольным текстом, и что некоторые из пропущенных значений не были отмечены как таковые в данных. Как следствие, mice () обрабатывает невозможные значения, такие как «999» или «-1», как реальные данные. Всего одна забытая пропущенная метка данных может привести к большим ошибкам в расчетах.

    Чтобы избежать подобных практических проблем, необходимо сначала потратить некоторое время на изучение данных.Кроме того, будет полезно понять, для какого научного вопроса используются данные. Оба помогут в создании разумных вменений.

    В этом разделе основное внимание уделяется тому, что можно сделать на основе самих значений данных. На практике гораздо продуктивнее и предпочтительнее работать вместе с кем-то, кто действительно хорошо знает данные и знает вопросы, представляющие научный интерес, которые можно задать на основе данных. Иногда возможности сотрудничества ограничены. Это может произойти, например, если данные поступили из нескольких внешних источников (как в метаанализе) или если набор данных настолько разнообразен, что ни один человек не может охватить все его содержимое.Будет ясно, что эта ситуация требует тщательной оценки качества данных задолго до попытки вменения.

    Научный вопрос

    Существует парадоксальная обратная зависимость между артериальным давлением (АД) и смертностью у людей старше 85 лет (Boshuizen et al. 1998; Van Bemmel et al. 2006). Обычно люди с более низким АД живут дольше, но самые старые люди с более низким АД живут меньше.

    Целью исследования было определить, является ли связь между АД и смертностью у очень пожилых людей следствием слабости.Вторая цель заключалась в том, чтобы узнать, остается ли высокое АД все еще фактором риска смерти после того, как были приняты во внимание последствия плохого здоровья.

    В исследовании сравнивались две модели:

    1. Связь между смертностью и АД с поправкой на возраст, пол и тип проживания.

    2. Связь между смертностью и АД с поправкой на возраст, пол, тип проживания и состояние здоровья.

    Здоровье измерялось по 28 различным параметрам, включая психическое состояние, физические недостатки, зависимость от повседневной деятельности, анамнез рака и другие.Включение здоровья как набора ковариат в модель 2 может объяснить связь между смертностью и АД, что, в свою очередь, имеет значение для лечения гипертонии у очень пожилых людей.

    Лейден 85+ Когорта

    Данные получены от 1236 жителей Лейдена, которым было 85 лет и старше на 1 декабря 1986 г. (Lagaay, Van der Meij, and Hijmans 1992; Izaks et al. 1997). В период с января 1987 г. по май 1989 г. этих людей посетил врач. Была получена полная история болезни, информация о текущем употреблении наркотиков, образец венозной крови и другие данные, связанные со здоровьем.АД обычно измеряли во время визита. За исключением некоторых людей, которые были прикованы к постели, АД измеряли в сидячем положении. Использовался манометр Hg, и АД было округлено до ближайших 5 мм рт. Измерения обычно проводились ближе к концу интервью. Статус смертности каждого человека на 1 марта 1994 г. был получен из административных источников.

    Из исходной когорты в общей сложности 218 человек умерли до того, как их можно было посетить, 59 человек не захотели участвовать (некоторые из-за проблем со здоровьем), 2 эмигрировали и 1 человек не был опрошен по ошибке, поэтому были посещены 956 человек.Эффекты, связанные с подвыборкой посещенных лиц из всей когорты, были приняты во внимание путем определения даты домашнего визита как начала (Boshuizen et al. 1998). Этот тип выбора далее рассматриваться не будет.

    Исследование данных

    Данные сохраняются в виде файла экспорта SAS . Функция read.xport () из внешнего пакета может считывать данные.

      библиотека (иностранная)
    file.sas <- "data / c85 / master85.xport "
    original.sas <- read.xport (file.sas)
    имена (original.sas) <- tolower (names (original.sas))
    тусклый (original.sas)  
      [1] 1236 351  

    Набор данных содержит 1236 строк и 351 столбец. Когда я выяснил происхождение данных, бывшие следователи сообщили мне, что файл был составлен в начале 1990-х годов из нескольких частей. Базовый компонент состоял из файла Dbase с множеством свободных текстовых полей. Специальная программа Fortran использовалась для разделения свободных текстовых полей.Все поля с медицинской и лекарственной информацией были вручную сверены с оригинальными формами. Информация, не необходимая для анализа, не очищалась. Вся информация была сохранена, поэтому файл содержит несколько версий одной и той же переменной.

    Первое сканирование данных показывает, что некоторые переменные представляют собой поля с произвольным текстом, коды лиц и т. Д. Поскольку эти поля не могут быть разумно вменены, они удаляются из данных. Кроме того, отбираются только 956 случаев, которые были первоначально посещены, а именно:

      # удалить 15 столбцов (текст, административный)
    все <- имена (исходный.sas)
    drop <- c (3, 22, 58, 162: 170, 206: 208)
    keep <-! (1: длина (все)% в% drop)
    leiden85 <- original.sas [original.sas $ abr == "1", сохранить]
    данные <- leiden85  

    Распределение частот пропущенных случаев по переменной можно получить как:

      ini <- mice (data, maxit = 0) # рекомендуется  
      Предупреждение: количество зарегистрированных событий: 28  
     
      0 2 3 5 7 14 15 28 29 32 33 34 35 36 40 42
     87 2 1 1 1 1 2 1 3 2 34 15 25 4 1 1
     43 44 45 46 47 48 49 50 51 54 64 72 85 103 121 126
      2 1 4 2 3 24 4 1 20 2 1 4 1 1 1 1
    137 155 157 168 169 201 202 228 229 230 231 232 233 238 333 350
      1 1 1 2 1 7 3 5 4 2 4 1 1 1 3 1
    501 606635 636 639 642 722 752 753 812 827 831 880 891 911 913
      3 1 2 1 1 2 1 5 3 1 1 3 3 3 3 1
    919 928 953 954 955
      1 1 3 3 3  

    Игнорируя на мгновение предупреждение, мы видим, что есть 87 полных переменных.Набор включает административные переменные (например, количество человек), факторы дизайна, дату измерения, показатели выживаемости, переменные выбора и так далее. В набор также входили некоторые переменные, для которых отсутствующие данные были случайно не отмечены, содержащие такие значения, как «999» или «-1». Например, частотное распределение полной переменной «beroep1» (занятость) составляет

    .
      таблица (данные $ beroep1, useNA = "always")  
     
      -1 0 1 2 3 4 5 6 
      42 1 576 125 104 47 44 17 0  

    Отсутствуют пропущенные значения, но переменная только с категориями «-1» и «0» является подозрительной.Категория «-1», вероятно, указывает на то, что информация отсутствовала (это действительно так). Один из вариантов - оставить это «как есть», чтобы mice () рассматривал его как полную информацию. В этом случае все случаи с отсутствующим родом занятий рассматриваются как однородная группа.

    Две другие переменные без отсутствующих маркеров данных: syst и diast , то есть систолическое и диастолическое АД, разделенные на шесть групп. Корреляция (с использованием наблюдаемых пар) между syst и rrsyst , переменной, представляющей основной интерес, равна 0.97. Включение syst в модель вменения для rrsyst приведет к разрушению вменения. Вариант «как есть» опасен и разделяет некоторые из тех же опасностей, что и индикаторный метод (см. Раздел 1.3.7). Смысл в том, что 100% полные переменные заслуживают должного внимания.

    После первого раунда скрининга я обнаружил, что 57 из 87 полных переменных в некотором смысле неинтересны или проблематичны. Их имена были помещены в список под названием outlist1 следующим образом:

      v1 <- имена (ini $ nmis [ini $ nmis == 0])
    outlist1 <- v1 [c (1, 3: 5, 7:10, 16:47, 51:60, 62, 64:65, 69:72)]
    длина (outlist1)  
      [1] 57  

    Outflux

    Мы также должны внимательно изучить переменные на другом конце.Переменные с большой долей отсутствующих данных обычно создают больше проблем, чем решают. Если некоторые из этих переменных не представляют подлинный интерес для исследователя, их лучше не учитывать. Практически каждый набор данных содержит некоторые части, которые лучше удалить перед вменением. Сюда входят, помимо прочего, неинтересные переменные с большой долей отсутствующих данных, переменные без кода для отсутствующих данных, административные переменные, постоянные переменные, дублированные, перекодированные или стандартизованные переменные, а также агрегаты и индексы другой информации.

    Рисунок 9.1: Глобальная картина притока-оттока данных Лейденской когорты 85+. Переменные с более высоким исходящим потоком (потенциально) являются более мощными предикторами. Переменные с более высоким притоком сильно зависят от модели вменения.

    На рис. 9.1 представлена ​​диаграмма притока-оттока данных Лейденской когорты 85+. Приток переменной количественно определяет, насколько хорошо ее недостающие данные связаны с наблюдаемыми данными по другим переменным. Отток переменной количественно определяет, насколько хорошо наблюдаемые данные связаны с отсутствующими данными по другим переменным.За подробностями обратитесь к Разделу 4.1.3. Хотя демонстрация, очевидно, могла бы выиграть от лучшей стратегии размещения этикеток, мы видим три группы. Все точки относительно близки к диагонали, что указывает на сбалансированность притока и оттока.

    Группа в левом верхнем углу содержит (почти) полную информацию, поэтому количество проблем с отсутствующими данными для этой группы относительно невелико. Промежуточная группа имеет отток от 0,5 до 0,8, что невелико. Проблемы с отсутствием данных более серьезны, но потенциально эта группа может содержать важные переменные.Третья группа имеет исходящий поток 0,5 и ниже, поэтому ее предсказательная сила ограничена. Кроме того, эта группа имеет большой приток и поэтому сильно зависит от модели вменения.

    Обратите внимание, что есть две переменные ( hypert1 и aovar ) в третьей группе, которые расположены над диагональю. При более внимательном рассмотрении выясняется, что метка отсутствующих данных не была установлена ​​для этих двух переменных. Переменные, которые в дальнейшем могут вызвать проблемы при вменении, расположены в правом нижнем углу.Предполагая, что эта группа не содержит переменных, представляющих научный интерес, я перенес 45 переменных с исходящим потоком <0,5 в список исходящих данных :

      outlist2 <- row.names (fx) [fx $ outflux <0,5]
    длина (outlist2)  
      [1] 45  

    В этих данных набор выбранных переменных идентичен группе с более чем 500 пропущенными значениями, но это не всегда так. Я удалил 45 переменных, пересчитал приток и отток для меньшего набора данных и выбрал 32 новые переменные с исходящим потоком <0.5.

      данные2 <- данные [,! Имена (данные)% в% outlist2]
    fx2 <- поток (данные2)
    outlist3 <- row.names (fx2) [fx2 $ outlux <0,5]  

    Переменная outlist3 содержит 32 имени переменных, среди которых много лабораторных измерений. Я предпочитаю оставить их для вменения, поскольку они могут хорошо коррелировать с АД и выживаемостью. Обратите внимание, что исходящий поток значительно изменился, когда я удалил 45 наименее наблюдаемых переменных. Приток остался почти таким же.

    Поиск проблем:

    зарегистрированных событий

    Другой источник информации - это список зарегистрированных событий, созданных мышью () .Предупреждение, которое мы проигнорировали ранее, указывает на то, что мышь обнаружила некоторые особенности в данных, которые требуют внимания пользователя. Записанные в журнал события образуют структурированный отчет, в котором выявляются проблемы с данными и подробно описываются корректирующие действия, предпринятые мышами () . Это компонент под названием loggedEvents объекта mids .

      голова (ini $ loggedEvents, 2)  
      это не меняет
    1 0 0 константа abr
    2 0 0 константа vo7  
      хвост (ini $ loggedEvents, 2)  
      это не меняет
    27 0 0 коллинеарный voor10
    28 0 0 коллинеарный voor11  

    При инициализации в журнал записываются следующие действия:

    • Постоянная переменная удаляется из модели вменения, если не удаляется .Константа = ЛОЖЬ указан аргумент ;

    • Переменная, коллинеарная другой переменной, удаляется из модели вменения, если не указан аргумент remove.collinear = FALSE .

    Переменная удаляется из модели путем внутреннего редактирования компонентов модели predictorMatrix , method , visitSequence и post . Данные остаются нетронутыми. Обратите внимание, что установка удаляет.constant = FALSE или remove.collinear = FALSE обходит обычные меры безопасности в мышах и может вызвать проблемы в дальнейшем. Если переменная имеет только NA , она считается постоянной переменной и не будет вменена. Установка remove.constant = FALSE вызовет числовые проблемы, поскольку нет наблюдаемых случаев для оценки модели вменения, но такие переменные могут быть вменены пассивным вменением, указав разрешение .na = ИСТИНА аргумент.

    Во время выполнения основного алгоритма записи в loggedEvents могут сигнализировать о следующих действиях:

    • Предиктор, который является постоянным или коррелирует с целевой переменной выше 0,999, удаляется из одномерной модели вменения. Значение отсечки может быть указано аргументом threshold ;

    • Если все предикторы удалены, это отмечается в loggedEvents , и модель вменения становится моделью только с перехватом;

    • Степени свободы могут стать отрицательными, обычно потому, что существует слишком много предикторов относительно количества наблюдаемых значений для цели.В этом случае для степеней свободы устанавливается значение 1, и примечание записывается в loggedEvents .

    Некоторые события могут произойти случайно, и в этом случае они безопасны. Однако, если записей много, вполне вероятно, что модель вменения чрезмерно параметризована, что приводит к вялому поведению и нестабильным оценкам. В этом случае необходимо упростить модель вменения.

    Компонент loggedEvents объекта mids представляет собой фрейм данных с пятью столбцами.Столбцы и , и обозначают номер итерации и вменения. Столбец dep содержит имя целевой переменной и остается пустым при инициализации. Столбец , запись мет сигнализирует о типе проблемы, например константа , df установлен на 1 и т. Д. Наконец, столбец из содержит имена удаленных переменных. Компонент loggedEvents содержит важные подсказки о возможных проблемах с моделью вменения.Более тщательное изучение этих журналов может помочь понять природу проблемы. В общем, стремитесь к нулю записей, и в этом случае компонент loggedEvent равен NULL .

    К сожалению, loggedEvents недоступен, если мышь дает сбой. Если это произойдет, проверьте вывод консоли, чтобы увидеть, какая была последняя переменная, и подумайте о причинах, которые могли вызвать сбой, например, используя категориальный предиктор со многими категориями в качестве предиктора.Затем удалите это с модели. В качестве альтернативы, снижение maxit , установка гребня на высокое значение ( гребень = 0,01 ) или использование более надежного метода вменения (например, pmm ) может вывести вас за пределы точки, в которой программа не работает. Затем получите loggedEvents , чтобы обнаружить любые проблемы.

    Продолжая анализ, основанный на начальном выводе mice () , я поместил имена всех констант и коллинеарных переменных в outlist4 на

      outlist4 <- as.символ (ini $ loggedEvents [, "out"])  

    Этот список содержит 28 переменных.

    Быстрый выбор предиктора:

    quickpred

    Пакет mice содержит функцию quickpred () , которая реализует стратегию выбора предиктора из Раздела 6.3.2. Чтобы применить эту стратегию к данным когорты Leiden 85+, я сначала удалил переменные в трех из четырех списков, созданных в предыдущих разделах.

      outlist <- уникальный (c (outlist1, outlist2, outlist4))
    длина (список)  
      [1] 108  

    Необходимо удалить 108 уникальных переменных.Таким образом, прежде чем проводить какие-либо вменения, я удалил около трети данных, которые могут вызвать проблемы. Уменьшенные данные:

      data2 <- data [,! Names (data)% in% outlist]  

    Следующим шагом является построение модели вменения в соответствии со стратегией, описанной выше. Функция quickpred () применяется следующим образом:

      inlist <- c ("секс", "лфтанам", "ррсист", "ррдиаст")
    пред <- quickpred (данные2, minpuc = 0,5, include = inlist)  

    В data2 есть 198 неполных переменных.Вектор символов в списке определяет имена переменных, которые должны быть включены как ковариаты в каждую модель вменения. Здесь я указал возраст, пол и артериальное давление. Артериальное давление - это переменная, представляющая центральный интерес, поэтому я включил ее во все модели. Этот список можно было бы увеличить, если бы было больше переменных результата. Список может также включать расчетные факторы.

    Функция quickpred () создает двоичную матрицу предикторов из 198 строк и 198 столбцов.Строки соответствуют неполным переменным, а столбцы содержат те же переменные, которые играют роль предикторов. Количество предикторов зависит от строки. Мы можем отобразить распределение количества предикторов по

     
     0 7 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
    30 1 2 1 1 2 5 2 13 8 16 9 13 7 5 6 10 6 3 6 4
    30 31 32 33 34 35 36 37 38 39 40 41 42 44 45 46 49 50 57 59 60
     8 3 6 9 2 4 6 2 5 2 4 2 3 4 3 3 3 1 1 1 1
    61 68 79 83 85
     1 1 1 1 1  

    Различия в размерах моделей значительны.30 строк без предикторов завершены. Среднее количество предикторов равно 24,8. На количество предикторов можно влиять, изменяя значения mincor и minpuc в quickpred () . Число предикторов от 15 до 25 примерно соответствует (см. Раздел 6.3.2), поэтому я решил принять эту матрицу предикторов. Количество предикторов систолического и диастолического АД составляет

    .
      rowSums (пред [c ("rrsyst", "rrdiast"),])  
      ррсист ррдиаст
         41 36  

    Имена предикторов для rrsyst можно получить по

      имена (данные2) [пред ["rrsyst",] == 1]  

    Иногда бывает полезно проверить корреляции предикторов, выбранных с помощью quickpred () .Таблица 3 в Van Buuren, Boshuizen и Knook (1999) дает пример. Для данной переменной корреляции могут быть сведены в таблицу с помощью

    .
      vname <- "rrsyst"
    y <- cbind (data2 [vname], r =! is.na (data2 [, vname]))
    vdata <- data2 [, pred [vname,] == 1]
    round (cor (y = y, x = vdata, use = "pair"), 2)  

    Генерация вменений

    Теперь все готово для вменения данных как

      imp.qp <- мыши (data2, pred = pred, seed = 29725)  

    Благодаря меньшему набору данных и более компактной модели вменения этот код работает примерно в 50 раз быстрее, чем «слепое вменение», как это практикуется в Разделе 9.1. Что еще более важно, новое решение намного лучше. Чтобы проиллюстрировать последнее, взгляните на рисунок 9.2.

    Рисунок 9.2: Диаграмма рассеяния систолического и диастолического артериального давления от первого вменения. Левосторонний график был получен после того, как мышей () просто обработали данными без какого-либо скрининга данных. Правый график - это результат после очистки данных и настройки матрицы предикторов с помощью quickpred () . Лейден 85+ Когортные данные.

    Рисунок представляет собой диаграмму рассеяния rrsyst и rrdiast первого вмененного набора данных.На рисунке слева показано, что может произойти, если данные не будут должным образом экранированы. В этом конкретном случае забытая пропущенная метка данных «-1» была посчитана как действительное значение артериального давления и произвела вменение, которое находится далеко. Напротив, вменения, созданные с помощью quickpred () , выглядят разумными.

    Сюжет создан по следующему коду:

      vnames <- c ("rrsyst", "rrdiast")
    cd1 <- mice :: complete (imp) [, vnames]
    cd2 <- mice :: complete (имп.qp) [, vnames]
    typ <- factor (rep (c ("слепое вменение", "quickpred"),
                      каждый = nrow (cd1)))
    mis <- ici (data2 [, vnames])
    mis <- is.na (imp $ data $ rrsyst) | is.na (imp $ data $ rrdiast)
    cd <- data.frame (typ = typ, mis = mis, rbind (cd1, cd2))
    xyplot (jitter (rrdiast, 10) ~ jitter (rrsyst, 10) | typ,
           data = cd, groups = mis,
           col = c (mdc (1), mdc (2)),
           xlab = "Систолическое АД (мм рт. ст.)",
           type = c ("g", "p"), ylab = "Диастолическое АД (мм рт. ст.)",
           pch = c (1, 19),
           strip = полоса.обычай (bg = "grey95"),
           scale = list (чередование = 1, tck = c (1, 0)))  

    Дальнейшее улучшение: выживаемость как предикторная переменная

    Если модель полных данных - это модель выживания, включающая совокупный риск для времени выживания, \ (H_0 (T) \), поскольку один из предикторов дает немного лучшие вменения (White and Royston 2009). Кроме того, в модель должен быть включен индикатор событий. Оценка Нельсона-Алена для \ (H_0 (T) \) в Лейденской когорте 85+ может быть рассчитана как

    .
      dat <- cbind (data2, dead = 1 - data2 $ dwa)
    опасность <- nelsonaalen (dat, Survda, dead)  

    , где мертвый закодирован таким образом, что «1» означает смерть.Функция nelsonaalen () является частью мышей . В таблице 9.1 перечислены корреляции между несколькими ключевыми переменными. Корреляция между \ (H_0 (T) \) и \ (T \) почти равна 1, поэтому для этих данных не имеет большого значения, берем ли мы \ (H_0 (T) \) или \ (T \) в качестве предиктора. . Высокая корреляция может быть вызвана тем, что почти все в этой когорте умерли, поэтому процент цензуры низкий. Корреляция между \ (H_0 (T) \) и \ (T \) может быть ниже в других эпидемиологических исследованиях, и поэтому может иметь значение, возьмем ли мы \ (H_0 (T) \) или \ (T \).Обратите внимание, что корреляция между log (\ (T \)) и артериальным давлением выше, чем для \ (H_0 (T) \) или \ (T \), поэтому имеет смысл добавить log (\ (T \)) как дополнительный предсказатель. Эта сильная связь могла быть следствием дизайна, поскольку в первую очередь измеряли хрупких людей.

    Таблица 9.1: Корреляции Пирсона между совокупным риском смерти \ (H_0 (T) \), временем выживания \ (T \), log (\ (T \)), систолическим и диастолическим артериальным давлением.
    \ (H_0 (T) \) 1.000 0,997 0,830 0,169 0,137
    \ (Т \) 0,997 1.000 0,862 0,176 0,141
    журнал (\ (T \)) 0,830 0,862 1.000 0,205 0,151
    SBP 0,169 0,176 0,205 1.000 0,592
    ДАД 0.137 0,141 0,151 0,592 1.000

    Некоторое руководство

    Вписать данные с большим количеством столбцов сложно. Даже самые тщательно разработанные и хорошо поддерживаемые данные могут содержать информацию или ошибки, которые могут привести к неправильным расчетам. Я завершаю этот раздел, резюмируя рекомендации по условному исчислению данных со «слишком большим количеством столбцов».

    1. Проверьте все переменные на предмет забытых отсутствующих меток данных.Восстановите или удалите эти переменные. Даже одна забытая отметка может испортить модель вменения. Удалите выбросы с невероятными значениями.

    2. Получите представление о сильных и слабых сторонах данных, изучив модель притока-оттока. Если они не имеют научного значения, удалите переменные с низким исходящим потоком или с большой долей отсутствующих данных.

    3. Выполните пробный прогон с maxit = 0 и проверьте зарегистрированные события, произведенные мышью () .Перед вменением удалите все постоянные и коллинеарные переменные.

    4. Узнайте, что произойдет после вменения данных. Определите набор переменных, которые важны для последующего анализа, и включите их в качестве предикторов во все модели. Преобразуйте переменные, чтобы улучшить предсказуемость и согласованность в модели полных данных.

    5. Запустите quickpred () и определите значения mincor и minpuc , так что среднее количество предикторов составляет около 25.

    6. После вменения определите, являются ли сгенерированные вменения разумными, сравнив их с наблюдаемой информацией и знаниями, внешними по отношению к данным. При необходимости скорректируйте модель.

    7. Задокументируйте свои действия и решения и получите обратную связь от владельца данных.

    Похожие записи

    Вам будет интересно

    Основной оквэд: что это, как выбрать, сколько кодов можно указывать, ответственность за работу без кода

    Топ 50 востребованных профессий – Топ-50 профессий, которые требуют среднего профоразования, одобрен Министерством труда

    Добавить комментарий

    Комментарий добавить легко