Get Mystery Box with random crypto!

Как Microsoft Excel влияет на названия человеческих генов Люб | Артем Бородатюк

Как Microsoft Excel влияет на названия человеческих генов

Люблю истории, когда современные технологии самым непредсказуемым образом влияют на науку. Оказалось, что за последний год около 27 человеческих генов были переименованы, потому, что Microsoft Excel их автоматически форматировал и ученых это просто достало :).

Комитет по номенклатуре генов HGNC опубликовал новые рекомендации по именованию генов, в том числе для «символов, которые влияют на обработку и поиск данных». Отныне, по их словам, человеческие гены и экспрессируемые ими белки будут именоваться с учетом автоматического форматирования Excel. Это означает, что имя гена MARCH1 теперь обозначается как MARCHF1, а гена SEPT1 – SEPTIN1, и так далее.

Примеры выше были такие, где название гена Excel правил в даты. Вторая проблема, решенная HGNC – чтобы обозначения не читались как простые слова: имя гена CARS было изменено на CARS1, WARS – на WARS1, а MARS стал MARS1.

Но была и более неочевидная третья проблема – ген «sonic hedgehog», названный в честь приставочного Соника и «Indy» от «I'm not dead yet» как отсылка на функцию гена, которая при мутации может удвоить продолжительность жизни плодовых мушек. Эти названия тоже пришлось изменить: INDY стал MINDY, или SLC13A5, а Sonic Hedgehog – просто SHH.

Словом, в прошлом генетики над названиями генов не парились. Это и стало этаким «выстрелом в ногу» всей науке: исследование Мельбурнского академического института Baker IDI в 2016 году изучило 3597 опубликованных статей по генетике человека и в примерно 20% из них нашла ошибки Excel.

Решение

После обнаружения проблемы требования HGNC стали гораздо жестче: символы генов должны быть уникальными, а названия – краткими и конкретными. Нельзя использовать подстрочный или надстрочный индекс, название гена может содержать только латинские буквы и арабские цифры. И, в идеале, не выглядеть оскорбительно на любом языке. Тут мне интересно, как ученые должны знать все оскорбления на всех языках :)?

О современном мире

Почему бы всем известной программе не учесть названия генов? Это было бы логично. Но ответ кроется в самом вопросе: пользователей программы на несколько миллиардов больше, чем кучки ученых-генетиков. Надстройка на код Excel таким бедолагам не светит.

Да, можно хитрить с форматом ячеек, выставлять загодя правильные атрибуты, но обычно проблема встает перед генетиком уже постфактум: когда работа уже набрана на компе и засунута на флешку. И проблемы – чаще всего – возникают как раз при передаче табличных файлов на другие системы, в которых программы автоматом проставляют даты вместо того же MARCH1. Особенно в формате CSV. Кто перегонял курсач на старые флешки и открывал у товарища «просто распечатать» – тоже помнит и скорбит.

- - -

Просто задумайтесь – целая наука прогнулась под требования табличной программы. Хвост машет собакой и большинство опять указывает меньшинству.

Ну а пока – Microsoft Excel VS Human Genetics: 1-0.

@artemborodatiuk